数据结构课件第十章.ppt
1,数据结构课程的内容,2,9.1 概述9.2 插入排序9.3 交换排序9.4 选择排序9.5 归并排序9.6 基数排序,第十章 内部排序,3,10.1 概述,1、排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“按关键字有序”的记录序列。,52,49,80,36,14,58,61,23,97,75,14,23,36,49,52,58,61,75,80,97,一般情况下,假设含n个记录的序列为R1,R2,Rn其相应的关键字序列为 K1,K2,Kn,这些关键字相互之间可以进行比较,即在它们之间存在这样一个关系:Kp1=Kp2=Kpn按此固有关系将上式记录序列重新排列为Rp1,Rp2,Rpn的操作称作排序,4,2、关键字,数据对象有多个属性域,即多个数据成员组成,其中有一个属性域可以用来区分对象,作为排序依据,称为关键字。,关键字与记录之间是一对一的关系 称主关键字关键字与记录之间是一对多的关系 称次关键字,5,3、排序的目的是什么?,便于查找,4、排序算法的好坏如何衡量?,时间效率 排序速度(即排序所花费的全部比较次数)空间效率 占内存辅助空间的大小 稳定性 若两个记录A和B的关键字相等,但排序后A,B的先后次序保持不变,则称这种排序算法是稳定的。,6,5、什么叫内部排序?什么叫外部排序,若待排序记录都在内存中,称内部排序 若待排序记录一部分在内存,一部分在外存,则称为外部排序。注:外部排序时,要将数据分批调入内存来排序,中间结果还要及时放入内存,显然外部排序要复杂得的多。,内部排序和外部排序的不同在于能否一次处理完所有数据,7,6、排序主要做的工作:,比较+移动,8,7.内部排序的算法有哪些?,按排序的规则不同,可分为5类:插入排序交换排序(重点是快速排序)选择排序归并排序基数排序,d关键字的位数(长度),按排序算法的时间复杂度不同,可分为3类:简单的排序算法:时间效率低,O(n2)先进的排序算法:时间效率高,O(nlog2n)基数排序算算法:时间效率高,O(dn),9,9.2 插入排序,插入排序的基本思想是:,插入排序有多种具体实现算法:1)直接插入排序 2)折半插入排序 3)希尔排序,每步将一个待排序的对象,按其关键码大小,插入到前面已经排好序的一组对象的适当位置上,直到对象全部插入为止。,简言之,边插入边排序,保证子序列中随时都是排好序的。,10,1)直接插入排序,新元素插入到哪里?,例1:关键字序列T=(13,6,3,31,9,27,5,11),请写出直接插入排序的中间过程序列。,【13】,6,3,31,9,27,5,11【6,13】,3,31,9,27,5,11【3,6,13】,31,9,27,5,11【3,6,13,31】,9,27,5,11【3,6,9,13,31】,27,5,11【3,6,9,13,27,31】,5,11【3,5,6,9,13,27,31】,11【3,5,6,9,11,13,27,31】,在已形成的有序表中线性查找,并在适当位置插入,把原来位置上的元素向后顺移。,最简单的排序法!,11,例题 对下列存放在数组A中的序列采用直接插入排序法排序。,49,38,65,97,13,76,27,49,A0,A1,A2,A3,A4,A5,A6,A7,A8,监视哨,注 紫色 表示待排数据;蓝色 表示已经有序数据,49,38,第 趟插入排序,1,待排元素,38,49,38,38,65,2,待排元素,49,65,97,3,待排元素,97,76,4,待排元素,76,97,76,5,待排元素,97,13,76,13,65,49,38,13,97,27,6,待排元素,76,27,65,49,38,27,待排元素,7,97,49,76,65,49,49,49,排序趟数=数据个数-1,12,2)折半插入排序,优点:比较的次数大大减少,全部元素比较次数仅为O(nlog2n)。时间效率:虽然比较次数大大减少,可惜移动次数并未减少,所以排序效率仍为O(n2)。空间效率:O(1)稳定性:稳定 对应程序见教材P267(仅用于顺序表),新元素插入到哪里?,讨论:若记录是链表结构,用直接插入排序行否?折半插入排序呢?答:直接插入不仅可行,而且还无需移动元素,时间效率更高!,在已形成的有序表中折半查找,并在适当位置插入,把原来位置上的元素向后顺移。,但链表无法“折半”!,13,例1:关键字序列T=(13,6,3,31,9,27,5,11),请写出直接插入排序的中间过程序列。,【13】,6,3,31,9,27,5,11【6,13】,3,31,9,27,5,11【3,6,13】,31,9,27,5,11【3,6,13,31】,9,27,5,11【3,6,9,13,31】,27,5,11【3,6,9,13,27,31】,5,11【3,5,6,9,13,27,31】,11【3,5,6,9,11,13,27,31】,14,(4236),(4253),15,3)希尔(shell)排序(又称缩小增量排序),基本思想:先将整个待排记录序列分割成若干子序列,分别进行直接插入排序,待整个序列中的记录“基本有序”时,再对全体记录进行一次直接插入排序。技巧:子序列的构成不是简单地“逐段分割”,而是将相隔某个增量dk的记录组成一个子序列,让增量dk逐趟缩短(例如依次取5,3,1),直到dk1为止。优点:让关键字值小的元素能很快前移,且序列若基本有序时,再用直接插入排序处理,时间效率会高很多。,16,例 对下列序列采用希尔排序,49 38 65 97 76 13 27 49 55 04,第一趟希尔排序 增量为 5,49,38,65,97,76,13,27,49,55,04,13,49,27,38,49,65,97,55,04,76,17,例 对下列序列采用希尔排序,49 38 65 97 76 13 27 49 55 04,第二趟希尔排序 增量为 3,13,49,27,38,49,65,97,55,04,76,13,38,55,76,04,27,65,49,49,97,18,例 对下列序列采用希尔排序,49 38 65 97 76 13 27 49 55 04,第三趟希尔排序 增量为 1,13,38,55,04,27,65,49,49,97,76,04,13,27,38,49,49,55,65,76,97,19,时间性能:希尔排序的分析非常困难,原因是何种步长序列最优难以断定。通常认为时间复杂度为:O(n3/2)。较好的步长序列:121、40、13、4、1;可由递推公式 Si=3Si-1+1 产生。空间性能:只用一个额外空间,空间复杂度为O(1);稳定性:希尔排序是不稳定的排序算法,效率分析,20,9.3 交换排序,两两比较待排序记录的关键码,如果发生逆序(即排列顺序与排序后的次序正好相反),则交换之,直到所有记录都排好序为止。,交换排序的主要算法有:1)冒泡排序 2)快速排序,交换排序的基本思想是:,21,1)冒泡排序,基本思路:每趟不断将记录两两比较,并按“前小后大”(或“前大后小”)规则交换。优点:每趟结束时,不仅能挤出一个最大值到最后面位置,还能同时部分理顺其他元素;一旦下趟没有交换发生,还可以提前结束排序。前提:顺序存储结构,例:关键字序列 T=(21,25,49,25*,16,08),请写出冒泡排序的具体实现过程。,21,25,49,25*,16,0821,25,25*,16,08,4921,25,16,08,25*,4921,16,08,25,25*,4916,08,21,25,25*,4908,16,21,25,25*,49,初态:第1趟第2趟第3趟第4趟第5趟,22,2)快速排序,从待排序列中任取一个元素(例如取第一个)作为中心,所有比它小的元素一律前放,所有比它大的元素一律后放,形成左右两个子表;然后再对各子表重新选择中心元素并依此规则调整,直到每个子表的元素只剩一个。此时便为有序序列了。,基本思想:,优点:因为每趟可以确定不止一个元素的位置,而且呈指数增加,所以特别快!前提:顺序存储结构,23,快速排序举例,初始关键字:49,38,65,97,76,13,27,49,一趟完成后:27,38,13,49,76,97,65,49,24,例 对下列序列采用快速排序,49 38 65 97 76 13 27 49,第 趟快速排序,1,49,38,65,97,76,13,27,49,枢轴,low,high,49,low,high,low,high,high,low=high则此位置就是枢轴49的最终位置,第一趟快速排序结束,25,例 对下列序列采用快速排序,49 38 65 97 76 13 27 49,第 趟快速排序,1,2,27,38,13,49,76,97,65,49,枢轴,首先对49之前的数据采用快速排序,27,low,high,low=high,27,枢轴27之前和之后都只有一个值,不再需要排序,13,38,26,例 对下列序列采用快速排序,49 38 65 97 76 13 27 49,第 趟快速排序,2,然后对49之后的数据采用快速排序,13,38,49,76,97,65,49,枢轴,76,low,high,low,Low=high,76,枢轴76后面的97也不需再次排序,27,97,第二趟快速排序结束,27,例 对下列序列采用快速排序,49 38 65 97 76 13 27 49,第 趟快速排序,2,3,13,38,49,49,65,76,27,97,枢轴,对76之前的数据采用快速排序,49,high,low,low=high,49,65,整个排序结束,28,关键字序列T=(21,25,49,25*,16,08),请给出快速排序的具体实现过程。,29,“快速排序”是否真的比任何排序算法都快?,设每个子表的支点都在中间(比较均衡),则:第1趟比较,可以确定1个元素的位置;第2趟比较(2个子表),可以再确定2个元素的位置;第3趟比较(4个子表),可以再确定4个元素的位置;第4趟比较(8个子表),可以再确定8个元素的位置;只需log2n 1趟便可排好序。,基本上是!因为每趟可以确定的数据元素是呈指数增加的!,而且,每趟需要比较和移动的元素也呈指数下降,加上编程时使用了交替逼近技巧,更进一步减少了移动次数,所以速度特别快。1 2 3 4 5 6 7 8 9 10,30,时间效率 快速排序在平均情况下的时间复杂性为O(nlog2n),通常认为是在所有同数量级排序算法中,平均情况下最佳的排序方法。但是,在最坏的情况下(待排记录有序)的快速排序会蜕变成为冒泡排序,时间复杂度为O(n2)。可以采用一些改进措施尽量避免这种情况的出现。空间效率 快速排序是递归算法,需要有一个栈存放每层递归调用时的指针和参数,递归的次数决定额外空间的多少。最理想的递归次数是 log2(n+1),故空间复杂度为O(log2n)。稳定性 快速排序为不稳定的排序算法。1 2 3 4 5 6 7 8 9 10,效率分析,31,9.4 选择排序,选择排序有多种具体实现算法:1)简单选择排序 2)堆排序,选择排序的基本思想是:每一趟在后面n-i 个待排记录中选取关键字最小的记录作为有序序列中的第i 个记录。,32,1)简单选择排序,思路简单:每经过一趟比较就找出一个最小值,与待排序列最前面的位置互换即可。首先,在n个记录中选择最小者放到r1位置;然后,从剩余的n-1个记录中选择最小者放到r2位置;如此进行下去,直到全部有序为止。优点:实现简单缺点:每趟只能确定一个元素,表长为n时需要n-1趟前提:顺序存储结构,33,例:关键字序列T=(21,25,49,25*,16,08),请给出简单选择排序的具体实现过程。,原始序列:21,25,49,25*,16,08,直接选择排序,第1趟第2趟第3趟第4趟第5趟,08,25,49,25*,16,2108,16,49,25*,25,2108,16,21,25*,25,4908,16,21,25*,25,4908,16,21,25*,25,49,时间效率:O(n2)虽移动次数较少,但比较次数仍多。空间效率:O(1)无需任何附加单元!算法的稳定性:不稳定因为排序时,25*到了25的前面。,最小值 08 与r1交换位置,34,2)堆排序,1.什么是堆?,堆的定义:设有n个元素的序列 k1,k2,kn,当且仅当满足下述关系之一时,称之为堆。,或者,i=1,2,n/2,2.怎样建堆?,3.怎样堆排序?,解释:如果让满足以上条件的元素序列(k1,k2,kn)顺次排成一棵完全二叉树,则此树的特点是:树中所有结点的值均大于(或小于)其左右孩子,此树的根结点(即堆顶)必最大(或最小)。,35,1,2,3,4,5,6,7,8,9,注意:对于结点i,in/2时,表示结点i为叶子结点。,36,(大根堆),例:,有序列T1=(08,25,49,46,58,67)和序列T2=(91,85,76,66,58,67,55),判断它们是否“堆”?,(小根堆),(小顶堆)(最小堆),(大顶堆)(最大堆),37,步骤:从最后一个非终端结点开始往前逐步调整,让每个双亲大于(或小于)子女,直到根结点为止。,例:关键字序列T=(21,25,49,25*,16,08),请建大根堆。,2.怎样建堆?,解:为便于理解,先将原始序列画成完全二叉树的形式:,完全二叉树的第一个非终端结点编号必为n/2!(性质5),注:终端结点(即叶子)没有任何子女,无需单独调整。,21,i=3:49大于08,不必调整;i=2:25大于25*和16,也不必调整;i=1:21小于25和49,要调整!,49,而且21还应当向下比较!,38,关键:将堆的当前顶点输出后,如何将剩余序列重新调整为堆?方法:将当前顶点与堆尾记录交换,然后仿建堆动作重新调整,如此反复直至排序结束。,3.怎样进行堆排序?,39,交换 1号与 6 号记录,例:对刚才建好的大根堆进行排序:,40,08 25 21 25*16 49,从 1 号到 5 号 重新调整为最大堆,08,25,25*,25 08 21 25*16 49,08,25 25*21 08 16 49,41,从 1号到 4号 重新调整为最大堆,42,从 1 号到 3号 重新调整为最大堆,43,16 08 21 25*25 49,从 1 号到 2 号 重新调整为最大堆,44,9.5 归并排序,归并排序的基本思想是:将两个(或以上)的有序表组成新的有序表。更实际的意义:可以把一个长度为n 的无序序列看成是 n 个长度为 1 的有序子序列,首先做两两归并,得到 n/2 个长度为 2 的子序列;再做两两归并,如此重复,直到最后得到一个长度为 n 的有序序列。,例:关键字序列T=(21,25,49,25*,93,62,72,08,37,16,54),请给出归并排序的具体实现过程。,45,len=1,len=2,len=4,len=8,len=16,整个归并排序仅需log2n 趟,46,归并排序算法分析:,时间效率:O(nlog2n)因为在递归的归并排序算法中,函数Merge()做一趟两路归并排序,需要调用merge()函数 n/(2*len)O(n/len)次,函数Merge()调用Merge()正好log2n 次,而每次merge()要执行比较O(len)次,所以算法总的时间复杂度为O(nlog2n)。空间效率:O(n)因为需要一个与原始序列同样大小的辅助序列(TR)。这正是此算法的缺点。稳定性:稳定,47,9.6 基数排序(Radix Sort),要讨论的问题:1.什么是“多关键字”排序?实现方法?2.单逻辑关键字怎样“按位值”排序?,基数排序的基本思想是:,借助多关键字排序的思想对单逻辑关键字进行排序。即:用关键字不同的位值进行排序。,48,1.什么是“多关键字”排序?实现方法?,例1:对一副扑克牌该如何排序?若规定花色和面值的顺序关系为:花色:面值:2 3 4 5 6 7 8 9 10 J Q K A 则可以先按花色排序,花色相同者再按面值排序;也可以先按面值排序,面值相同者再按花色排序。,例2:职工分房该如何排序?河大规定:先以总分排序(职称分工龄分);总分相同者,再按配偶总分排序,其次按配偶职称、工龄、人口等等排序。,以上两例都是典型的多关键字排序!,49,多关键字排序的实现方法通常有两种:,最高位优先法MSD(Most Significant Digit first),例:对一副扑克牌该如何排序?答:若规定花色为第一关键字(高位),面值为第二关键字(低位),则使用MSD和LSD方法都可以达到排序目的。MSD方法的思路:先设立4个花色“箱”,将全部牌按花色分别归入4个箱内(每个箱中有13张牌);然后对每个箱中的牌按面值进行插入排序(或其它稳定算法)。LSD方法的思路:先按面值分成13堆(每堆4张牌),然后对每堆中的牌按花色进行排序(用插入排序等稳定的算法)。,想一想:用哪种方法更快些?,最低位优先法LSD(Least Significant Digit first),50,2.单逻辑关键字怎样“按位值”排序?,设n 个记录的序列为:V0,V1,Vn-1,可以把每个记录Vi 的单关键码 Ki 看成是一个d元组(Ki1,Ki2,Kid),则其中的每一个分量Kij(1 j d)也可看成是一个关键字。,4,注1:Ki1最高位,Kid最低位;Ki共有d位,可看成d元组;注2:每个分量Kij(1 j d)有radix种取值,则称radix为基数。,26,(9,8,4),(0,1,9),(a,b,z),(d,i,a,n),3,10,思路:,51,因为有分组,故此算法需递归实现。,讨论:是借用MSD方式来排序呢,还是借用LSD方式?,例:初始关键字序列T=(32,13,27,32*,19,33),请分别用MSD和LSD进行排序,并讨论其优缺点。,法1(MSD):原始序列:32,13,27,32*,19,33 先按高位Ki1 排序:(13,19),27,(32,32*,33)再按低位Ki2 排序:13,19,27,32,32*,33,法2(LSD):原始序列:32,13,27,32*,19,33 先按低位Ki2排序:32,32*,13,33,27,19 再按高位Ki1排序:13,19,27,32,32*,33,无需分组,易编程实现!,52,例:T=(02,77,70,54,64,21,55,11),用LSD排序。分析:各关键字可视为2元组;每位的取值范围是:0-9;即基数radix 10。因此,特设置10个队列,并编号为0-9。,计算机怎样实现LSD算法?,分配过程,收集过程,77,55,54,64,21,11,70,02,又称散列过程!,53,小结:排序时经过了反复的“分配”和“收集”过程。当对关键字所有的位进行扫描排序后,整个序列便从无序变为有序了。,70,77,64,54,55,21,11,02,再次分配,再次收集,这种LSD排序方法称为:,基数排序,54,请实现以下关键字序列的链式基数排序:T=(614,738,921,485,637,101,215,530,790,306),例:,第一趟分配,e0 e1 e2 e3 e4 e5 e6 e7 e8 e9,614,738,921,485,637,101,215,530,790,306,f0 f1 f2 f3 f4 f5 f6 f7 f8 f9,原始序列链表:,r0,(从最低位 i=3开始排序,f 是队首指针,e 为队尾指针),第一趟收集(让队尾指针ei 链接到下一非空队首指针fi+1 即可),r0,55,第一趟收集的结果:,e0 e1 e2 e3 e4 e5 e6 e7 e8 e9,614,738,921,485,637,101,215,530,790,306,f0 f1 f2 f3 f4 f5 f6 f7 f8 f9,第二趟分配(按次低位 i=2),第二趟收集(让队尾指针ei 链接到下一非空队首指针fi+1),r0,r0,56,第二趟收集的结果:,e0 e1 e2 e3 e4 e5 e6 e7 e8 e9,614,738,921,485,637,101,215,530,790,306,f0 f1 f2 f3 f4 f5 f6 f7 f8 f9,第三趟分配(按最高位 i=1),第三趟收集(让队尾指针ei 链接到下一非空队首指针fi+1),r0,r0,57,基数排序算法分析,假设有n 个记录,每个记录的关键字有d 位,每个关键字的取值有radix个,则需要radix个队列,进行d 趟“分配”与“收集”。因此时间复杂度:O(d(n+radix)。基数排序需要增加n+2radix个附加链接指针,空间效率低 空间复杂度:O(radix).稳定性:稳定。(一直前后有序)。用途:若基数radix相同,对于记录个数较多而关键码位数较少的情况,使用链式基数排序较好。,特点:不用比较和移动,改用分配和收集,时间效率高!,58,各种内部排序方法的比较(教材P289),59,讨论:若初始记录基本无序,则选用哪些排序方法比较适合?若初始记录基本无序,则最好选用哪些排序方法?,答:对基本有序的情况,可选用堆排序、冒泡排序、归并排序等方法;在基本无序的情况下,最好选用快速排序、希尔排序。,想一想:能选用折半排序么?,