数据结构-排序.ppt

上传人：小飞机

文档编号：6364975

上传时间：2023-10-21

格式：PPT

页数：118

大小：1.42MB

《数据结构-排序.ppt》由会员分享，可在线阅读，更多相关《数据结构-排序.ppt（118页珍藏版）》请在三一办公上搜索。

1、第10章内部排序,10.1 概述,10.2 插入排序,10.3 快速排序,10.4 堆排序,10.5 归并排序,10.6 基数排序,10.7 各种排序方法的综合比较,10.1 概述,一、排序的定义,二、内部排序和外部排序,三、内部排序方法的分类,一、什么是排序？,排序是计算机内经常进行的一种操作，其目的是将一组“无序”的记录序列调整为“有序”的记录序列。,例如：将下列关键字序列,52,49,80,36,14,58,61,23,97,75,调整为,14,23,36,49,52,58,61,75,80,97,1.什么是排序？将一组杂乱无章的数据按一定的规律顺次排列起来。,2.排序的目的是什么？

2、,存放在数据表中,按关键字排序,3.排序算法的好坏如何衡量？时间效率排序速度（即排序所花费的全部比较次数）空间效率占内存辅助空间的大小稳定性若两个记录A和B的关键字值相等，但排序后A、B的先后次序保持不变，则称这种排序算法是稳定的。,便于查找！,二、内部排序和外部排序,若待排序记录都在内存中，整个排序过程不需要访问外存便能完成，则称此类排序问题为内部排序；,反之，若参加排序的记录数量很大，整个序列的排序过程不可能在内存中完成，则称此类排序问题为外部排序。,三、内部排序的方法,内部排序的过程是一个逐步扩大记录的有序序列长度的过程。,经过一趟排序,有序序列区,无序序列区,有序序列区,无

3、序序列区,基于不同的“扩大”有序序列长度的方法，内部排序方法大致可分下列几种类型：,插入类,交换类,选择类,归并类,基数排序,待排记录的数据类型定义如下:,#define MAXSIZE 1000/待排顺序表最大长度,typedef int KeyType;/关键字类型为整数类型,typedef struct KeyType key;/关键字项 InfoType otherinfo;/其它数据项 RcdType;/记录类型,typedef struct RcdType rMAXSIZE+1;/r0闲置 int length;/顺序表长度 SqList;/顺序表类型,1.插入类,将无序子序

4、列中的一个或几个记录“插入”到有序序列中，从而增加记录的有序子序列的长度。,2.交换类,通过“交换”无序序列中的记录从而得到其中关键字最小或最大的记录，并将它加入到有序子序列中，以此方法增加记录的有序子序列的长度。,3.选择类,从记录的无序子序列中“选择”关键字最小或最大的记录，并将它加入到有序子序列中，以此方法增加记录的有序子序列的长度。,4.归并类,通过“归并”两个或两个以上的记录有序子序列，逐步增加记录有序序列的长度。,10.2 插入排序,插入排序的基本思想是：,每步将一个待排序的对象，按其关键码大小，插入到前面已经排好序的一组对象的适当位置上，直到对象全部插入为止。,简言之，边插

5、入边排序，保证子序列中随时都是排好序的,有序序列R1.i-1,Ri,无序序列 Ri.n,一趟直接插入排序的基本思想：,有序序列R1.i,无序序列 Ri+1.n,实现“一趟插入排序”可分三步进行：,3将Ri 插入(复制)到Rj+1的位置上。,2将Rj+1.i-1中的所有记录均后移一个位置；,1在R1.i-1中查找Ri的插入位置，R1.j.key Ri.key Rj+1.i-1.key；,直接插入排序（基于顺序查找）,表插入排序（基于链表存储）,不同的具体实现方法导致不同的算法描述,折半插入排序（基于折半查找）,希尔排序（基于逐趟缩小增量）,1)直接插入排序,新元素插入到哪里？,例1：关键字序列

6、T=（13，6，3，31，9，27，5，11），请写出直接插入排序的中间过程序列。,【13】,6,3,31,9,27,5,11【6,13】,3,31,9,27,5,11【3,6,13】,31,9,27,5,11【3,6,13，31】,9,27,5,11【3,6,9,13，31】,27,5,11【3,6,9,13，27,31】,5,11【3,5,6,9,13，27,31】,11【3,5,6,9,11，13，27,31】,在已形成的有序表中线性查找，并在适当位置插入，把原来位置上的元素向后顺移。,最简单的排序法！,一、直接插入排序,利用“顺序查找”实现“在R1.i-1中查找Ri的插入位置”,算法的

7、实现要点：,从Ri-1起向前进行顺序查找，监视哨设置在R0；,R0=Ri;/设置“哨兵”,循环结束表明Ri的插入位置为 j+1,R0,j,Ri,for(j=i-1;R0.keyRj.key;-j);/从后往前找,j=i-1,插入位置,对于在查找过程中找到的那些关键字不小于Ri.key的记录，并在查找的同时实现记录向后移动；,for(j=i-1;R0.keyRj.key;-j)Rj+1=Rj,R0,j,Ri,j=i-1,上述循环结束后可以直接进行“插入”,插入位置,令 i=2，3，,n,实现整个序列的排序。,for(i=2;i=n;+i)if(Ri.keyRi-1.key)在 R1.i-1中查找

8、Ri的插入位置;插入Ri;,void InsertionSort(SqList+i)if(L.ri.key L.ri-1.key)/InsertSort,L.r0=L.ri;/复制为监视哨for(j=i-1;L.r0.key L.rj.key;-j)L.rj+1=L.rj;/记录后移L.rj+1=L.r0;/插入到正确位置,例2：关键字序列T=（21，25，49，25*，16，08），请写出直接插入排序的具体实现过程。,*表示后一个25,i=1,21,i=2,i=3,i=5,i=4,i=6,25,49,25*,49,16,16,08,49,解：假设该序列已存入一维数组r7中，将r0作为哨兵（T

9、emp）。则程序执行过程为：,初态：,16,25,21,16,完成!,时间效率：因为在最坏情况下，所有元素的比较次数总和为（01n-1)O(n2)。其他情况下也要考虑移动元素的次数。故时间复杂度为O(n2)空间效率：仅占用1个缓冲单元O（1）算法的稳定性：因为25*排序后仍然在25的后面稳定,内部排序的时间分析：,实现内部排序的基本操作有两个：,（2）“移动”记录。,（1）“比较”序列中两个关键字的大小；,对于直接插入排序：,最好的情况（关键字在记录序列中顺序有序）：,“比较”的次数：,最坏的情况（关键字在记录序列中逆序有序）：,“比较”的次数：,0,“移动”的次数：,“移动”的次数：,时间

10、复杂度为O(n2),2）折半插入排序,优点：比较次数大大减少，全部元素比较次数仅为O(nlog2n)。时间效率：虽然比较次数大大减少，可惜移动次数并未减少，所以排序效率仍为O(n2)。空间效率：仍为 O（1）稳定性：稳定,一个的改进方法：,思考：折半插入排序还可以改进吗？能否减少移动次数？,既然子表有序且为顺序存储结构，则插入时采用折半查找定可加速。,3）希尔（shell）排序,基本思想：先将整个待排记录序列分割成若干子序列,分别进行直接插入排序，待整个序列中的记录“基本有序”时，再对全体记录进行一次直接插入排序。技巧：子序列的构成不是简单地“逐段分割”，而是将相隔某个增量dk的记录组成一

11、个子序列,让增量dk逐趟缩短（例如依次取5,3,1），直到dk1为止。优点：让关键字值小的元素能很快前移，且序列若基本有序时，再用直接插入排序处理，时间效率会高很多。,又称缩小增量排序,38,例：关键字序列 T=(49，38，65，97,76,13,27,49*，55,04），请写出希尔排序的具体实现过程(dk=5,3,1)。,初态：,第1趟(dk=5),第2趟(dk=3),第3趟(dk=1),49,13,13,49,38,27,65,49*,97,55,76,04,27,38,65,49*,97,55,13,55,76,04,55,13,27,04,27,04,49,49*,49,49*,7

12、6,38,76,65,65,97,97,13,27,04,49*,76,97,算法分析：开始时dk 的值较大，子序列中的对象较少，排序速度较快；随着排序进展，dk 值逐渐变小，子序列中对象个数逐渐变多，由于前面工作的基础，大多数对象已基本有序，所以排序速度仍然很快。,ri,时间效率：,空间效率：O（1）因为仅占用1个缓冲单元算法的稳定性：不稳定因为49*排序后却到了49的前面,O(n1.25）O（1.6n1.25）由经验公式得到,10.3 交换排序,两两比较待排序记录的关键码，如果发生逆序（即排列顺序与排序后的次序正好相反），则交换之，直到所有记录都排好序为止。,交换排序的主要算法有：1)冒泡

13、排序 2)快速排序,交换排序的基本思想是：,一、起泡排序,二、一趟快速排序,三、快速排序,四、快速排序的时间分析,一、起泡排序,假设在排序过程中，记录序列R1.n的状态为：,第 i 趟起泡排序,无序序列R1.n-i+1,有序序列 Rn-i+2.n,n-i+1,无序序列R1.n-i,有序序列 Rn-i+1.n,比较相邻记录，将关键字最大的记录交换到 n-i+1 的位置上,1)冒泡排序,基本思路：每趟不断将记录两两比较，并按“前小后大”（或“前大后小”）规则交换。优点：每趟结束时，能挤出一个最大值到最后面位置，一旦下趟没有交换发生，还可以提前结束排序。前提：顺序存储结构,例：关键字序列 T=(21

14、，25，49，25*，16，08），请写出冒泡排序的具体实现过程。,21，25，49，25*，16，0821，25，25*，16，08，4921，25，16，08，25*，4921，16，08，25，25*，4916，08，21，25，25*，4908，16，21，25，25*，49,初态：第1趟第2趟第3趟第4趟第5趟,void BubbleSort(Elem R,int n)while(i 1)/while/BubbleSort,i=n;,i=lastExchangeIndex;/本趟进行过交换的/最后一个记录的位置,if(Rj+1.key Rj.key)Swap(Rj,Rj+1);las

15、tExchangeIndex=j;/记下进行交换的记录位置/if,for(j=1;j i;j+),lastExchangeIndex=1;,冒泡排序的算法分析,最好情况：初始排列已经有序，只执行一趟起泡，做 n-1 次关键码比较，不移动对象。最坏情形：初始排列逆序，算法要执行n-1趟起泡，第i趟(1 i n)做了n-i 次关键码比较，执行了n-i 次对象交换。,因此：时间效率：O（n2)因为要考虑最坏情况空间效率：O（1）只在交换时用到一个缓冲单元稳定性：稳定 25和25*在排序前后的次序未改变,时间分析:,最好的情况（关键字在记录序列中顺序有序）：只需进行一趟起泡,“比较”的次数：,最坏

16、的情况（关键字在记录序列中逆序有序）：需进行n-1趟起泡,“比较”的次数：,0,“移动”的次数：,“移动”的次数：,n-1,冒泡排序的优点：每一趟整理元素时，不仅可以完全确定一个元素的位置（挤出一个泡到表尾），一旦下趟没有交换发生，还可以提前结束排序。,有没有比冒泡排序更快的算法？有！快速排序法全球公认！因为它每趟都能准确定位不止1个元素！,2）快速排序,从待排序列中任取一个元素(例如取第一个)作为中心，所有比它小的元素一律前放，所有比它大的元素一律后放，形成左右两个子表；然后再对各子表重新选择中心元素并依此规则调整，直到每个子表的元素只剩一个。此时便为有序序列了。,基本思想：,优点：因为每趟

17、可以确定不止一个元素的位置，而且呈指数增加，所以特别快！前提：顺序存储结构,s,t,low,high,设 Rs=52 为枢轴,将 Rhigh.key 和枢轴的关键字进行比较，要求Rhigh.key 枢轴的关键字,将 Rlow.key 和枢轴的关键字进行比较，要求Rlow.key 枢轴的关键字,high,23,low,80,high,14,low,52,例如,R0,52,low,high,high,high,low,可见，经过“一次划分”，将关键字序列 52,49,80,36,14,58,61,97,23,75 调整为:23,49,14,36,(52)58,61,97,80,75,在调整过程

18、中，设立了两个指针：low 和high，它们的初值分别为：s 和 t，,之后逐渐减小 high，增加 low，并保证 Rhigh.key52，和 Rlow.key52,否则进行记录的“交换”。,int Partition(RedType/返回枢轴所在位置/Partition,快速排序,首先对无序的记录序列进行“一次划分”，之后分别对分割所得两个子序列“递归”进行快速排序。,无序的记录序列,无序记录子序列(1),无序子序列(2),枢轴,一次划分,分别进行快速排序,void QSort(RedType&R,int s,int t)/对记录序列Rs.t进行快速排序 if(s t-1)/长

19、度大于1/QSort,pivotloc=Partition(R,s,t);/对 Rs.t 进行一次划分,QSort(R,s,pivotloc-1);/对低子序列递归排序，pivotloc是枢轴位置,QSort(R,pivotloc+1,t);/对高子序列递归排序,void QuickSort(SqList/QuickSort,第一次调用函数 Qsort 时，待排序记录序列的上、下界分别为 1 和 L.length。,pivotkey=21,(08，16）21（25*，49，25）,Low=high=3，本趟停止，将中枢点定位并返回位置信息,例1：关键字序列 T=(21，25，49，25*，16

20、，08），计算机如何实现快速排序算法的某一趟过程？,high,low,21,25*,3,21,08,25,16,49,25*跑到了前面，不稳定！,设计技巧：交替/振荡式逼近,例2：以关键字序列（256，301，751，129，937，863，742，694，076，438）为例，写出执行快速算法的各趟排序结束时，关键字序列的状态。,原始序列：256，301，751，129，937，863，742，694，076，438,快速排序,第1趟第2趟第3趟第4趟,256，301，751，129，937，863，742，694，076，438,076，129，256，751，937，863，742，69

21、4，301，438,意即模拟算法实现步骤,256,076,301,129,751,256,076，129，256，438，301，694，742，694，863，937,751,076，129，256，438，301，694，742，751，863，937,076，129，256，301，301，694，742，751，863，937,438,076，129，256，301，438，694，742，751，863，937,时间效率：O(nlog2n)因为每趟确定的元素呈指数增加空间效率：O（log2n）因为递归要用栈(存每层low，high和pivot)稳定性：不稳定因为有跳跃式交换

22、。,四、快速排序的时间分析,假设一次划分所得枢轴位置 i=k，则对n 个记录进行快排所需时间：,其中 Tpass(n)为对 n 个记录进行一次划分所需时间。,若待排序列中记录的关键字是随机分布的，则 k 取 1 至 n 中任意一值的可能性相同。,T(n)=Tpass(n)+T(k-1)+T(n-k),设 Tavg(1)b,则可得结果：,结论:快速排序的时间复杂度为O(nlogn),由此可得快速排序所需时间的平均值为：,10.4 选择排序,选择排序的基本思想是：每一趟在后面n-i 个待排记录中选取关键字最小的记录作为有序序列中的第i 个记录。,10.4 选择排序,简单选择排序,堆

23、排序,树形选择排序,一、简单选择排序,思路异常简单：每经过一趟比较就找出一个最小值，与待排序列最前面的位置互换即可。首先，在n个记录中选择最小者放到r1位置；然后，从剩余的n-1个记录中选择最小者放到r2位置；如此进行下去，直到全部有序为止。优点：实现简单缺点：每趟只能确定一个元素，表长为n时需要n-1趟前提：顺序存储结构,一、简单选择排序,假设排序过程中，待排记录序列的状态为：,有序序列R1.i-1,无序序列 Ri.n,第 i 趟简单选择排序,从中选出关键字最小的记录,有序序列R1.i,无序序列 Ri+1.n,例：关键字序列T=（21，25，49，25*，16，08），请给出简单

24、选择排序的具体实现过程。,原始序列：21，25，49，25*，16，08,直接选择排序,第1趟第2趟第3趟第4趟第5趟,08，25，49，25*，16，2108，16,49，25*，25，2108，16,21，25*，25，4908，16,21，25*，25，4908，16,21，25*，25，49,时间效率：O(n2)虽移动次数较少，但比较次数仍多。空间效率：O（1）没有附加单元（仅用到1个temp)算法的稳定性：不稳定因为排序时，25*到了25的前面。,最小值 08 与r1交换位置,讨论：能否利用（或记忆）首趟的n-1次比较所得信息，从而尽量减少后续比较次数呢？答：能！请看,锦标赛排序和堆

25、排序,二、堆排序,堆是满足下列性质的数列r1,r2,，rn：,或,堆的定义:,12,36,27,65,40,34,98,81,73,55,49,例如:,是小顶堆,12,36,27,65,40,14,98,81,73,55,49,不是堆,(小顶堆),(大顶堆),解释：如果让满足以上条件的元素序列（k1，k2，kn）顺次排成一棵完全二叉树，则此树的特点是：树中所有结点的值均大于（或小于）其左右孩子，此树的根结点（即堆顶）必最大（或最小）。,ri,r2i,r2i+1,若将该数列视作完全二叉树，则 r2i 是 ri 的左孩子；r2i+1 是 ri 的右孩子。,12,36,27,65,49,81,73,

26、55,40,34,98,例如:,是堆,14,不,例：,有序列T1=（08,25,49,46,58,67）和序列T2=（91,85,76,66,58,67,55）,判断它们是否“堆”？,堆顶元素取最小值,堆顶元素取最大值,终端结点（即叶子）没有任何子女，无需单独调整,步骤：从最后一个非终端结点开始往前逐步调整，让每个双亲大于（或小于）子女，直到根结点为止。,例：关键字序列T=(21，25，49，25*，16，08），请建大根堆。,2.怎样建堆？,解：为便于理解，先将原始序列画成完全二叉树的形式：这样可以很清晰地从n/2开始调整。,完全二叉树的第一个非终端结点编号必为n/2！(性质5),21,i=

27、3:,49,而且21还应当向下比较！,49大于08，不必调整；i=2:25大于25*和16，也不必调整；i=1:21小于25和49，要调整！,堆排序即是利用堆的特性对记录序列进行排序的一种排序方法。,例如：,建大顶堆,98,81,49,73,36,27,40,55,64,12,12,81,49,73,36,27,40,55,64,98,交换 98 和 12,重新调整为大顶堆,81,73,49,64,36,27,40,55,12,98,40,55,49,73,12,27,98,81,64,36,经过筛选,难点：将堆的当前顶点输出后，如何将剩余序列重新调整为堆？方法：将当前顶点与堆尾记录交换，然后

28、仿建堆动作重新调整，如此反复直至排序结束。,3.怎样进行整个序列的堆排序？,即：将任务转化为H.rim中除ri外，其他都具有堆特征。现调整ri的值，使H.rim为堆。,基于初始堆进行堆排序的算法步骤：堆的第一个对象r0具有最大的关键码，将r0与rn对调，把具有最大关键码的对象交换到最后;再对前面的n-1个对象，使用堆的调整算法，重新建立堆。结果具有次最大关键码的对象又上浮到堆顶，即r0位置;再对调r0和rn-1，然后对前n-2个对象重新调整，如此反复，最后得到全部排序好的对象序列。,如何“建堆”？,两个问题:,如何“筛选”？,定义堆类型为:,typedef SqList HeapType;/堆

29、采用顺序表表示之,所谓“筛选”指的是，对一棵左/右子树均为堆的完全二叉树，“调整”根结点使整个二叉树也成为一个堆。,堆,堆,筛选,98,81,49,73,55,64,12,36,27,40,例如:,是大顶堆,12,但在 98 和 12 进行互换之后，它就不是堆了，,因此，需要对它进行“筛选”。,98,12,81,73,64,12,98,比较,比较,void HeapAdjust(RcdType&R,int s,int m)/已知 Rs.m中记录的关键字除 Rs 之外均/满足堆的特征，本函数自上而下调整 Rs 的/关键字，使 Rs.m 也成为一个大顶堆/HeapAdjust,rc=Rs;/暂存

30、Rs,for(j=2*s;j=m;j*=2)/j 初值指向左孩子自上而下的筛选过程;,Rs=rc;/将调整前的堆顶记录插入到 s 位置,if(rc.key=Rj.key)break;/再作“根”和“子树根”之间的比较，/若“=”成立，则说明已找到 rc 的插/入位置 s，不需要继续往下调整,Rs=Rj;s=j;/否则记录上移，尚需继续往下调整,if(jm/左/右“子树根”之间先进行相互比较/令 j 指示关键字较大记录的位置,建堆是一个从下往上进行“筛选”的过程。,40,55,49,73,81,64,36,12,27,98,例如:排序之前的关键字序列为,12,36,81,73,49,98,81

31、,73,55,现在，左/右子树都已经调整为堆，最后只要调整根结点，使整个二叉树是个“堆”即可。,98,49,40,64,36,12,27,堆排序的时间复杂度分析：,1.对深度为 k 的堆，“筛选”所需进行的关键字比较的次数至多为2(k-1)；,3.调整“堆顶”n-1 次，总共进行的关键字比较的次数不超过 2(log2(n-1)+log2(n-2)+log22)2n(log2n),因此，堆排序的时间复杂度为O(nlogn)。,2.对 n 个关键字，建成深度为h(=log2n+1)的堆，所需进行的关键字比较的次数至多 4n；,堆排序算法分析：,空间效率：O(1)。仅在第二个for循环中交换记录时

32、用到一个临时变量temp。稳定性：不稳定。优点：对小文件效果不明显，但对大文件有效。,10.5 归并排序,归并排序的过程基于下列基本思想进行：将两个或两个以上的有序子序列“归并”为一个有序序列。,在内部排序中，通常采用的是2-路归并排序。即：将两个位置相邻的记录有序子序列,归并为一个记录的有序序列。,有序序列 Rl.n,有序子序列 Rl.m,有序子序列 Rm+1.n,这个操作对顺序表而言，是轻而易举的。,void Merge(RcdType SR,RcdType&TR,int i,int m,int n)/将有序的记录序列 SRi.m 和 SRm+1.n/归并为有序的记录序列 TR

33、i.n/Merge,for(j=m+1,k=i;i=m,if(i=m)TRk.n=SRi.m;/将剩余的 SRi.m 复制到 TR,if(j=n)TRk.n=SRj.n;/将剩余的 SRj.n 复制到 TR,更实际的意义：可以把一个长度为n 的无序序列看成是 n 个长度为 1 的有序子序列，首先做两两归并，得到 n/2 个长度为 2 的有序子序列；再做两两归并，如此重复，直到最后得到一个长度为 n 的有序序列。,例：关键字序列T=（21，25，49，25*，93，62，72，08，37，16，54），请给出归并排序的具体实现过程。,len=1,len=2,len=4,len=8,len=16,

34、整个归并排序仅需log2n 趟,归并排序算法分析：,时间效率：O(nlog2n),因为在递归的归并排序算法中，函数Merge()做一趟两路归并排序，需要调用merge()函数 n/(2len)O(n/len)次，而每次merge()要执行比较O(len)次，另外整个归并过程有log2n“层”，所以算法总的时间复杂度为O(nlog2n)。空间效率：O(n)因为需要一个与原始序列同样大小的辅助序列（TR）。这正是此算法的缺点。稳定性：稳定,10.6 基数排序,基数排序是一种借助“多关键字排序”的思想来实现“单关键字排序”的内部排序算法。,多关键字的排序,链式基数排序,一、多关键字的排序,n

35、个记录的序列 R1,R2,，Rn对关键字(Ki0,Ki1,Kid-1)有序是指：,其中:K0 被称为“最主”位关键字,Kd-1 被称为“最次”位关键字,对于序列中任意两个记录 Ri 和 Rj(1ijn)都满足下列(词典)有序关系：(Ki0,Ki1,Kid-1)(Kj0,Kj1,Kjd-1),实现多关键字排序通常有两种作法:,最低位优先LSD法,最高位优先MSD法,先对K0进行排序，并按 K0 的不同值将记录序列分成若干子序列之后，分别对 K1 进行排序，.，依次类推，直至最后对最次位关键字排序完成为止。,先对 Kd-1 进行排序，然后对 Kd-2 进行排序，依次类推，直至对最主位关键字 K0

36、排序完成为止。,排序过程中不需要根据“前一个”关键字的排序结果，将记录序列分割成若干个(“前一个”关键字不同的)子序列。,例如:学生记录含三个关键字:系别、班号和班内的序列号，其中以系别为最主位关键字。,无序序列,对K2排序,对K1排序,对K0排序,3,2,30,1,2,15,3,1,20,2,3,18,2,1,20,1,2,15,2,3,18,3,1,20,2,1,20,3,2,30,3,1,20,2,1,20,1,2,15,3,2,30,2,3,18,1,2,15,2,1,20,2,3,18,3,1,20,3,2,30,LSD的排序过程如下:,二、链式基数排序,假如多关键字的记录序列中，每

37、个关键字的取值范围相同，则按LSD法进行排序时，可以采用“分配-收集”的方法，其好处是不需要进行关键字间的比较。,对于数字型或字符型的单关键字，可以看成是由多个数位或多个字符构成的多关键字，此时可以采用这种“分配-收集”的办法进行排序，称作基数排序法。,例如：对下列这组关键字 209,386,768,185,247,606,230,834,539,首先按其“个位数”取值分别为 0,1,9“分配”成 10 组，之后按从 0 至 9 的顺序将它们“收集”在一起；,然后按其“十位数”取值分别为 0,1,9“分配”成 10 组，之后再按从 0 至 9 的顺序将它们“收集”在一起；,最后按其“百位数”

38、重复一遍上述操作。,在计算机上实现基数排序时，为减少所需辅助存储空间，应采用链表作存储结构，即链式基数排序，具体作法为：,待排序记录以指针相链，构成一个链表；,“分配”时，按当前“关键字位”所取值，将记录分配到不同的“链队列”中，每个队列中记录的“关键字位”相同；,“收集”时，按当前关键字位取值从小到大将各队列首尾相链成一个链表;,对每个关键字位均重复 2)和 3)两步。,例如：,p369367167239237138230139,进行第一次分配,进行第一次收集,f0 r0,f7 r7,f8 r8,f9 r9,p230,230,367,167,237,367167237,138,3682391

39、39,369,239,139,138,进行第二次分配,p230237138239139,p230367167237138368239139,f3 r3,f6 r6,230,237,138,239,139,367,167,368,367167368,进行第二次收集,进行第三次收集之后便得到记录的有序序列,f1 r1,p230237138239139367167368,进行第三次分配,f2 r2,f3 r3,138,139,167,230,237,239,367,368,p138139167,230237239,367368,提醒注意：,“分配”和“收集”的实际操作仅为修改链表中的指针和设置队列的

40、头、尾指针；,为查找使用，该链表尚需应用算法Arrange 将它调整为有序表。,基数排序的时间复杂度为O(d(n+rd),其中：分配为O(n)收集为O(rd)(rd为“基”)d为“分配-收集”的趟数,10.7 各种排序方法的综合比较,一、时间性能,1.平均的时间性能,基数排序,时间复杂度为 O(nlogn)：,快速排序、堆排序和归并排序,时间复杂度为 O(n2)：,直接插入排序、起泡排序和简单选择排序,时间复杂度为 O(n):,2.当待排记录序列按关键字顺序有序时,3.简单选择排序、堆排序和归并排序的时间性能不随记录序列中关键字的分布而改变。,直接插入排序和起泡排序能达到O(n)的时间复杂度，

41、快速排序的时间性能蜕化为O(n2)。,二、空间性能,指的是排序过程中所需的辅助空间大小,1.所有的简单排序方法(包括：直接插入、起泡和简单选择)和堆排序的空间复杂度为O(1)；,2.快速排序为O(logn)，为递归程序执行过程中，栈所需的辅助空间；,3.归并排序所需辅助空间最多，其空间复杂度为 O(n);,4.链式基数排序需附设队列首尾指针，则空间复杂度为 O(rd)。,三、排序方法的稳定性能,1.稳定的排序方法指的是，对于两个关键字相等的记录，它们在序列中的相对位置，在排序之前和经过排序之后，没有改变。,2.当对多关键字的记录序列进行LSD方法排序时，必须采用稳定的排序方法。,排序之前:Ri

42、(K)Rj(K),排序之后:Ri(K)Rj(K),例如：,排序前(56,34,47,23,66,18,82,47),若排序后得到结果(18,23,34,47,47,56,66,82)则称该排序方法是稳定的;,若排序后得到结果(18,23,34,47,47,56,66,82)则称该排序方法是不稳定的。,3.对于不稳定的排序方法，只要能举出一个实例说明即可。,4.快速排序、堆排序和希尔排序是不稳定的排序方法。,例如:对 4,3,4,2 进行快速排序，得到 2,3,4,4,四、关于“排序方法的时间复杂度的下限”,本章讨论的各种排序方法，除基数排序外，其它方法都是基于“比较关键字”进行排序的排序方法。

43、,可以证明，这类排序法可能达到的最快的时间复杂度为O(nlogn)。(基数排序不是基于“比较关键字”的排序方法，所以它不受这个限制。),例如:对三个关键字进行排序的判定树如下：,K1K3,K1K2,K1K3,K2K3,K2 K3,K2K1K3,K1K2K3,K3K2K1,K2K3K1,K3K1K2,K1K3K2,树上的每一次“比较”都是必要的;,树上的叶子结点包含所有可能情况。,一般情况下，对n个关键字进行排序，可能得到的结果有n!种，由于含n!个叶子结点的二叉树的深度不小于log2(n!)+1,则对 n 个关键字进行排序的比较次数至少是 log2(n!)nlog2n(斯蒂林近似公式)。,所以

44、，基于“比较关键字”进行排序的排序方法，可能达到的最快的时间复杂度为 O(nlogn)。,10.8外部排序,一.问题的提出,待排序的记录数量很大，不能一次装入内存，则无法利用前几节讨论的排序方法(否则将引起频繁访问内存)；,对外存中数据的读/写是以“数据块”为单位进行的；读/写外存中一个“数据块”的数据所需要的时间为：TI/O=tseek+tla+n twm 其中 tseek 为寻查时间(查找该数据块所在磁道)tla 为等待(延迟)时间 n twm 为传输数据块中n个记录的时间。,按可用内存大小，利用内部排序方法，构造若干(记录的)有序子序列，通常称外存中这些记录有序子序列为“归并段”

45、；,二、外部排序的基本过程,由相对独立的两个步骤组成：,通过“归并”，逐步扩大(记录的)有序子序列的长度，直至外存中整个记录序列按关键字有序为止。,例如：假设有一个含10,000个记录的磁盘文件，而当前所用的计算机一次只能对1000个记录进行内部排序，则首先利用内部排序的方法得到10个初始归并段，然后进行逐趟归并。,假设进行2路归并(即两两归并)，则第一趟由10个归并段得到5个归并段；,最后一趟归并得到整个记录的有序序列。,第三趟由 3 个归并段得到2个归并段；,第二趟由 5 个归并段得到3个归并段；,假设“数据块”的大小为200，即每一次访问外存可以读/写200个记录。则对于10,0

46、00个记录，处理一遍需访问外存100次(读和写各50次)。,分析上述外排过程中访问外存(对外存进行读/写)的次数：,由此，对上述例子而言，,1)求得10个初始归并段需访问外存100次；2)每进行一趟归并需访问外存100次；3)总计访问外存 100+4 100=500次。,外排总的时间还应包括内部排序所需时间和逐趟归并时进行内部归并的时间，显然，除去内部排序的因素外，外部排序的时间取决于逐趟归并所需进行的“趟数”。,例如，若对上述例子采用5路归并，则只需进行2趟归并，总的访问外存的次数将压缩到 100+2 100=300 次。,一般情况下，假设待排记录序列含 m 个初始归并段，外排时采用 k路归

47、并，则归并趟数为 logkm，显然，随之k的增大归并的趟数将减少，因此对外排而言，通常采用多路归并。k 的大小可选，但需综合考虑各种因素。,1.了解排序的定义和各种排序方法的特点。熟悉各种方法的排序过程及其依据的原则。基于“关键字间的比较”进行排序的方法可以按排序过程所依据的不同原则分为插入排序、交换排序、选择排序、归并排序和计数排序等五类。,2.掌握各种排序方法的时间复杂度的分析方法。能从“关键字间的比较次数”分析排序算法的平均情况和最坏情况的时间性能。,按平均时间复杂度划分，内部排序可分为三类：O(n2)的简单排序方法，O(nlogn)的高效排序方法和 O(dn)的基数排序方法。,3理解排序方法“稳定”或“不稳定”的含义，弄清楚在什么情况下要求应用的排序方法必须是稳定的。,4.了解外部排序的基本过程及其时间分析。,衷心感谢全体同学的支持和配合，使我能圆满完成本课程的教学任务。希望大家顺利通过课程考试,