数据结构(严蔚敏)课件第1章.ppt
2007年9月5日星期三,1,第一章绪 论,2007年9月5日星期三,2,【课前思考】,同学们见过算法+数据结构=程序设计这本书吧,它正好说明数据结构的实质是讨论程序设计的方法。通过这门课的学习,同学们将掌握非数值计算程序设计中用的基本方法和技巧。,2007年9月5日星期三,3,【学习目标】,熟悉各名词、术语的含义,掌握基本概念。理解算法五个要素的确切含义。掌握计算语句频度和估算算法时间复杂度的方法。,【重点和难点】,本章讨论的都是一些基本概念,因此没有难点,重点在于了解有关数据结构的各个名词和术语的含义,以及语句频度和时间复杂度、空间复杂度的估算。,【知识点】,数据、数据元素、数据结构、数据类型、抽象数据类型、算法及其设计原则、时间复杂度、空间复杂度。,2007年9月5日星期三,4,【学习指南】,1.熟悉各名词、术语的含义,掌握基本概念,特别是数据的逻辑结构和存储结构之间的关系。分清哪些是逻辑结构的性质,哪些是存储结构的性质。2.了解抽象数据类型的定义、表示和实现方法。3.熟悉类C语言的书写规范,特别要注意值调用和引用调用的区别,输入、输出的方式以及错误处理方式。4.理解算法五个要素的确切含义和对算法正确性的理解。5.掌握计算语句频度和估算算法时间复杂度的方法。,2007年9月5日星期三,5,1.1 数据结构讨论的范畴,1.2 基本概念,1.3 算法和算法的量度,2007年9月5日星期三,6,1.1 数据结构讨论的范畴,Niklaus Wirth:Algorithm+Data Structures=Programs,程序设计:算法:数据结构:,为计算机处理问题编制 一组指令集,处理问题的策略,问题的数学模型,2007年9月5日星期三,7,结构静力分析计算,例如:数值计算的程序设计问题,线性代数方程组,环流模式方程(球面坐标系),全球天气预报,2007年9月5日星期三,8,非数值计算的程序设计问题,例一:求一组(n个)整数中的最大值,算法:?模型:?,基本操作是“比较两个数的大小”,取决于整数值的范围,2007年9月5日星期三,9,例二:计算机对弈,算法:?模型:?,对弈的规则和策略,棋盘及棋盘的格局,2007年9月5日星期三,10,例三:足协的数据库管理,算法:?模型:?,需要管理的项目?如何管理?用户界面?,各种表格,2007年9月5日星期三,11,概括地说:,数据结构是一门讨论“描述现实世界实体的数学模型(非数值计算)及其上的操作在计算机中如何表示和实现”的学科。,2007年9月5日星期三,12,1.2 基本概念,一、数据与数据结构,二、数据类型,三、抽象数据类型,2007年9月5日星期三,13,一、数据与数据结构,所有能被输入到计算机中,且能被计算机处理的符号的集合。,数据:,是计算机操作的对象的总称。,是计算机处理的信息的某种特定的符号表示形式。,2007年9月5日星期三,14,是数据(集合)中的一个“个体”,数据元素:,是数据结构中讨论的基本单位,数据对象是性质相同的数据元素的集合 是数据的子集,2007年9月5日星期三,15,数据项:,是数据结构中讨论的最小单位,数据元素可以是数据项的集合,例如:,描述一个运动员的数据元素可以是,称之为组合项,2007年9月5日星期三,16,数据结构:,带结构的数据元素的集合,假设用三个 4 位的十进制数表示一个含 12 位数的十进制数。,3214,6587,9345 a1(3214),a2(6587),a3(9345),则在数据元素 a1、a2 和 a3 之间存在着“次序”关系 a1,a2、a2,a3,3214,6587,9345 a1 a2 a3,6587,3214,9345 a2 a1 a3,例如:,2007年9月5日星期三,17,又例,在2行3列的二维数组a1,a2,a3,a4,a5,a6中六个元素之间存在两个关系:,行的次序关系:列的次序关系:,row=,col=,a1 a3 a5 a2 a4 a6,a1 a2 a3a4 a5 a6,2007年9月5日星期三,18,再例,在一维数组 a1,a2,a3,a4,a5,a6 的数据元素之间存在如下的次序关系:,|i=1,2,3,4,5,或者说,数据结构是相互之间存在着某种关系的数据元素的集合。,可见,不同的“关系”构成不同的“结构”,2007年9月5日星期三,19,数据结构包括以下几个方面:,数据元素之间的逻辑关系,即逻辑结构数据元素及其关系在计算机存储器中的存储方式,即数据的存储结构施加在该数据上的操作,即数据的运算,2007年9月5日星期三,20,数据的逻辑结构可归结为以下四类:,线性结构,树形结构,图状结构,集合结构,2007年9月5日星期三,21,数据结构的形式定义为:,数据结构是一个二元组,Data_Structures=(D,S),其中:D 是数据元素的有限集,S 是 D上关系的有限集。,2007年9月5日星期三,22,数据的存储结构(物理结构),逻辑结构在存储器中的映象,“数据元素”的映象?,“关系”的映象?,2007年9月5日星期三,23,数据元素的映象方法:,用二进制位(bit)的位串表示数据元素,(321)10=(501)8=(101000001)2,2007年9月5日星期三,24,关系的映象方法:,(表示x,y的方法),顺序映象(顺序存储方法),以相对的存储位置表示后继关系,例如:令 y 的存储位置和 x 的存储位置之间差一个常量 C,而 C 是一个隐含值,整个存储结构中只含数据元素本身的信息,x,y,2007年9月5日星期三,25,链式映象(链式存储方法),需要用一个和 x 在一起的附加信息指示 y 的存储位置,y x,不要求在逻辑上相邻的结点在物理位置上也相邻,结点间的逻辑关系由附加 的指针字段表示。,2007年9月5日星期三,26,索引存储方法 存储结点信息的同时,建立附加的索引表。索引表中的每一项称为索引项,索引项的一般形式是关键字与地址。散列(或哈希)存储方法 根据结点的关键字通过散列函数直接计算出一个值,并将这个值作为该结点的存储地址。,2007年9月5日星期三,27,在不同的编程环境中,,存储结构可有不同的描述方法。,当用高级程序设计语言进行编程时,通常可用高级编程语言中提供的数据类型描述之。,2007年9月5日星期三,28,例如:,以三个带有次序关系的整数表示一个长整数时,可利用 C 语言中提供的整数数组类型。,typedef int Long_int 3,定义长整数为:,2007年9月5日星期三,29,二、数据类型,在用高级程序语言编写的程序中,必须对程序中出现的每个变量、常量或表达式,明确说明它们所 属的数据类型。,2007年9月5日星期三,30,例如,C 语言中提供的基本数据类型有:,整型 int,浮点型 float,字符型 char,逻辑型 bool(C+语言),双精度型 double,实型(C+语言),2007年9月5日星期三,31,数据类型 是一个 值的集合和定义在此集合上的 一组操作的总称。,不同类型的变量,其所能取的值的范围不同,所能进行的操作不同。,2007年9月5日星期三,32,三、抽象数据类型(Abstract Data Type 简称ADT),是指一个数学模型以及定义在此数学模型上的一组操作。,2007年9月5日星期三,33,例如,抽象数据类型复数的定义:,数据对象:De1,e2e1,e2RealSet 数据关系:R1|e1是复数的实数部分|e2 是复数的虚数部分,ADT Complex,2007年9月5日星期三,34,基本操作:,AssignComplex(&Z,v1,v2)操作结果:构造复数 Z,其实部和虚部 分别被赋以参数 v1 和 v2 的值。,DestroyComplex(&Z)操作结果:复数Z被销毁。,GetReal(Z,&realPart)初始条件:复数已存在。操作结果:用realPart返回复数Z的实部值。,2007年9月5日星期三,35,GetImag(Z,&ImagPart)初始条件:复数已存在。操作结果:用ImagPart返回复数Z的虚部值。,Add(z1,z2,&sum)初始条件:z1,z2是复数。操作结果:用sum返回两个复数z1,z2 的 和值。,ADT Complex,2007年9月5日星期三,36,假设:z1和z2是上述定义的复数,则 Add(z1,z2,z3)操作的结果,z3=z1+z2,即为用户企求的结果,2007年9月5日星期三,37,ADT 有两个重要特征:,数据抽象,用ADT描述程序处理的实体时,强调的是其本质的特征、其所能完成的功能以及它和外部用户的接口(即外界使用它的方法)。,数据封装,将实体的外部特性和其内部实现细节分离,并且对外部用户隐藏其内部实现细节。,2007年9月5日星期三,38,抽象数据类型的描述方法,抽象数据类型可用(D,S,P)三元组表示。其中:D 是数据对象;S 是 D 上的关系集;P 是对 D 的基本操作集。,2007年9月5日星期三,39,ADT 抽象数据类型名 数据对象:数据对象的定义 数据关系:数据关系的定义 基本操作:基本操作的定义 ADT 抽象数据类型名,其中基本操作的定义格式为:,基本操作名(参数表)初始条件:初始条件描述 操作结果:操作结果描述,2007年9月5日星期三,40,赋值参数 只为操作提供输入值。引用参数 以&打头,除可提供输入值外,还将返回操作结果。,初始条件 描述了操作执行之前数据结构和参数应满足的条件,若不满足,则操作失败,并返回相应出错信息。,操作结果 说明了操作正常完成之后,数据结构的变化状况和应返回的结果。若初始条件为空,则省略之。,2007年9月5日星期三,41,抽象数据类型的表示和实现,抽象数据类型需要通过固有数据类型(高级编程语言中已实现的数据类型)来实现。,例如,对以上定义的复数。,2007年9月5日星期三,42,typedef struct float realpart;float imagpart;complex;,/-存储结构的定义,/-基本操作的函数原型说明,void Assign(complex&Z,float realval,float imagval);/构造复数 Z,其实部和虚部分别被赋以参数/realval 和 imagval 的值,2007年9月5日星期三,43,float GetReal(cpmplex Z);/返回复数 Z 的实部值,float Getimag(cpmplex Z);/返回复数 Z 的虚部值,void add(complex z1,complex z2,complex&sum);/以 sum 返回两个复数 z1,z2 的和,2007年9月5日星期三,44,/-基本操作的实现,void add(complex z1,complex z2,complex,其它省略,2007年9月5日星期三,45,1.4 算法和算法分析,一、算法,二、算法设计的原则,三、算法效率的衡量方法和准则,四、算法的存储空间需求,2007年9月5日星期三,46,算法是为了解决某类问题而规定的一个有限长的操作序列。一个算法必须满足以下五个重要特性:,1有穷性 2确定性 3可行性4有输入 5有输出,一、算法,2007年9月5日星期三,47,1有穷性 对于任意一组合法输入值,在执行有穷步骤之后一定能结束,即:算法中的每个步骤都能在有限时间内完成。,2确定性 对于每种情况下所应执行的操作,在算法中都有确切的规定,使算法的执行者或阅读者都能明确其含义及如何执行。并且在任何条件下,算法都只有一条执行路径。,2007年9月5日星期三,48,3可行性 算法中的所有操作都必须足够基本,都可以通过已经实现的基本操作运算有限次实现之。,4有输入 作为算法加工对象的量值,通常体现为算法中的一组变量。有些输入量需要在算法执行过程中输入,而有的算法表面上可以没有输入,实际上已被嵌入算法之中。,2007年9月5日星期三,49,5有输出 它是一组与“输入”有确定关系的量值,是算法进行信息加工后得到的结果,这种确定关系即为算法的功能。,2007年9月5日星期三,50,二、算法设计的原则,设计算法时,通常应考虑达到以下目标:,1正确性,2.可读性,3健壮性,4高效率与低存储量需求,2007年9月5日星期三,51,1正确性,首先,算法应当满足以特定的“规格说明”方式给出的需求。,其次,对算法是否“正确”的理解可以有以下四个层次:,a程序中不含语法错误;,b程序对于几组输入数据能够得出满足要求的结果;,2007年9月5日星期三,52,c程序对于精心选择的、典型、苛刻且带有刁难性的几组输入数据能够得出满足要求的结果;,通常以第 c 层意义的正确性作为衡量一个算法是否合格的标准。,d程序对于一切合法的输入数据都能得出满足要求的结果;,2007年9月5日星期三,53,2.可读性,算法主要是为了人的阅读与交流,其次才是为计算机执行,因此算法应该易于人的理解;另一方面,晦涩难读的程序易于隐藏较多错误而难以调试。解决可读性的方法:1.程序结构清晰,层次分明 2.变量名命名规范易懂 3.提供程序注释,2007年9月5日星期三,54,3健壮性,当输入的数据非法时,算法应当恰当地作出反映或进行相应处理,而不是产生莫名奇妙的输出结果。并且,处理出错的方法不应是中断程序的执行,而应是返回一个表示错误或错误性质的值,以便在更高的抽象层次上进行处理。,2007年9月5日星期三,55,4高效率与低存储量需求,通常,效率指的是算法执行时间;存储量指的是算法执行过程中所需的最大存储空间,两者都与问题的规模有关。,2007年9月5日星期三,56,三、算法效率的 衡量方法和准则,通常有两种衡量算法效率的方法:,事后统计法,事前分析估算法,缺点:1必须执行程序 2其它因素掩盖算法本质,2007年9月5日星期三,57,和算法执行时间相关的因素:,1算法选用的策略,2问题的规模,3编写程序的语言,4编译程序产生的机器代码的质量,5计算机执行指令的速度,2007年9月5日星期三,58,一个特定算法的“运行工作量”的大小,只依赖于问题的规模(通常用整数量n表示),或者说,它是问题规模的函数。,2007年9月5日星期三,59,假如,随着问题规模 n 的增长,算法执行时间的增长率和 f(n)的增长率相同,则可记作:,T(n)=O(f(n),称T(n)为算法的(渐近)时间复杂度。,2007年9月5日星期三,60,如何估算 算法的时间复杂度?,2007年9月5日星期三,61,算法=控制结构+原操作(固有数据类型的操作),算法的执行时间=原操作(i)的执行次数原操作(i)的执行时间,算法的执行时间 与 原操作执行次数之和 成正比,2007年9月5日星期三,62,从算法中选取一种对于所研究的问题来说是 基本操作 的原操作,以该基本操作 在算法中重复执行的次数 作为算法运行时间的衡量准则。,2007年9月5日星期三,63,例一两个矩阵相乘,void mult(int a,int b,int/for/mult,基本操作:乘法操作,时间复杂度:O(n3),2007年9月5日星期三,64,例二选择排序,void select_sort(int&a,int n)/将 a 中整数序列重新排列成自小至大有序的整数序列。/select_sort,基本操作:比较(数据元素)操作,时间复杂度:O(n2),j=i;/选择第 i 个最小元素for(k=i+1;k n;+k)if(ak aj)j=k;,for(i=0;i n-1;+i)if(j!=i)aj ai,2007年9月5日星期三,65,例三起泡排序,void bubble_sort(int-i)/bubble_sort,基本操作:赋值操作,时间复杂度:O(n2),change=FALSE;/change 为元素进行交换标志 for(j=0;j aj+1)aj aj+1;change=TRUE;/一趟起泡,2007年9月5日星期三,66,四、算法的存储空间需求,算法的空间复杂度定义为:,表示随着问题规模 n 的增大,算法运行所需存储量的增长率与 g(n)的增长率相同。,S(n)=O(g(n),2007年9月5日星期三,67,算法的存储量包括:,1输入数据所占空间,2程序本身所占空间,3辅助变量所占空间,2007年9月5日星期三,68,若输入数据所占空间只取决于问题 本身,和算法无关,则只需要分析除 输入和程序之外的辅助变量所占额外 空间。,若所需额外空间相对于输入数据量 来说是常数,则称此算法为原地工作。,若所需存储量依赖于特定的输入,则通常按最坏情况考虑。,2007年9月5日星期三,69,本章是为以后各章讨论的内容作基本知识的准备,介绍数据结构和算法等基本概念。数据是计算机操作对象的总称,它是计算机处理的符号的集合,集合中的个体为一个数据元素。数据元素可以是不可分割的原子,也可以由若干数据项合成,因此在数据结构中讨论的基本单位是数据元素,而最小单位是数据项。,【本章小结】,2007年9月5日星期三,70,数据结构是由若干特性相同的数据元素构成的集合,且在集合上存在一种或多种关系。由关系不同可将数据结构分为四类:线性结构、树形结构、图状结构和集合结构。数据的存储结构是数据逻辑结构在计算机中的映象,由关系的两种映象方法可得到两类存储结构:一类是顺序存储结构,它以数据元素相对的存储位置表示关系,则存储结构中只包含数据元素本身的信息;另一类是链式存储结构,它以附加的指针信息(后继元素的存储地址)表示关系。,2007年9月5日星期三,数据结构的操作是和数据结构本身密不可分的,两者作为一个整体可用抽象数据类型进行描述。抽象数据类型是一个数学模型以及定义在该模型上的一组操作,因此它和高级程序设计语言中的数据类型具有相同含义,而抽象数据类型的范畴更广,它不局限于现有程序设计语言中已经实现的数据类型(它们通常被称为固有数据类型),但抽象数据类型需要借用固有数据类型表示并实现。抽象数据类型的三大要素为数据对象、数据关系和基本操作,同时数据抽象和数据封装是抽象数据类型的两个重要特性,2007年9月5日星期三,72,算法是进行程序设计的另一不可缺少的要素。算法是对问题求解的一种描述,是为解决一个或一类问题给出的一种确定规则的描述。一个完整的算法应该具有下列五个要素:有穷性、确定性、可行性、有输入和有输出。一个正确的算法应对苛刻且带有刁难性的输入数据也能得出正确的结果,并且对不正确的输入也能作出正确的反映。,2007年9月5日星期三,算法的时间复杂度是比较不同算法效率的一种准则,算法时间复杂度的估算基于算法中基本操作的重复执行次数,或处于最深层循环内的语句的频度。算法空间复杂度可作为算法所需存储量的一种量度,它主要取决于算法的输入量和辅助变量所占空间,若算法的输入仅取决于问题本身而和算法无关,则算法空间复杂度的估算只需考察算法中所用辅助变量所占空间,若算法的空间复杂度为常量级,则称该算法为原地工作的算法。,2007年9月5日星期三,74,作业:1.1 简述下列概念:数据、数据元素、数据类型、数据结构、逻辑结构、存储结构、线性结构、非线性结构。1.2 试举一个数据结构的例子、叙述其逻辑结构、存储结构、运算三个方面的内容。1.3 常用的存储表示方法有哪几种?1.4 设三个函数f,g,h分别为 f(n)=100n3+n2+1000,g(n)=25n3+5000n2,h(n)=n1.5+5000nlgn 请判断下列关系是否成立:(1)f(n)=O(g(n)(2)g(n)=O(f(n)(3)h(n)=O(n1.5)(4)h(n)=O(nlgn),2007年9月5日星期三,75,1.5 设有两个算法在同一机器上运行,其执行时间分别为100n2和2n,要使前者快于后者,n至少要多大?1.6 设n为正整数,利用大O记号,将下列程序段的执行时间表示为n的函数。(1)i=1;k=0(2)i=0;k=0;while(i1 while(i+j=(y+1)*(y+1)if(ij)j+;y+;else i+;,2007年9月5日星期三,76,(5)x=91;y=100;while(y0)if(x100)x=x-10;y-;else x+;1.7 算法的时间复杂度仅与问题的规模相关吗?1.8 按增长率由小至大的顺序排列下列各函数:2100,(2/3)n,(3/2)n,nn,n!,2n,lgn,nlgn,n(3/2),2007年9月5日星期三,77,