数据结构的基本概念.ppt
1,前言,数据结构是计算机系的专业基础课,它不但是计算机学科的理论基础之一,也是软件开发的必备基础。因此,无论是从事计算机行业,还是希望在计算机方面继续深造,都应该学好这门课程。,2,第1章 数据结构的基本概念,抽象数据类型和算法描述抽象和实现术语和概念抽象数据类型算法与伪码程序结构化与设计风格程序分析的方法时间复杂性分析渐进式表示法递归式的复杂性计算,3,1.1 抽象和实现,什么是抽象和实现?抽象是信息隐蔽的方法,用这种方法将数据表示或处理过程中的细节对不需要(或不想)了解的人隐藏起来。实现是已屏蔽掉的繁琐的细节。,4,数和变量,平时使用的数据类型中哪些是抽象出来的?整型、实型、字符型、枚举型等。抽象出来的数据类型是怎样实现处理过程的?各种计算机语言的编译程序有它们各自所抽象出来的数据类型与计算机自身的数值进制有相应的转换规则,也能够对其进行存储和计算。变量是抽象的吗?其作用是什么?变量是一种抽象。它的作用是减少程序设计人员对内存细节的考虑,而将主要精力用于程序算法的编写。,5,两维数组,计算机存储是按一维方式还是二维方式?计算机存储区是按字节或字的一维或线性序列方式进行编址。计算机是如何解释带有二维数组的语句的?通过编译程序。二维数组的应用矩阵,6,过程和抽象,过程是什么?过程是程序设计的基本工具和方法,它将操作符和操作对象的概念一般化,使程序员不受程序设计语言提供的基本数据类型和操作符的约束,可以利用过程自由地定义操作数和操作方法。过程的优点利用过程的优点在于信息的隐蔽和模块化,它实现了对算法的若干部分的封装。抽象都是程序设计语言提供的吗?过程是一种抽象吗?,7,1.2 术语和概念,数据、数据元素和数据对象数据就是指所有能被输入到计算机中,且被计算机处理的符号的集合,它也是计算机操作的对象的总称。是计算机处理的信息的某种特定的符号表示形式。注意:数据的范围是随着计算机的发展而不断扩大的。数据元素是数据中的一个个体,是数据结构中讨论的基本单位。一个数据元素还可以由若干个数据项组成。数据项是具有独立含义的最小标识单位。如整数这个集合中,10这个数就可称是一个数据元素.又比如在一个数据库表(关系式数据库)中,一个记录可称为一条数据,每一个字段可称为一个数据元素,而每个字段的组成部分可称为一个数据项(例如出生日期中的年、月、日)。数据对象是性质相同的数据元素的集合,是数据的一个子集。,8,1.2.2 数据类型,在用高级语言编写的程序中,必须对程序中出现的每个变量、常量和表达式,明确说明它们所属的数据类型。数据类型是程序设计语言中对于给定变量的所有可能取值的集合。数据类型是一个值的集合和定义在此集合上的一组操作的总称。每一个对象仅由单值构成的类型称为标量类型或原子类型。每一个对象可由一组值构成的类型称为组合类型或结构类型(有时也称为数据结构),9,1.2.3 抽象数据类型,抽象数据类型(abstract data type简称ADT)是一种数据类型及在这个类型上定义的一组合法的操作。程序设计语言提供的ADT定义工具Ada提供包、c+提供类使用ADT的作用减少程序的复杂性,10,1.2.4 数据结构(带结构的数据元素的集合),定义:数据结构是以某种方式联系在一起的数据元素的集合。数据结构研究的内容数据结构研究的是数据元素之间抽象化的相互关系及这种关系在计算机中的存储表示,对每种结构定义各自的运算,设计出相应的算法,并用某种语言实现该算法。数据结构包含的内容:逻辑结构和物理结构,甚至包括对数据的操作。数据的逻辑结构是指各数据元素之间的逻辑关系,是用户按使用需要建立起来的,呈现在用户面前的结构形式。数据的物理结构又称为数据的存储结构,是指数据在计算机内的表示方法,即存储形式。,11,比如一个表(数据库),我们就称它为一个数据结构,它由很多记录(数据元素)组成,每个元素又包括很多字段(数据项)组成。那么这张表的逻辑结构是怎么样的呢?对于这个表中的任一个记录(结点),它只有一个直接前趋,只有一个直接后继(前趋后继就是前相邻后相邻的意思),整个表只有一个开始结点和一个终端结点,那我们知道了这些关系就能明白这个表的逻辑结构了。常见的逻辑结构有:线性结构、树形结构、图状结构和集合结构。,12,存储结构是逻辑结构在存储器中的映像。数据元素的映像方法:用二进制位(bit)的位串表示数据元素。(320)10=(501)8=(101000001)2(A)=(101)8=(001000001)2关系的映像方法(表示的方法)顺序映像:以存储位置的相邻表示后继关系。Y的存储位置和X的存储位置之间相差一个常量C,而C是一个隐含值(与数据在内存中占据的宽度有关),整个存储结构中只含数据元素本身的信息。,13,链式映像:以附加信息(指针)表示后继关系需要一个和X在一起的附加信息指示Y的存储位置。在不同的存储环境中,存储结构可有不同的描述方法。当用高级程序设计语言进行编程时,通常可用高级编程语言提供的数据类型描述之。,14,例如:以三个带有次序关系的整数表示一个长整数时,可利用C语言中提供的整数数组类型,定义长整数为:typedef int Long_int3,15,对数据的运算:比如一张表格,我们需要进行查找,增加,修改,删除记录等工作,而怎么样才能进行这样的操作呢?这也就是数据的运算,它不仅仅是加减乘除这些算术运算了,在数据结构中,这些运算常常涉及算法问题。,16,1.3 抽象数据类型,抽象数据类型的描述研究抽象数据类型的原因?人们认识到在问题的描述和程序的实现之间存在着一个可适当定义的中间领域,这个中间领域比问题的描述具体些,但比最终的程序抽象些。数据结构的类型:线性、层次、网状抽象数据类型的组成部分:元素(Elements)、结构(Structure)和操作(Operation),17,抽象数据类型的说明,元素结构操作ADT的说明基本上是功能性的说明,对具体的实现并不作过多的约束。在具体现实时,完成任务的算法、数据类型、数据结构、程序的逻辑组织甚至采用哪种程序设计语言都是可自由选择的。,18,ADT的主要目的:对用户隐蔽所有的表示方法、算法的详细细节、实现操作的具体代码及其他所有不必要的细节,这些细节被局限于具体实现的模块内部,从而实现了信息的隐蔽。ADT的重要优点:简单性。抽象的目的:将数据的本质特征、它们的结构及操作同它们的非本质的具体表示及实现细节区别开来,从而得到了简化。,19,抽象数据类型的表示,为扑克牌设计抽象数据类型,你会怎样设计?使用枚举类型使用整数型使用位向量表示法程序设计的主要目标是产生一个正确的程序,并能尽量避免错误的输入对程序的结果造成不良的影响,但是还有其他第二位重要的目标。好的程序不仅要运行正确,而且要具有通用性、模块化和信息隐蔽性。,20,实现的独立性,由于在ADT的说明中,只指明了其功能而未指明要采用的何种方法,因此实现的独立性是显而易见的。具体的实现只要根据ADT的数据类型及说明的各个抽象操作和ADT的表示,用某种程序设计语言写出一个个独立的过程和函数的具体语句来即可。,21,一个复数抽象数据类型,元素介绍复数的实部(rpart)和虚部(ipart)结构说明复数的元素之间不存在任何结构操作部分复数的生成(Create),两个复数的加(Add)、减(Sub)、乘法(Product)运算,22,编程练习:,试分别用结构和类两种方式实现复数抽象数据类型的定义。设两个复数c1=x1+iy1,c2=x2+iy2和 sum=(x1+y1)+i(y1+y2)差 difference=(x1-x2)+i(y1-y2)积 product=(x1*x2-y1*y2)+i(x1*y2+x2*y1),23,1.4算法分析,算法+数据结构=程序(N.沃恩)这个公式的含义是什么?算法的概念算法是能在计算机上经过有限的时间内完成,毫不含糊的有限的指令序列。程序设计:为计算机处理问题编制的一组指令集。计算机对某类问题进行某种处理,包含了两方面的问题:一个是怎样进行处理;另一个是对处理的信息怎样表示。算法:处理问题的策略(怎样处理问题)数据结构:问题的数学模型(处理的问题怎样表示),24,例如:数值计算的程序问题,结构静力分析计算数据模型:线性代数方程组全球天气预报数据模型:环流模型方程,25,非数值计算的程序设计问题,例一:求一组(n个)整数中的最大值。算法:基本操作是比较两个数的大小模型:存储这组整数所需的数据类型。,26,例二:计算机对弈,算法:对弈的规则和策略模型:棋盘、棋子的表示,27,例三:医院的数据库管理,算法:需要管理的项目?如何管理?界面?模型:各种表格和数据库,28,综合各种程序设计问题,抽去它具体的物理含义,就可以得到几类基本的数学模型,比如和数值计算相关的数学模型就有线性代数方程、非线性代数方程、微分方程等。它们的数值解问题,也就是计算求解的问题,就是计算数学要解决的问题。而类似的非数值计算问题,它的数学模型的表示和求解的方法就是数据结构研究的内容。概括的说:数据结构描述现实世界实体的数学模型(非数值计算)及其上的操作在计算机中的表示和实现。,29,算法与代码,算法是为了解决某类问题而规定的一个有限长的操作序列。简单的说,算法是对求解某一问题的描述。算法都必须满足下列几个条件:有穷性:对于任意一组合法输入值,在执行有穷步骤之后一定能结束,即:算法中的每个步骤都能在有限时间内完成。,30,确定性:对于每种情况下所应执行的操作,在算法中都有确切的规定,使算法的执行者或阅读者都能明确其含义及如何执行。并且在任何条件下,算法都只有一条执行路径(对同样的输入值,不管在什么条件下,重复执行多遍,都能够得到相同的结果)。可行性:算法中的所有操作都必须足够基本,都可以通过已经实现的基本操作运算有限次实现之。例如:将x和y两个正整数的最大公因子赋值给z,由于求最大公因子本身就是一个算法,因此这个操作不是基本操作。例如:将变量x的值增加,看似简单,但到底给x增加多少却并不明确,因此它也不是基本操作。,31,有输入:作为算法加工对象的量值,通常体现为算法中的一组变量。有些输入量需要在算法执行过程中输入,而有的算法表面上可以没有输入,实际已被嵌入算法之中。例如求100以内的素数。数据的范围是从1到100,此时的数据就没有从键盘输入而是嵌入到了算法之中。有输出:它是一组与输入有确定关系的量值,是算法进行信息加工后得到的结果,这种确定关系即为算法的功能。,32,算法设计的原则,1.正确性程序中不含语法错误程序对于几组输入数据能够得出满足要求的结果程序对于精心选择的、典型、苛刻且带有刁难性的几组输入数据能够得出满足要求的结果程序对一切合法的输入数据都能得出满足要求的结果,33,2.可读性算法主要是为了人的阅读与交流,其次才是为计算机执行。因此算法易于人的理解,另一方面,晦涩难读的程序易于隐藏较多错误而难以调试。3.健壮性当输入的数据合法时,算法应当恰当地作出反应或进行相应的处理,而不是莫名其妙地输出结果。并且处理出错的方法不应时中断程序的执行,而应是返回一个表示错误或错误性质的值,以便在更高的抽象层次上进行处理。,34,4.高效率与低存储量需求通常,效率指的是算法执行的时间;存储量指的是算法执行过程中所需的最大存储空间。两者都与问题的规模有关。,35,用来写算法的方式有好几种,一般而言,我们可以分为下列4种方式:条列式的步骤:以条列式的步骤来描述解决问题的方法。流程图:以图形符号来描述解决问题的方法。仅适用于小问题,不过现在已很少用。伪码:以夹杂程序语法和自然语言(如:中文、英文)的形式来描述解决问题的方法。程序语句:直接以程序语法来描述解决问题的方法。,36,程序结构化与设计风格,注释变量命名变量名要遵守以下规则:(1)不能是C+保留字。(2)第一个字符必须是字母或下划线。(3)变量名中除了使用26个英文大小写字母和数字外,只能使用下划线。(4)一般不要超过31个字符。(5)变量名不要与C+中的库函数名、类名和对象名相同。程序缩排段落,37,算法的时间复杂性算法衡量的方法和准则,一个程序结构的好坏,关键通常在于该程序是否能以最短的时间及最小的空间来运行出结果。但是“时间”与“空间”常常是“鱼与熊掌”无法兼得,如果希望以最短的时间来完成该程序,则常常需要运用更多的存储空间,来换取最短的执行时间;如果希望以最小的存储空间来完成该程序,相反的也必须用较久的时间,才能完成该程序。,38,通常有两种衡量算法的方法:1.事后统计法缺点:必须执行程序 其它因素掩盖算法本质2.事前统计法(推荐),39,和算法执行时间相关的因素,1.算法选用的策略2.问题的规模3.编写程序的语言(汇编语言的速度比C语言快)4.编译程序产生的机器代码的质量5.计算机执行指令的速度其中后3条与计算机本身的运算速度有关,与算法无关。因此我们在设计算法的时候不考虑后3条。一个特定算法的“运行工作量”的大小,只依赖于问题的规模(通常用整数n表示),或者说,它是问题规模的函数。,40,定义:如某算法执行时间T(n)是O(f(n),意思是说存在常数c和n0,使得对于一切nn0,T(n)cf(n)都成立。如果一个程序的时间复杂性是O(f(n),就说该程序的运行时间增加一个上界为f(n),或说T(n)是f(n)的大O函数。假如,随着问题规模n的增长,算法执行时间的增长率与f(n)相同,则可记作:T(n)=O(f(n)称T(n)为算法的(渐近)时间复杂性。其中,O()表示函数T(n)与f(n)成正比,或者说它们是一个数量级的。,41,算法的时间复杂性,我们将每个程序所花费的运行次数称为该程序的“时间复杂性(Time complexity)”,运用时间复杂性的概念,我们即可判断该程序的执行效率是否良好,也方便对两个程序进行分析与比较。从算法中选取一种对于所研究的问题来说是基本操作的原操作,以该基本操作在在算法中重复执行的次数作为算法运行时间的衡量标准。最佳状况(Best-Case),记做:B(n)最坏状况(Worst-Case),记做:W(n)一般状况的时间复杂性,记做:E(n)平均状况的时间复杂性,记做:A(n),42,大O运算规则,规则1:对于任何的常数k和任何的函数f,kf(n)=O(f(n)规则2If f(n)=O(g(n)and g(n)=O(h(n)Then f(n)=O(h(n)规则3f(n)+g(n)=O(maxf(n),g(n)规则4If f1(n)=O(g1(n)and f2(n)=O(g2(n)Then f1(n)*f2(n)=O(g1(n)*g2(n),43,1.4.4 事件复杂性分析如何估算算法的时间复杂性,算法=控制结构+若干原操作这里所说的原操作本来应该是计算机的基本指令,但当我们用高级语言来描述算法的时候,也可以把固有数据类型的操作看成是原操作。算法的执行时间=原操作的执行次数*原操作的执行时间由于原操作的执行时间对于不同的算法来说都是一个定值。因此,算法的执行时间与原操作执行次数之和成正比。,44,从算法中选取一种对于所研究的问题来说是基本操作(在所有原操作中起到决定性的作用)的原操作,以该基本操作在算法中重复执行的次数作为算法运行时间的衡量标准。,45,例一:矩阵相乘FOR(I=1;I=N;I+)FOR(J=1;J=N;J+)CI,J=0;FOR(K=1;K=N;K+)CI,J+=AI,K*BK,J;原操作:赋值、加法、乘法基本操作:乘法操作时间复杂性O(N3),46,例2:选择排序(时间复杂性是问题规模的函数,与输入数据无关)Void select_sort(int a,int n)/将a中整数序列重新排列成从小至大有序的整数序列for(i=0;iai;基本操作:比较数据元素当I=0时比较的次数为N-1次,当I=N-2时比较的次数为1次,即总次数为(N-1)+(N-2)+1=N*(N-1)/2也就是说比较次数与N2/2成正比,即与N2成正比时间复杂性:O(N2),47,例3:冒泡排序(时间复杂性既是问题规模的函数,又与输入数据有关)Void bubble_sort(int a,int n)/将a中整数序列重新排列成从小至大有序的整数序列for(i=n-1,change=TRUE;i1 基本操作:赋值操作(交换需要三次赋值来完成)当i=n-1时交换的最大次数为N-1次,当I=2时交换的最大次数为2次,及总次数为(N-1)+(N-2)+2=N*(N-1)/2-1时间复杂性:O(n2)注意:这里的时间复杂性是以排序的最坏情况来计算的。,48,再论增长率的决定作用,在一台计算机上所能解决的问题大小主要取决于程序运行时间的增长率,这就是要尽可能降低算法时间复杂性的原因。常见增长率的比较:lgnnnlgnn2n32n,49,算法的空间复杂性,算法的空间复杂度S(n)=O(g(n)表示随着问题规模n的增长,算法运行所需存储量的增长率与g(n)相同。,50,算法的存储量包括,1.输入数据所占空间2.程序本身所占空间3.辅助变量所占空间比较算法时可以不考虑程序本身所占的空间。若输入数据所占空间只取决于问题本身,而与算法无关,则只需分析除输入和程序之外的辅助变量所占额外空间。若所需额外空间相对于输入数据量来说是常数,则称此算法为原地工作。若所需存储量依赖于特定的输入,则通常按最坏情况考虑。,51,1.5 递归式的复杂度计算,参见教材P16-17,52,本章学习要点,熟悉各名词、术语的含义,掌握基本概念理解算法五个要素的确切含义掌握计算语句频度和估算算法时间复杂度的方法。,