数据结构课程chap09查找.ppt
第九章查 找,何谓查找表?,查找表是由同一类型的数据元素(或记录)构成的集合。,由于“集合”中的数据元素之间存在着松散的关系,因此查找表是一种应用灵便的结构。,对查找表经常进行的操作:,1)查询某个“特定的”数据元素是否在查找表中;2)检索某个“特定的”数据元素的各种属性;3)在查找表中插入一个数据元素;4)从查找表中删去某个数据元素。,仅作查询和检索操作的查找表。,静态查找表,有时在查询之后,还需要将“查询”结果为“不在查找表中”的数据元素插入到查找表中;或者,从查找表中删除其“查询”结果为“在查找表中”的数据元素。,动态查找表,查找表可分为两类:,是数据元素(或记录)中某个数据项的值,用以标识(识别)一个数据元素(或记录)。,关键字,若此关键字可以识别唯一的一个记录,则称之谓“主关键字”。,若此关键字能识别若干记录,则称之谓“次关键字”。,根据给定的某个值,在查找表中确定一个其关键字等于给定值的数据元素或(记录)。,查找,若查找表中存在这样一个记录,则称“查找成功”。查找结果给出整个记录的信息,或指示该记录在查找表中的位置;否则称“查找不成功”。查找结果给出“空记录”或“空指针”。,由于查找表中的数据元素之间不存在明显的组织规律,因此不便于查找。为了提高查找的效率,需要在查找表中的元素之间人为地 附加某种确定的关系,换句话说,用另外一种结构来表示查找表。,如何进行查找?,查找的方法取决于查找表的结构。,9.1 静态查找表,9.2 动态查找树表,9.3 哈希表,9.1 静 态 查 找 表,数据对象D:,数据关系R:,D是具有相同特性的数据元素的集合。每个数据元素含有类型相同的关键字,可唯一标识数据元素。,数据元素同属一个集合。,ADT StaticSearchTable,Create(,Destroy(,Search(ST,key);,Traverse(ST,Visit();,基本操作 P:,ADT StaticSearchTable,构造一个含n个数据元素的静态查找表ST。,Create(,操作结果:,销毁表ST。,Destroy(,初始条件:操作结果:,静态查找表ST存在;,若 ST 中存在其关键字等于 key 的数据元素,则函数值为该元素的值或在表中的位置,否则为“空”。,Search(ST,key);,初始条件:操作结果:,静态查找表ST存在,key 为和查找表中元素的关键字类型相同的给定值;,按某种次序对ST的每个元素调用函数Visit()一次且仅一次,一旦Visit()失败,则操作失败。,Traverse(ST,Visit();,初始条件:操作结果:,静态查找表ST存在,Visit是对元素操作的应用函数;,typedef struct/数据元素存储空间基址,建表时/按实际长度分配,0号单元留空 int length;/表的长度 SSTable;,假设静态查找表的顺序存储结构为,ElemType*elem;,数据元素类型的定义为:,typedef struct keyType key;/关键字域/其它属性域 ElemType;,TElemType;,一、顺序查找表,二、有序查找表,三、静态查找树表,四、索引顺序表,以顺序表或线性链表表示静态查找表,一、顺序查找表,ST.elem,回顾顺序表的查找过程:,假设给定值 e=64,要求 ST.elemk=e,问:k=?,k,k,int location(SqList L,ElemType/location,ST.elem,i,ST.elem,i,60,i,key=64,key=60,i,64,int Search_Seq(SSTable ST,KeyType key)/在顺序表ST中顺序查找其关键字等于/key的数据元素。若找到,则函数值为/该元素在表中的位置,否则为0。ST.elem0.key=key;/“哨兵”for(i=ST.length;ST.elemi.key!=key;-i);/从后往前找 return i;/找不到时,i为0/Search_Seq,定义:查找算法的平均查找长度(Average Search Length)为确定记录在查找表中的位置,需和给定值 进行比较的关键字个数的期望值 其中:n 为表长,Pi 为查找表中第i个记录的概率,且,Ci为找到该记录时,曾和给定值比较过的关键字的个数。,分析顺序查找的时间性能,在等概率查找的情况下,顺序表查找的平均查找长度为:,对顺序表而言,Ci=n-i+1,ASL=nP1+(n-1)P2+2Pn-1+Pn,若查找概率无法事先测定,则查找过程采取的改进办法是,在每次查找之后,将刚刚查找到的记录直接移至表尾的位置上。,在不等概率查找的情况下,ASLss 在 PnPn-1P2P1时取极小值,上述顺序查找表的查找算法简单,但平均查找长度较大,特别不适用于表长较大的查找表。,二、有序查找表,若以有序表表示静态查找表,则查找过程可以基于“折半”进行。,ST.elem,ST.length,例如:key=64 的查找过程如下:,low,high,mid,low,mid,high,mid,low 指示查找区间的下界high 指示查找区间的上界mid=(low+high)/2,int Search_Bin(SSTable ST,KeyType key)low=1;high=ST.length;/置区间初值 while(low=high)mid=(low+high)/2;if(EQ(key,ST.elemmid.key)return mid;/找到待查元素 else if(LT(key,ST.elemmid.key)high=mid-1;/继续在前半区间进行查找 else low=mid+1;/继续在后半区间进行查找 return 0;/顺序表中不存在待查元素/Search_Bin,先看一个具体的情况,假设:n=11,分析折半查找的平均查找长度,6,3,9,1,4,2,5,7,8,10,11,判定树,1,2,2,3,3,3,3,4,4,4,4,假设 n=2h-1 并且查找概率相等则 在n50时,可得近似结果,一般情况下,表长为 n 的折半查找的判定树的深度和含有 n 个结点的完全二叉树的深度相同。,关键字:A B C D E Pi:0.2 0.3 0.05 0.3 0.15 Ci:2 3 1 2 3,三、静态查找树表,在不等概率查找的情况下,折半查找不是有序表最好的查找方法。,例如:,此时 ASL=20.2+30.3+10.05+20.3+30.15=2.4,若改变Ci的值 2 1 3 2 3,则 ASL=20.2+10.3+30.05+20.3+30.15=1.9,使 达最小的判定树称为最优二叉树,其中:,定义:,为计算方便,令 wi=pi选择二叉树的根结点,使 达最小,介绍一种次优二叉树的构造方法:,为便于计算,引入累计权值和 并设 wl-1=0 和 swl-1=0,则推导可得,0,2,3,8,11,15,18,23,例如:,l,h,21,18,12,4,3,10,18,h,9,6,0,8,E,C,2,1,A,h,5,3,l,h,G,3,0,1,3,E,C,G,A,B,D,F,所得次优二叉树如下所示:,查找比较“总次数”=32+41+25+33+14+33+25=52,查找比较“总次数”=32+21+35+13+34+23+35=59,和折半查找相比较,D,B,A,C,F,E,G,Status SecondOptimal(BiTree/生成结点,构造次优二叉树的算法,CONTINUE,if(i=low)T-lchild=NULL;/左子树空else SecondOptimal(T-lchild,R,sw,low,i-1);/构造左子树 if(i=high)T-rchild=NULL;/右子树空 else SecondOptimal(T-rchild,R,sw,i+1,high);/构造右子树 return OK;/SecondOptimal,次优查找树采用二叉链表的存储结构,Status CreateSOSTre(SOSTree/CreatSOSTree,索引顺序表的查找过程:,1)由索引确定记录所在区间;,2)在顺序表的某个区间内进行查找。,注意:索引可以根据查找表的特点来构造。,可见,索引顺序查找的过程也是一个“缩小区间”的查找过程。,索引顺序查找的平均查找长度=查找“索引”的平均查找长度+查找“顺序表”的平均查找长度,ADT DynamicSearchTable,抽象数据类型动态查找表的定义如下:,数据对象D:数据关系R:,数据元素同属一个集合。,D是具有相同特性的数据元素的集合。每个数据元素含有类型相同的关键字,可唯一标识数据元素。,InitDSTable(&DT),基本操作P:,DestroyDSTable(&DT),SearchDSTable(DT,key);,InsertDSTable(,DeleteDSTable(,TraverseDSTable(DT,Visit();,ADT DynamicSearchTable,操作结果:,构造一个空的动态查找表DT。,InitDSTable(,销毁动态查找表DT。,DestroyDSTable(,初始条件:操作结果:,动态查找表DT存在;,若DT中存在其关键字等于 key的数据元素,则函数值为该元素的值或在表中的位置,否则为“空”。,SearchDSTable(DT,key);,初始条件:操作结果:,动态查找表DT存在,key为和关键字类型相同的给定值;,动态查找表DT存在,e 为待插入的数据元素;,InsertDSTable(,初始条件:操作结果:,若DT中不存在其关键字等于 e.key 的 数据元素,则插入 e 到DT。,动态查找表DT存在,key为和关键字类型相同的给定值;,DeleteDSTable(,初始条件:操作结果:,若DT中存在其关键字等于key的数据元素,则删除之。,动态查找表DT存在,Visit是对结点操作的应用函数;,TraverseDSTable(DT,Visit();,初始条件:操作结果:,按某种次序对DT的每个结点调用函数 Visit()一次且至多一次。一旦 Visit()失败,则操作失败。,9.2 动 态 查 找 树 表,(n)(1)(n)(1)(nlogn),综合上一节讨论的几种查找表的特性:,查找 插入 删除,无序顺序表 无序线性链表有序顺序表 有序线性链表 静态查找树表,(n)(n)(logn)(n)(logn),(1)(1)(n)(1)(nlogn),1)从查找性能看,最好情况能达(logn),此时要求表有序;,2)从插入和删除的性能看,最好 情况能达(1),此时要求存储 结构是链表。,可得如下结论:,一、二叉排序树(二叉查找树),二、二叉平衡树,三、B-树,四、B+树,五、键 树,一、二叉排序树(二叉查找树),1定义,2查找算法,3插入算法,4删除算法,5查找性能的分析,(1)若它的左子树不空,则左子树上 所有结点的值均小于根结点的值;,1定义:,二叉排序树或者是一棵空树;或者是具有如下特性的二叉树:,(3)它的左、右子树也都分别是二叉 排序树。,(2)若它的右子树不空,则右子树上 所有结点的值均大于根结点的值;,50,30,80,20,90,10,85,40,35,25,23,88,例如:,是二叉排序树。,66,不,通常,取二叉链表作为二叉排序树的存储结构,typedef struct BiTNode/结点结构 struct BiTNode*lchild,*rchild;/左右孩子指针 BiTNode,*BiTree;,TElemType data;,2二叉排序树的查找算法:,1)若给定值等于根结点的关键字,则查找成功;2)若给定值小于根结点的关键字,则继续在左子树上进行查找;3)若给定值大于根结点的关键字,则继续在右子树上进行查找。,否则,,若二叉排序树为空,则查找不成功;,50,30,80,20,90,85,40,35,88,32,例如:,二叉排序树,查找关键字,=50,50,50,35,50,30,40,35,50,90,50,80,90,95,从上述查找过程可见,,在查找过程中,生成了一条查找路径:,从根结点出发,沿着左分支或右分支逐层向下直至关键字等于给定值的结点;,或者,从根结点出发,沿着左分支或右分支逐层向下直至指针指向空树为止。,查找成功,查找不成功,算法描述如下:,Status SearchBST(BiTree T,KeyType key,BiTree f,BiTree/SearchBST,否则表明查找不成功,返回/指针 p 指向查找路径上访问的最后一个结点,/并返回函数值为FALSE,指针 f 指向当前访问/的结点的双亲,其初始调用值为NULL,if(!T)else if(EQ(key,T-data.key)else if(LT(key,T-data.key)else,p=f;return FALSE;/查找不成功,p=T;return TRUE;/查找成功,SearchBST(T-lchild,key,T,p);/在左子树中继续查找,SearchBST(T-rchild,key,T,p);/在右子树中继续查找,30,20,10,40,35,25,23,f,T,设 key=48,f,T,f,T,22,p,f,T,f,T,T,T,T,f,f,f,p,根据动态查找表的定义,“插入”操作在查找不成功时才进行;,3二叉排序树的插入算法,若二叉排序树为空树,则新插入的结点为新的根结点;否则,新插入的结点必为一个新的叶子结点,其插入位置由查找过程得到。,Status Insert BST(BiTree/Insert BST,s=(BiTree)malloc(sizeof(BiTNode);/为新结点分配空间s-data=e;s-lchild=s-rchild=NULL;,if(!p)T=s;/插入 s 为新的根结点,else if(LT(e.key,p-data.key)p-lchild=s;/插入*s 为*p 的左孩子else p-rchild=s;/插入*s 为*p 的右孩子,return TRUE;/插入成功,(1)被删除的结点是叶子;(2)被删除的结点只有左子树或者只有右子树;(3)被删除的结点既有左子树,也有右子树。,4二叉排序树的删除算法,可分三种情况讨论:,和插入相反,删除在查找成功之后进行,并且要求在删除二叉排序树上某个结点之后,仍然保持二叉排序树的特性。,50,30,80,20,90,85,40,35,88,32,(1)被删除的结点是叶子结点,例如:,被删关键字=20,88,其双亲结点中相应指针域的值改为“空”,50,30,80,20,90,85,40,35,88,32,(2)被删除的结点只有左子树或者只有右子树,其双亲结点的相应指针域的值改为“指向被删除结点的左子树或右子树”。,被删关键字=40,80,50,30,80,20,90,85,40,35,88,32,(3)被删除的结点既有左子树,也有右子树,40,40,以其前驱替代之,然后再删除该前驱结点,被删结点,前驱结点,被删关键字=50,Status DeleteBST(BiTree/不存在关键字等于key的数据元素 else/DeleteBST,算法描述如下:,if(EQ(key,T-data.key)/找到关键字等于key的数据元素else if(LT(key,T-data.key)else,Delete(T);return TRUE;,DeleteBST(T-lchild,key);/继续在左子树中进行查找,DeleteBST(T-rchild,key);/继续在右子树中进行查找,void Delete(BiTree&p)/从二叉排序树中删除结点 p,/并重接它的左子树或右子树 if(!p-rchild)else if(!p-lchild)else/Delete,其中删除操作过程如下所描述:,/右子树为空树则只需重接它的左子树,q=p;p=p-lchild;free(q);,p,p,/左子树为空树只需重接它的右子树,q=p;p=p-rchild;free(q);,p,p,q=p;s=p-lchild;while(!s-rchild)q=s;s=s-rchild;/s 指向被删结点的前驱,/左右子树均不空,p-data=s-data;if(q!=p)q-rchild=s-lchild;else q-lchild=s-lchild;/重接*q的左子树free(s);,p,q,s,5查找性能的分析,对于每一棵特定的二叉排序树,均可按照平均查找长度的定义来求它的 ASL 值,显然,由值相同的 n 个关键字,构造所得的不同形态的各棵二叉排序树的平均查找长 度的值不同,甚至可能差别很大。,由关键字序列 3,1,2,5,4构造而得的二叉排序树,,由关键字序列 1,2,3,4,5构造而得的二叉排序树,,例如:,2,1,3,4,5,3,5,4,1,2,ASL=(1+2+3+4+5)/5=3,ASL=(1+2+3+2+3)/5=2.2,下面讨论平均情况:,不失一般性,假设长度为 n 的序列中有 k 个关键字小于第一个关键字,则必有 n-k-1 个关键字大于第一个关键字,由它构造的二叉排序树:,n-k-1,k,的平均查找长度是 n 和 k 的函数,P(n,k)(0 k n-1)。,假设 n 个关键字可能出现的 n!种排列的可能性相同,则含 n 个关键字的二叉排序树的平均查找长度:,在等概率查找的情况下,,由此,可类似于解差分方程,此递归方程有解:,二、二叉平衡树,何谓“二叉平衡树”?,二叉平衡树的查找性能分析,如何构造“二叉平衡树”,二叉平衡树是二叉查找树的另一种形式,其特点为:,树中每个结点的左、右子树深度之差的绝对值不大于1。,例如:,5,4,8,2,5,4,8,2,1,是平衡树,不是平衡树,构造二叉平衡(查找)树的方法是:在插入过程中,采用平衡旋转技术。,例如:依次插入的关键字为5,4,2,8,6,9,5,4,2,4,2,5,8,6,6,5,8,4,2,向右旋转一次,先向右旋转再向左旋转,4,2,6,5,8,9,6,4,2,8,9,5,向左旋转一次,继续插入关键字 9,在平衡树上进行查找的过程和二叉排序树相同,因此,查找过程中和给定值进行比较的关键字的个数不超过平衡 树的深度。,平衡树的查找性能分析:,问:含 n 个关键字的二叉平衡树可能达到的最大深度是多少?,n=0,空树,最大深度为 0,n=1,最大深度为 1,n=2,最大深度为 2,n=4,最大深度为 3,n=7,最大深度为 4,先看几个具体情况:,反过来问,深度为 h 的二叉平衡树中所含结点的最小值 Nh 是多少?,h=0,N0=0,h=1,h=2,h=3,一般情况下,N1=1,N2=2,N3=4,Nh=Nh-1+Nh-2+1,利用归纳法可证得,Nh=Fh+2-1,因此,在二叉平衡树上进行查找时,查找过程中和给定值进行比较的关键字的个数和 log(n)相当。,由此推得,深度为 h 的二叉平衡树中所含结点的最小值 Nh=h+2/5-1。,反之,含有 n 个结点的二叉平衡树能达到的最大深度 hn=log(5(n+1)-2。,三、B-树,1定义,2查找过程,3插入操作,4删除操作,5查找性能的分析,1B-树的定义,B-树是一种 平衡 的 多路 查找 树:,在 m 阶的B-树上,每个非终端结点可能含有:n 个关键字 Ki(1 in)nm n 个指向记录的指针 Di(1in)n+1 个指向子树的指针 Ai(0in),多叉树的特性,typedef struct BTNode int keynum;/结点中关键字个数,结点大小 struct BTNode*parent;/指向双亲结点的指针 KeyType keym+1;/关键字(0号单元不用)struct BTNode*ptrm+1;/子树指针向量 Record*recptrm+1;/记录指针向量 BTNode,*BTree;/B树结点和B树的类型,B-树结构的C语言描述如下:,非叶结点中的多个关键字均自小至大有序排列,即:K1 K2 Kn;Ai-1 所指子树上所有关键字均小于Ki;Ai 所指子树上所有关键字均大于Ki;,查找树的特性,平衡树的特性,树中所有叶子结点均不带信息,且在树中的同一层次上;根结点或为叶子结点,或至少含有两棵子树;其余所有非叶结点均至少含有m/2棵子树,至多含有 m 棵子树;,从根结点出发,沿指针搜索结点和在结点内进行顺序(或折半)查找 两个过程交叉进行。,2.查找过程:,若查找成功,则返回指向被查关键字所在结点的指针和关键字在结点中的位置;,若查找不成功,则返回插入位置。,typedef struct BTNode*pt;/指向找到的结点的指针 int i;/1.m,在结点中的关键字序号 int tag;/标志查找成功(=1)或失败(=0)Result;/在B树的查找结果类型,假设返回的是如下所述结构的记录:,Result SearchBTree(BTree T,KeyType K)/在m 阶的B-树 T 中查找关键字 K,返回/查找结果(pt,i,tag)。若查找成功,则/特征值 tag=1,指针 pt 所指结点中第 i 个/关键字等于 K;否则特征值 tag=0,等于/K 的关键字应插入在指针 pt 所指结点/中第 i 个关键字和第 i+1个关键字之间/SearchBTree,p=T;q=NULL;found=FALSE;i=0;while(p/查找不成功,在查找不成功之后,需进行插入。显然,关键字插入的位置必定在最下层的非叶结点,有下列几种情况:,3插入,1)插入后,该结点的关键字个数nm,不修改指针;例如,2)插入后,该结点的关键字个数 n=m,则需进行“结点分裂”,令 s=m/2,在原结点中保留(A0,K1,Ks-1,As-1);建新结点(As,Ks+1,Kn,An);将(Ks,p)插入双亲结点;例如,3)若双亲为空,则建新的根结点。例如,例如:下列为 3 阶B-树,50,20 40,80,插入关键字=60,60 80,90,608090,90,50 80,60,30,40,20,30 50 80,80,30,50,和插入的考虑相反,首先必须找到待删关键字所在结点,并且要求删除之后,结点中关键字的个数不能小于m/2-1,否则,要从其左(或右)兄弟结点“借调”关键字,若其左和右兄弟结点均无关键字可借(结点中只有最少量的关键字),则必须进行结点的“合并”。,4删除,在B-树中进行查找时,其查找时间主要花费在搜索结点(访问外存)上,即主要取决于B-树的深度。,5查找性能的分析,问:含 N 个关键字的 m 阶 B-树可能达到的最大深度 H 为多少?,第 2 层 2 个,先推导每一层所含最少结点数:,第 1 层 1 个,第 H+1 层 2(m/2)H-1 个,第 4 层 2(m/2)2 个,第 3 层 2m/2 个,反过来问:深度为H的B-树中,至少含有多少个结点?,假设 m 阶 B-树的深度为 H+1,由于第 H+1 层为叶子结点,而当前树中含有 N 个关键字,则叶子结点必为 N+1 个,,N+12(m/2)H-1 H-1logm/2(N+1)/2)Hlogm/2(N+1)/2)+1,由此可推得下列结果:,在含 N 个关键字的 B-树上进行一次查找,需访问的结点个数不超过 logm/2(N+1)/2)+1,结论:,是B-树的一种变型,四、B+树,1B+树的结构特点:,每个叶子结点中含有 n 个关键字和 n 个指向记录的指针;并且,所有叶子结点彼此相链接构成一个有序链表,其头指针指向含最小关键字的结点;,每个非叶结点中的关键字 Ki 即为其相应指针 Ai 所指子树中关键字的最大值;,所有叶子结点都处在同一层次上,每个叶子结点中关键字的个数均介于 m/2和 m 之间。,2查找过程,在 B+树上,既可以进行缩小范围的查 找,也可以进行顺序查找;,在进行缩小范围的查找时,不管成功 与否,都必须查到叶子结点才能结束;,若在结点内查找时,给定值Ki,则 应继续在 Ai 所指子树中进行查找。,3插入和删除的操作,类似于B-树进行,即必要时,也需要进行结点的“分裂”或“归并”。,50 96,15 50,62 78 96,71 78,84 89 96,56 62,20 26 43 50,3 8 15,sq,root,五、键 树,1.键树的结构特点,2.双链树,3.Trie树,1.键树的结构特点:,关键字中的各个符号分布在从根结点到叶的路径上,叶结点内的符号为“结束”的标志符。因此,键树的深度和关键字集合的大小无关;,键树被约定为是一棵有序树,即同一层中兄弟结点之间依所含符号自左至右有序,并约定结束符$小于任何其它符号。,H,A,D,$,S,$,V,E,$,E,$,R,$,E,$,I,G,H,$,S,$,例如:,表示关键字集合HAD,HAS,HAVE,HE,HER,HERE,HIGH,HIS,2.双链树,以二叉链表作存储结构实现的键树,typedef enum LEAF,BRANCH NodeKind;/两种结点:叶子 和 分支,结点结构:,first symbol next,分支结点,infoptr symbol next,叶子结点,指向孩子结点的指针,指向兄弟结点的指针,指向记录的指针,H,A,D,$,HAD,E,$,R,$,$,E,S,$,G,H,$,I,HE,HER,HERE,HIGH,HIS,T,叶子结点,分支结点,含关键字的记录,typedef struct DLTNode char symbol;struct DLTNode*next;/指向兄弟结点的指针 NodeKind kind;union Record*infoptr;/叶子结点内的记录指针 struct DLTNode*first;/分支结点内的孩子链指针 DLTNode,*DLTree;/双链树的类型,#define MAXKEYLEN 16/关键字的最大长度,typedef struct char chMAXKEYLEN;/关键字 int num;/关键字长度 KeysType;/关键字类型,在双链树中查找记录的过程:,假设:T 为指向双链树根结点的指针,K.ch0.K.num-1 为待查关键字(给定值)。,则查找过程中的基本操作为进行下列比较:K.chi=?p-symbol 其中:p 指向双链树中某个结点,0 i K.num-1,初始状态:p=T-first;i=0;,若(p,若(p,若(p&p-symbol=K.chi&i=K.num-1)则 查找成功,返回指向相应记录的指针 p-infoptr,若(p=NULL)则表明查找不成功,返回“空指针”;,3.Trie树,以多重链表作存储结构实现的键树,结点结构:,分支结点,叶子结点,指向记录的指针,0 1 2 3 4 5 24 25 26,关键字,指向下层结点的指针每个域对应一个“字母”,0 1(A)3 4 5(E)9(I)26,8(H),4(D)19(S)22(V)0 18(R)7(G)19,0 5(E),T,HAD,HAS,HAVE,HE,HER,HERE,HIGH,HIS,叶子结点,分支结点,指向记录的指针,typedef struct TrieNode NodeKind kind;/结点类型 union struct KeyType K;Record*infoptr lf;/叶子结点(关键字和指向记录的指针)struct TrieNode*ptr27;int num bh;/分支结点(27个指向下一层结点的指针)TrieNode,*TrieTree;/键树类型,结点结构的 C 语言描述:,在 Trie 树中查找记录的过程:,假设:T 为指向 Trie 树根结点的指针,K.ch0.K.num-1 为待查关键字(给定值)。,则查找过程中的基本操作为:搜索和对应字母相应的指针:若 p 不空,且 p 所指为分支结点,则 p=p-bh.Ptrord(K.Chi);(其中:0 i K.num-1),初始状态:p=T;i=0;,若(p 其中,ord 为求字符在字母表中序号的函数,若(p&p-kind=LEAF&p-lf.K=K)则 查找成功,返回指向相应记录的指针 p-lf.infoptr,反之,即(!p|p-kind=LEAF,一、哈希表是什么?,二、哈希函数的构造方法,三、处理冲突的方法,四、哈希表的查找,五、哈希表的删除操作,六、对静态查找表,,9.3 哈 希 表,以上两节讨论的表示查找表的各种结构的共同特点:记录在表中的位置和它的关键字之间不存在一个确定的关系,,一、哈希表是什么?,查找的过程为给定值依次和关键字集合中各个关键字进行比较,,查找的效率取决于和给定值进行比较的关键字个数。,用这类方法表示的查找表,其平均查找长度都不为零。,不同的表示方法,其差别仅在于:关键字和给定值进行比较的顺序不同。,只有一个办法:预先知道所查关键字在表中的位置,,对于频繁使用的查找表,希望 ASL=0。,即,要求:记录在表中位置和其关键字之间存在一种确定的关系。,若以下标为000 999 的顺序表表示之。,例如:为每年招收的 1000 名新生建立一张查找表,其关键字为学号,其值的范围为 xx000 xx999(前两位为年份)。,则查找过程可以简单进行:取给定值(学号)的后三位,不需要经过比较便可直接从顺序表中找到待查关键字。,但是,对于动态查找表而言,,因此在一般情况下,需在关键字与记录在表中的存储位置之间建立一个函数关系,以 f(key)作为关键字为 key 的记录在表中的位置,通常称这个函数 f(key)为哈希函数。,1)表长不确定;,2)在设计查找表时,只知道关键字所 属范围,而不知道确切的关键字。,Zhao,Qian,Sun,Li,Wu,Chen,Han,Ye,Dei,例如:对于如下 9 个关键字,设 哈希函数 f(key)=(Ord(第一个字母)-Ord(A)+1)/2,Chen,Zhao,Qian,Sun,Li,Wu,Han,Ye,Dei,问题:若添加关键字 Zhou,怎么办?,能否找到另一个哈希函数?,1)哈希函数是一个映象,即:将关键字的集合映射到某个地址集合上,它的设置很灵活,只要这个地址集合的 大小不超出允许范围即可;,从这个例子可见:,2)由于哈希函数是一个压缩映象,因此,在一般情况下,很容易产生“冲突”现象,即:key1 key2,而 f(key1)=f(key2)。,3)很难找到一个不产生冲突的哈希函数。一般情况下,只能选择恰当的哈希函数,使冲突尽可能少地产生。,因此,在构造这种特殊的“查找表”时,除了需要选择一个“好”(尽可能少产生冲突)的哈希函数之外;还需要找到一种“处理冲突”的方法。,哈希表的定义:,根据设定的哈希函数 H(key)和所选中的处理冲突的方法,将一组关键字映象到一个有限的、地址连续的地址集(区间)上,并以关键字在地址集中的“象”作为相应记录在表中的存储位置,如此构造所得的查找表称之为“哈希表”。,二、构造哈希函数的方法,对数字的关键字可有下列构造方法:,若是非数字关键字,则需先对其进行数字化处理。,1.直接定址法,3.平方取中法,5.除留余数法,4.折叠法,6.随机数法,2.数字分析法,哈希函数为关键字的线性函数 H(key)=key 或者 H(key)=a key+b,1.直接定址法,此法仅适合于:地址集合的大小=关键字集合的大小,此方法仅适合于:能预先估计出全体关键字的每一位上各种数字出现的频度。,2.数字分析法,假设关键字集合中的每个关键字都是由 s 位数字组成(u1,u2,us),分析关键字集中的全体,并从中提取分布均匀的若干位或它们的组合作为地址。,以关键字的平方值的中间几位作为存储地址。求“关键字的平方值”的目的是“扩大差别”,同时平方值的中间各位又能受到整个关键字中各位的影响。,3.平方取中法,此方法适合于:关键字中的每一位都有某些数字重复出现频度很高的现象。,将关键字分割成若干部分,然后取它们的叠加和为哈希地址。有两种叠加处理的方法:移位叠加和间界叠加。,4.折叠法,此方法适合于:关键字的数字位数特别多。,5.除留余数法,设定哈希函数为:H(key)=key MOD p 其中,pm(表长)并且 p 应为不大于 m 的素数 或是 不含 20 以下的质因子,给定一组关键字为:12,39,18,24,33,21,若取 p=9,则他们对应的哈希函数值将为:3,3,0,6,6,3,例如:,为什么要对 p 加限制?,可见,若 p 中含质因子 3,则所有含质因子 3 的关键字均映射到“3 的倍数”的地址上,从而增加了“冲突”的可能。,6.随机数法,设定哈希函数为:H(key)=Random(key)其中,Random 为伪随机函数,通常,此方法用于对长度不等的关键字构造哈希函数。,实际造表时,采用何种构造哈希函数的方法取决于建表的关键字集合的情况(包括关键字的范围和形态),总的原则是使产生冲突的可能性降到尽可能地小。,三、处理冲突的方法,“处理冲突”的实际含义是:为产生冲突的地址寻找下一个哈希地址。,1.开放定址法,2.链地址法,为产生冲突的地址 H(key)求得一个地址序列:H0,H1,H2,Hs 1 sm-1其中:H0=H(key)Hi=(H(key)+di)MOD m i=1,2,s,1.开放定址法,对增量 di 有三种取法:,1)线性探测再散列 di=c i 最简单的情况 c=12)平方探测再散列 di=12,-12,22,-22,3)随机探测再散列 di 是一组伪随机数列 或者 di=iH2(key)(又称双散列函数探测),即:产生的 Hi 均不相同,且所产生的 s(m-1)个 Hi 值能覆盖哈希表中所有 地址。则要求:,注意:增量 di 应具有“完备性”,随机探测时的 m 和 di 没有公因子。,平方探测时的表长 m 必为形如 4j+3 的素数(如:7,11,19,23,等);,例如:关键字集合 19,01,23,14,55,68,11,82,36,设定哈希函数 H(key)=key MOD 11(表长=11),19,01,23,14,55,68,19,01,23,14,68,若采用线性探测再散列处理冲突,若采用二次探测再散列处理冲突,11,82,36,55,11,82,36,1 1 2 1 3 6 2 5 1,H2(key)是另设定的一个哈希函数,它的函数值应和 m 互为素数。,若 m 为素数,则 H2(key)可以是 1 至 m-1 之间的任意数;,若 m 为 2 的幂次,则 H2(key)应是 1 至 m-1 之间的任意奇数。,例如,当 m=11时,可设 H2(key)=(3 key)MOD 10+1,19,01,23,14,55,68,11,82,36,2 1 1 1 2 1 2 1 3,将所有哈希地址相同的记录都链接在同一链表中。,2.链地址法,0123456,14,01,36,19,82,23,11,68,55,ASL=(61+22+3)/9=13/9,例如:同前例的关键字,哈希函数为 H(key)=key MOD 7,查找过程和造表过程一致。假设采用开放定址处理冲突,则查找过程为:,四、哈希表的查找,对于给定值 K,计算哈希地址 i=H(K),若 ri=NULL 则查找不成功,若 ri.key=K 则查找成功,否则“求下一地址 Hi”,直至 rHi=NULL(查找不成功)或 rHi.key=K(查找成功)为止。,int hashsize=997,.;typedef struct ElemType*elem;int count;/当前数据元素个数 int sizeindex;/hashsizesizeindex为当前容量 HashTable;#define SUCCESS 1#define UNSUCCESS 0#define DUPLICATE-1,/-开放定址哈希表的