数据结构课程设计(哈夫曼编码).docx
目 录11课程设计的目的和意义32需求分析53系统设计6(1) 设计思路及方案6(2) 模块的设计及介绍6(3) 主要模块程序流程图94系统实现14主调函数14(2)建立HuffmanTree14生成Huffman编码并写入文件18(4) 电文译码195系统调试22小结25参考文献26附录源程序271课程设计的目的和意义IIIIIIIIII II!|在当今信息爆炸时代,如何采用有效的数据压缩技术来节省数据文件的存储空间III和计算机网络的传送时间已越来越引起人们的重视。哈夫曼编码正是一种应用广泛且IIIII非常有效的数据压缩技术。III1哈夫曼编码的应用很广泛,利用哈夫曼树求得的用于通信的二进制编码称为哈夫II装曼编码。树中从根到每个叶子都有一条路径,对路径上的各分支约定:指向左子树的III 分支表示“0”码,指向右子树的分支表示“1”码,取每条路径上的“0”或“1”IIIII的序列作为和各个对应的字符的编码,这就是哈夫曼编码。II I订通常我们把数据压缩的过程称为编码,解压缩的过程称为解码。电报通信是传递I!I文字的二进制码形式的字符串。但在信息传递时,总希望总长度尽可能最短,即采用I II 最短码。线I作为软件工程专业的学生,我们应该很好的掌握这门技术。在课堂上,我们能过IIII学到许多的理论知识,但我们很少有过自己动手实践的机会!课程设计就是为解决这I III个问题提供了一个平台。III在课程设计过程中,我们每个人选择一个课题,认真研究,根据课堂讲授内容,IIIII借助书本,自己动手实践。这样不但有助于我们消化课堂所讲解的内容,还可以增强II- 一 一. . . . 一一 一一 . . .I我们的独立思考能力和动手能力;通过编写实验代码和调试运行,我们可以逐步积累II调试C程序的经验并逐渐培养我们的编程能力、用计算机解决实际问题的能力。在课程设计过程中,我们不但有自己的独立思考,还借助各种参考文献来帮助我们完成系统。更为重要的是,我们同学之间加强了交流,在对问题的认识方面可以交换不同的意见。同时,师生之间的互动也随之改善,我们可以通过具体的实例来从老 师那学到更多的实用的知识。IIII!数据结构课程具有比较强的理论性,同时也具有较强的可应用性和实践性。课程IIII设计是一个重要的教学环节。我们在一般情况下都能够重视实验环节,但是容易忽略I!|实验的总结,忽略实验报告的撰写。通过这次实验让我们明白:作为一名大学生必须III严格训练分析总结能力、书面表达能力。需要逐步培养书写科学实验报告以及科技论IIII1文的能力。只有这样,我们的综合素质才会有好的提高。装I线I2需求分析I 题 目:哈夫曼编码/译码器I I1问题描述:IIIII利用哈夫曼编码进行信息通信可以大大提高信道利用率,缩短信息传输时IIII间,降低传输成本。但是这要求在发送端通过一个编码系统对待传数据预III先编码;在接收端将传来的数据进行译码(复原)。对于双工信道(即可装I以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样!III的信息收发站写一个哈夫曼码的编译码系统。I I订具体要求:I II1)初始化:键盘输入字符集大小n及n个字符和m个权值,建立哈I夫曼树,并将它存于文件hfmtree中。I2)编码:利用建好的哈夫曼树,对文件tobetrans中的正文进行编码,线然后将结果存入文件codefile中。I3)解码:利用建好的哈夫曼树将文件codefile中的代码进行译码,结I果存入文件textfile中。I4)打印代码文件:将文件codefile以紧凑格式显示在终端上,每行I50个代码。同时将此字符形式的编码文件写入文件codeprint中。I5)打印哈夫曼树:将已在内存中的哈夫曼树以直观的方式(树或凹入I表形式)显示在终端上,同时将此字符形式的哈夫曼树写入文件Itreeprint 中。6)设字符集及频度如下表:字符空格ABCDEFGHIJKLM频度1866423223210321154757153220字符NOPQRSTUVWXYZ频度205619250515530101122123系统设计IIIIIIIII I(1)设计思路及方案!. i本课题是用最优二叉树即哈夫曼树来实现哈夫曼编码译码器的功能。假设每种字II!符在电文中出现的次数为Wi,编码长度为Li,电文中有n种字符,则电文编码总长IIII!度为(W1*L1) + (W2*L2) + . +(Wi*Li)。若将此对应到二叉树上,Wi为叶结点,Li为!II!根结点到叶结点的路径长度。那么,(W1*L1) + (W2*L2) + .+(Wi*Li)恰好为二叉树上II装装带权路径长度。II!因此,设计电文总长最短的二进制前缀编码,就是以n种字符出现的频率作权,II!构造一棵哈夫曼树,此构造过程称为哈夫曼编码。订!该系统将实现以下几大功能:从硬盘读取字符串,建立哈夫曼树,输出哈夫曼树II! . . . . . . 一 一 .!的存储结构的初态和终态,输出各种字符出现的次数以及哈夫曼编码的译码等。II线(2)模块的设计及介绍 从硬盘读略符串I I!fileopen(参数)II II!(IIII!实现命令;III!打印输出;I II II!I 建立 HuffmanTree通过三个函数来实现:void select(参数)初始化;IIIIiforIIIIII:IIIi接受命令;IIi处理命令;IIIIIiIII'装JIi说明:在ht1.k中选择parent为0且权值最小的两个根结点的算法IIiint jsq(参数)订IIIi初始化;IIIIifor线iIIIIi接受命令;I II!.i处理命令;IIIIIiIIIIi IIIIi 说明:统计字符串中各种字母的个数以及字符的种类IIIvoid ChuffmanTree()初始化;for接受命令;I III!处理命令;I II II :I I !|输出字符统计情况;I IIII I IIII说明:构造哈夫曼树I II装输出哈夫曼树的存储结构的初态和终态III分别调用print1()和print2()来实现I II void print1(参数) 订(I IIII初始化;I III输出初态;线II IIII说明:输出哈夫曼树的初态I IIIIvoid print2(参数)I II III I II forI II IIIII I输出终态;说明:输出哈夫曼树的终态哈夫曼编码和译码void HuffmanEncoding(参数)IIIII!III 定义变量;IIIIIII 处理命令;IIIII III装 JI 说明:哈夫曼编码II char*decode(参 数)订III定义变量;II I while线III 接受命令;III 处理命令;IIIIIIIIII 说明:哈夫曼译码III(3)主要模块程序流程图下面介绍三个主要的程序模块流程图:主函数流程图:图3.1流程图注释:该图比较简单,主要是调用各个函数模块,首先代开已经存在的文件,然后统计总的 字符数以及出现的各个字符和频率。然后才开始建立哈夫曼树,接着在哈夫曼树的基 础上对其进行编码,编码之后才是译码。最后输出结束。 构造哈夫曼树:图3.2流程图注释: 该图是表示构造哈夫曼树的过程。首先输入num个叶结点的权值,当i=num是循 环结束。然后进行哈夫曼树的构建,当i=2*num-1是循环结束。最后输出所得到的 字符统计情况。哈夫曼编码:图3.3流程图解释:该流程图表四哈夫曼编码情况。首先初始化,Cd-start=0,start=num。然后进行 编码,使用了一个三目运算符。cd-start=(Tp.lchild =c) ? '0' : '1',即当 cd-start=Tp.lchild= =c 时,cd-start=0 ;当 cd-start=Tp.lchild ! = =c 时,cd-start = 1。这个编码循环一直到i=num时结束。4系统实现各模块关键代码及算法的解释:主调函代码解释:这是main函数里的各个函数调用情况。fileopen(string);从硬盘中读取文件num=jsq(string,cnt,str);统计字符种类及各类字符出现的频率DhuffmanTree(HT,cnt,str);printf("HuffmanTree 的初态:n");print1(HT);输出哈夫曼树的初态ChuffmanTree(HT,HC,cnt,str);/建 立哈夫曼树HuffmanEncoding(HT,HC);生成哈夫曼编码printf("HuffmanTree 的终态:n");print2(HT);输出哈夫曼树的终态s=decode(HC);读编码文件译码printf(-译码后的字符串:n");printf("%sn",s);输出译码后的字符串(2)建立 HuffmanTree代码解释:该函数为在ht1.k中选择parent为0且权值最小的两个根结点的算法,其序号为s1和s2。void select(HuffmanTree T,int k,int &s1,int &s2)int i,j;int min1=101;I I I I ifor(i=1;i< = k;i+)I I i . .iif(Ti.weight<min1 &&Ti.parent=0)I I I I I iI I I Iij=i;min1=Ti.weight;I I I II iI I I i壮s1=j;min1=32767;装I I ifor (i=1;i< = k;i+)I Iiif(Ti.weight<min1 && Ti.parent=0 && i!=s1)订I I I i ij = i;min1=Ti.weight;I I I I I i线is2=j;! I I I i I I I ii 代码解释:下面函数用来统计字符串中各种字母的个数以及字符的种类。当字符I I i i 在A和Z之间时即被计数,并用strj保存字母到数组中,用cntj统计每种字符个I Ii 数。j返回总共读取的字符数目。: I I i iint jsq(char *s,int cnt,char str)I Iint i,j,k;char *p;int temp27;for(i=1;i<=26;i+) tempi=0;III Iifor(p=s; *p! = '0'p+)IIII :IIIIII iIIiif(*p> = 'A'&&*p< = 'Z')III Iik=*p-64;III i 装tempk + +;IIII iIIi统计各种字符的个数III I订for(i=1,j=0;i<=26;+ + i)II iiif(tempi!=0 )IIII I i线ij+;!I Iistrj = i+64;送对应的字母到数组中II iicntj=tempi; 存入对应字母的权值IIII I iIIireturn j;/j是输入字母总数:IIII iII I代码解释:下面函数用来构造哈夫曼树HT。首先初始化哈夫曼树,然后输入前面统计的各结点的权值,用for循环来构造哈夫曼树。void ChuffmanTree(HuffmanTree HT,HuffmanCode HC,int cnt,char str)int i,s1,s2;for(i=1;i<=2*num-1;i+)/初始化 HT , 2*num-1 是指哈夫曼IIII!所有的结点数目IIIII:I II !iHTi.lchild=0;HTi.rchild=0;IIIIiHTi.parent=0;HTi.weight=0;IIIII!I IIi一一 -一 一 装for(i = 1;i< = num;i + +)输入num个叶结点的权值iiHTi.weight=cnti;IIIIifor(i=num + 1;i<=2*num-1;i+)订I IIiiselect(HT,i-1,s1,s2);IIIiHTs1.parent=i;HTs2.parent=i;线iHTi.lchild=s1; HTi.rchild=s2;IIIIi HTi.weight=HTs1.weight+HTs2.weight;IIIIIii II ii/在ht1.k中选择parent为0且权值最小IIi的两个根结点,其序号为s1和s2,i为双亲IIII!for(i=0;i< = num;i+) 输入字符集的中字符IIIHCi.ch=stri;字符的种类i=1;while(i< = num)printf("字符c 次数:dn",HCi.ch,cnti+);输出统计的情况(3)生成 Huffman编码并写入文件-.:代码解释:根据哈夫曼树T求哈夫曼编码H。I II IIvoid HuffmanEncoding(HuffmanTree T,HuffmanCode H)I II II I II IIint c,p,i;/c和p分别指示t中孩子和双亲I IIIchar cdn;临时存万攵编码串IIIIint start;指示码在cd中的起始位置装1cdnum = '0'最后一位(第num个)放上串结束符I II II1for(i = 1;i< = num;+ + i)订I IIstart=num;初始位置I II c=i;从叶子结点ti开始上溯III I线while(p=Tc.parent)>0) /直至上溯到tc是树根为止I II IIII IIIcd-start=(Tp.lchild =c) ? '0' : '1'I II IIc = p;!I II若tc是tp的左孩子IIII则生成0;否则生成底码1II Istrcpy(Hi.bits,&cdstart);Hi.len=num-start;代码解释:对str所代表的字符串进行编码并写入文件。将翻译的二进制码写入 文本文件。IIII! II /I I rrz* I I I z* Ij- I !void coding(HuffmanCode HC ,char *str)!JIII:I II !iint i,j;IIiFILE *fp;IIII!fp=fopen("codefile.txt","w");IIi壮while(*str)装IIIIiIIIIifor(i=1;i< = num;i+)IIII订if(HCi. ch =*str)I IIiifor(j=0;j< = HCi.len;j + +)II iifputc(HCi.bitsj,fp);线ibreak;IIIII:IIII i-str+;IIIIIIifclose(fp);IIIIiIIII(4)电文译码!代码解释:代码文件codefile.txt的译码,将翻译的二进制码译成原来的字符。char*decode(HuffmanCode HC) FILE *fp;char str254;假设远文本文件不超过254个字符char *p;static char cdn + 1;I II I|int i/j/k=0,cjs;I I-一 一一ifp=fopen( codefile.txt , r);/只读的方式打开文本文档/codefile.txtII iiwhile(!feof(fp)/feof(fp)判断文件是否真正结束,I Ii/feof(fp)=1时文件结束I II II !(I III i 装cjs=0;I Iifor(i=0;i<num && cjs=0 && !feof(fp);i+)I II IiI II I 订cdi = ''I II iicdi+1='0'II iicdi=fgetc(fp);/数组接受从fp指针所指向文件中读线i/入的一个字符I II I i :for(j = 1;j< = num;j + +)I I iiif(strcmp(HCj.bits,cd) = =0)II II I iI II Iistrk = HCj.ch;:I I!k+;I IIcjs=1;break;/haffman编码和密码译码相比较strk='0'p=str;return p;装I线I5系统调试运行程序后,我们可以见到一下的运行界面。从硬盘中读出已有的文本文件(见图5.1):质出文本为: HIS PROGRAM IS MY FAVORITE图5.1输出哈夫曼树存储结构的初态(见图5.2):HuFFmanTree 的初态=20001000100010001000300030002000100030004000200010002000图5.2 输出所读字符的种类和每种字符的个数(见图5.3):21111332134212耕辨=si =«i =耕麝辨S =辨辨耕熟 =F'-rr、L/ L/ L/ L/r.L/ L/r'lrL/F'r'-rL/涉-#-#汐-麟-涉-1?aefghimoprstuvOHHKlxrHHMMHOHK子!图 5.3装IIIIIIIIIIII|输出哈夫曼树存储结构的终态(见图5.4):订I|hliFf manTree 的M冬态:218Q01150011506116061160032100322&0218061170S32206423&62190Q117062190022023220452219134231842412144241552517662571082611188261920112721221G27232427Q2526图5.4输出译码后的字符(见图5.5)季码后的字符串:CHIS PROGRAM IS MV FAUORITEJpess any key to continueI图 5.5I II II IIIIII由此可见,此次测试很成功。我们能够将文本文档中的文段读出,并将其统计I II并输出字符种类和每种字符出现的频率。同时输出哈夫曼树存储结构的初态和终态。II II1然后输出译码后的字符。装I线I小结I II II II II!|通过一周的课程设计使我对哈夫曼树以及哈夫曼编码有了更深的认识和理解,也I Ii使我更加明白哈夫曼编码译码在信息技术中的重要性和地位。!II i首先我谈谈我在设计期间我遇到的难点。开始的时候,代码中有许多的错误,特I Ii 一 一 i别是有一个“无法找到文件”的错误让我束手无策,最后还是屏蔽了定义的四个头文I I i i件然后慢慢地改正错误才让我又看到了希望。然后在实现文章的读入时,由于对文件装i不是太熟悉,只好翻开C语言书本仿照其模式编写,但后来进入了死循环,最后的!II i解决方式是把main函数里的一个do.while循环去掉。在程序中,我还另外加了I I i 订一个功能-输出哈夫曼树的存储结构的初态和终态。这使得我更加的明白了哈夫曼i i到底是怎么存储信息的。I Ii许多的错误让我明白了一个道理-细心是非常重要的。同时,对于编程者而言,I II I 线思路清晰是相当重要的。在适当的时候和同学一起交流探讨是一个十分好的学习机I I i i会。请教老师也很重要,因为毕竟我们是新手,对于某些问题很难弄清楚。而且,某II i i些错误对于我们来说有时候想半天都弄不来,但老师几下下就搞好了,这样就更加有I Ii效地节约了时间。!I Ii这次课程设计不但让我学得了一些编程知识,还学会了系统的做一份课程设计报I I i i 告,学会了如何截图,学会了如何更好的画流程图,明白了做事情只有认真,才能真I II正做得更好!参考文献I 1严蔚敏.数据结构(C语言版).清华大学出版社,2007I I12苏仕华.数据结构课程设计.机械工业出版社,2007!II13谭浩强.C语言程序设计教程.高等教育出版社,2006II线I附录源程序#include <stdio.h>#include <string.h>#include <stdlib.h>#include<fstream.h>* 类型相关变量的定义 *#define n 100叶子结点数#define m 2*n-1哈夫曼树中的结点树存放编码位串typedef struct( char ch; char bits9; int len;CodeNode;typedef CodeNode HuffmanCoden+1;权值左右孩子几双亲指针typedef struct ( int weight; int lchild,rchild,parent;HTNode;/0号单元不用typedef HTNode HuffmanTreem + 1;int num;/*建立 HuffmanTree* void select(HuffmanTree T,int k,int &s1,int &s2) /在ht1.k中选择parent为0且权值最小的两个根结点的算法 /其序号为s1和s2 int i,j;int min1 = 101; for(i=1;i< = k;i+)if(Ti.weight<min1 &&Ti.parent=0) j = i;min1=Ti.weight;s1=j;min1 = 32767;for (i=1;i< = k;i+) if(Ti.weight<min1 && Ti.parent=0 && i!=s1) j=i;min1=Ti.weight; s2二j;int jsq(char *s,int cnt,char str)统计字符串中各种字母的个数以及字符的种类int i,j,k;char *p;int temp27;for(i = 1;i<=26;i + +) tempi=0;for(p=s; *p! = '0'p+) (统计各种字符的个数if(*p>='A'&&*p<='Z') k=*p-64; tempk+; for(i = 1j=0;i<=26;+ + i) if(tempi!=0 ) j+;strj=i+64;送对应的字母到数组中cntj=tempi;存入对应字母的权值 return j;/j是输入字母总数void ChuffmanTree(HuffmanTree HT,HuffmanCode HC,int cnt,char str)/构造哈夫曼树HTint i,s1,s2;for(i = 1;i<=2*num-1;i+)/初始化HT,2*num-1是指哈夫曼树所有的结点数目 HTi.lchild=0;HTi.rchild=0;HTi.parent=0;HTi.weight=0;for(i = 1;i< = num;i+)输入num个叶结点的权值HTi.weight=cnti;for(i = num + 1;i<=2*num-1;i+) /在ht1.k中选择parent为0且权值最小的两个根结点 /其序号为s1和s2 /i为双亲select(HT,i-1,s1,s2);HTs1.parent=i;HTs2.parent=i;HTi.lchild=s1; HTi.rchild=s2;输入字符集的中字符/字符的种类HTi.weight=HTs1.weight+HTs2.weight; for(i=0;i< = num;i+)HCi.ch=stri; i=1;while(i< = num)printf("字符。次数:dn",HCi.ch,cnti+);根据哈夫曼树T求哈夫曼编码H/c和p分别指示t中孩子和双亲临时存放编码串指示码在cd中的起始位置最后一位(第num个)放上串结束符/*生成 Huffman 编码并写入文件* void HuffmanEncoding(HuffmanTree T,HuffmanCode H) int c,p,i;char cdn;int start;cdnum = '0'for(i = 1;i< = num;+ + i)/初始位置从叶子结点ti 开始上溯start=num;c=i;while(p=Tc.parent)>0) /直至上溯到tc是树根为止/若tc是 tp的左孩子,则生成0;否则生成底码1cd-start=(Tp.lchild = =c) ? '0' : '1' c=p;strcpy(Hi.bits,&cdstart);Hi.len=num-start;void coding(HuffmanCode HC ,char *str)对str所代表的字符串进行编码并写入文件int i,j; FILE *fp; fp二fopen("codefile.txt”,"w”); while(*str) for(i = 1;i< = num;i+)if(HCi. ch =*str)for(j=0;j< = HCi.len;j+)fputc(HCi.bitsj,fp);break;str+;fclose(fp);/* 电文译码 *代码文件codefile.txt的译码char*decode(HuffmanCode HC)FILE *fp;/假设远文本文件不超过254个字符char str254;char *p;static char cdn+1;int i,j,k=0,cjs;fp=fopen("codefile.txt","r");/只读的方式打开文本文档 codefile.txt while(!feof(fp)/feof(fp)判断文件是否真正结束,feof(fp) = 1时文件结束 cjs=0;for(i=0;i<num && cjs=0 && !feof(fp);i + +)cdi = ' 'cdi + 1 = '0'cdi=fgetc(fp);/数组接受从fp指针所指向文件中读入的一个字符 for(j = 1;j< = num;j + +)if(strcmp(HCj.bits,cd) =0)/haffman 编码和密码译码相比较 strk = HCj.ch; k+;Cjs=1;break;strk = '0'p=str;return p;*输出 HuffmanTree存储结构* void print1(HuffmanTree HT) int x;for(x=1;x<=2*num-1;x+)HTx.parent=0;HTx.lchild=0;HTx.rchild=0;printf("%11d %dt %dt %dn”,HTx.weight,HTx.parent,HTx.lchild,HTx.rchil d);printf("void print2(HuffmanTree HT) int k;for(k