信息论与编码-第5章.ppt
第5章信源编码,编码(Coding)分为信源编码(Source Coding)和信道编码(Channel Coding),其中信源编码又分为无失真信源编码和限失真信源编码一般称无失真信源编码定理为Shannon第一极限定理;信道编码定理(包括离散和连续信道)称为Shannon第 二极限定理;限失真信源编码定理称为Shannon第三极限定理,第5章信源编码,信源编码的主要任务:由于信源符号之间存在分布不均 匀和相关性,使得信源存在冗余度,信源编码的主要任务就是减少冗余,提高编码效率信源编码的基本途径:使序列中的各个符号尽可能地互相独立,即解除相关性;使编码中各个符号出现的概率尽可能地相等,即概率均 匀化,第5章信源编码,信源编码的理论基础是信息论中的两个编码定理:无失真编码定理限失真编码定理 无失真编码只适用于离散信源 对于连续信源,只能在失真受限制的情况下进行限失真编码,第5章信源编码,本章主意讨论离散信源编码首先从无失真编码定理出发,重点讨论以香农(Shannon)码、费诺(Fano)码和霍夫曼(Huffman)码为代表的几种无失真信源码然后介绍限失真编码定理最后简单介绍了一些常用的信源编码方法,5.1 编码的定义,X信源符号(Source Symbol)序列Y码字(Codeword)序列,信源编码是指信源输出的信源符号经信源编码器编码后转换成另外的压缩符号(码字Codeword)无失真信源编码:可精确无失真地复制信源输出的消息,5.1 编码的定义,将信源消息分成若干组,即符号序列 xi,xi(xi1xi2xilxiL),xilA=a1,a2,ai,an每个符号序列xi依照固定码表映射成一个码字yi,yi(yi1yi2yilyiL),yilB=b1,b2,bi,bm这样的码称为分组码(Block Codes),也叫块码只有分组码才有对应的码表,而非分组码中则不存在码表,5.1 编码的定义,如果信源输出符号序列长度L1,信源符号集 A(a1,a2,an)信源概率空间为,若将信源X通过二元信道传输,就必须把信源符号ai变换成由0,1符号组成的码符号序列,这个过程就是信源编码,5.1 编码的定义,码可分为两类:1、固定长度的码,码中所有码字的长度(码元个数)都相同,如表5-1中的码1就是定长码(Fixed Length Codes)2、可变长度码,码中的码字长短不一,如表中码2就是变长码(Variable Length Codes),5.1 编码的定义,码的属性及分类(1)奇异码(Singular Codes)和非奇异码(Nonsingular Codes)若信源符号和码字是一一对应的,则该码为非奇异码,反之为奇异码 表5-2中的码1是奇异码,码2是非奇异码,5.1 编码的定义,(2)唯一可译码(Uniquely Decodable Codes)任意有限长的码元序列,只能被唯一地分割成一个个的码字,便称为唯一可译码(3)唯一可译码中又分为非即时码和即时码(Instantaneous Codes):如果接收端收到一个完整的码字后,不能立即译码,还需等下一个码字开始接收后才能判断是否可以译码,这样的码叫做非即时码,5.1 编码的定义,即时码:只要收到符号就表示该码字已完整,可以立即译码即时码又称为非延长码(Undelayed Codes),任意一个码字都不是其它码字的前缀部分,有时叫做异前缀码(Prefix Codes),5.1 编码的定义,5.1 编码的定义,通常可用码树来表示各码字的构成,终端节点 terminal nodes,5.1 编码的定义,0 1 2,0 1 2 0 1 2 0 1 2,0 1 2,0 1 2,三进制码树,5.1 编码的定义,唯一可译码存在的充分和必要条件是各码字的长度Ki(码元个数)应符合克劳夫特不等式(Kraft Inequality):,其中m为进制数,n为信源符号数,Ki为各码字的长度(码元个数),必要性体现在如果是唯一可译码,则一定满足该不等式,充分性体现在如果满足该不等式,则这种码长的唯一可译码一定存在,但并不表示所有满足Kraft不等式的码一定是唯一可译码,所以说,该不等式是唯一可译码存在的充要条件,5.1 编码的定义,例5.1(p.88)设二进制码中ai(a1,a2,a3,a4),K11,K22,K32,K43,应用Kraft定理判断是否可能是唯一可译码,因此不存在满足这种Ki的唯一可译码。,解:,5.1 编码的定义,1,01,001,000 惟一可译码;1,01,101,010 不是惟一可译码;均满足克劳夫特不等式,克劳夫特不等式只是用来说明唯一可译码是否存在,并不能作为唯一可译码的判据。,5.2 无失真信源编码,信源输出符号序列为 X(X1X2XlXL),其中 Xla1,a2,ai,an编码输出的码序列(码字)为 Y=(Y1Y2 Yk YKL)其中 Ykb1,b2,bj,bm要求能够无失真或无差错地译码,同时传送Y 时所需要的信息率最小 由于Yk平均每个符号的最大信息量为 logm KL长码字的最大信息量为 KLlogm则传送每一个信源符号所需要的信息率平均为,其中,5.2 无失真信源编码,所谓信息率最小,就是找到一种编码方式使 最小。无失真信源编码定理研究的内容:最小信息率为多少时,才能得到无失真的译码?若小于这个信息率是否还能无失真地译码?这就是无失真信源编码定理所要研究的内容定长编码定理变长编码定理,5.2 无失真信源编码,5.2.1 定长编码定理K是定值 且惟一可译码由L个符号组成的、每个符号的熵为HL(X)的无记忆平稳信源符号序列X1X2XlXL,可用KL=K个符号Y1,Y2,Yk,YKL,(每个符号有m种可能值)进行定长编码。对任意 0,0,只要则当L足够大时,必可使译码差错小于;反之,当 时,译码差错一定是有限值,而L足够大时,译码几乎必定出错,5.2 无失真信源编码,定长编码定理含义:,码字所能携带的信息量大于信源序列输出的信息量,则可以使传输几乎无失真,当然条件是L足够大,反之,当 时,不可能构成无失真的编码,也就是不可能做一种编码器,能使收端译码时差错概率趋于零,而当 时,则为临界状态,可能无失真,也可能有失真,5.2 无失真信源编码,编码效率定义编码效率总是小于1,且最佳编码效率为编码定理从理论上阐明了编码效率接近1的理想编码器的存在性,它使输出符号的信息率与信源熵之比接近于1,即信源的平均符号熵为HL(X),采用平均符号码长为 来编码,所得的效率,即 只要L足够大,5.2 无失真信源编码,5.2.2 变长编码定理在变长编码中,码长K是变化的根据信源各个符号的统计特性,如概率大的符号用短码,概率小的用较长的码,使得编码后平均码长降低,从而提高编码效率。(统计匹配),5.2 无失真信源编码,单个符号变长编码定理:若离散无记忆信源的符号熵为H(X),每个信源符号用m进制码元进行变长编码,一定存在一种无失真编码方法,其码字平均长度满足下列不等式,5.2 无失真信源编码,离散平稳无记忆序列变长编码定理:对于平均符号熵为HL(X)的离散平稳无记忆信源,必存在一种无失真编码方法,使平均信息率满足不等式其中为任意小正数由此式可推导出平均码字长度应满足的不等式用变长编码来达到相当高的编码效率,一般所要求的符号长度L可以比定长编码小得多,5.2 无失真信源编码,编码效率总是小于1,可以用它来衡量各种编码方法的优劣为了衡量各种编码方法与最佳码的差距,定义码的剩余度为,其中 为平均信息率,5.2 无失真信源编码,例5.2(p.93)设离散无记忆信源的概率空间为其信源熵为若用二元定长编码(0,1)来构造一个即时码:,平均码长 1 二元码符号/信源符号,5.2 无失真信源编码,编码效率为,输出的信息率为 R0.811 比特/二元码符号长度为2的信源序列进行变长编码(编码方法后面讨论),其即时码如下表,5.2 无失真信源编码,二元码符号/信源序列,二元码符号/信源符号,码字平均长度为,每个符号的平均码长为,编码效率,信息效率 R20.961 比特/二元码符号,5.2 无失真信源编码,L3 R30.985 比特/二元码符号 L4 R40.991 比特/二元码符号,5.2 无失真信源编码,5.2.3 最佳变长编码 凡是能载荷一定的信息量,且码字的平均长度最短,可分离的变长码的码字集合称为最佳变长码为此,将概率大的信源符号编以短码字,将概率小的信源符号编以长码字能获得最佳码的编码方法主要有:香农(Shannon)编码费诺(Fano)编码哈夫曼(Huffman)编码等,5.2 无失真信源编码,香农(Shannon)码(1)将信源消息符号按其出现的概率大小依次排列(2)确定满足下列不等式的整数码长Ki(3)为了编成唯一可译码,计算第i个消息的累加概率(4)将累加概率Pi变换成二进制数(5)取Pi二进数的小数点后Ki位即为该消息符号的二进制码字,5.2 无失真信源编码,例5.3(p.95)设信源共7个符号,其概率和累加概率如下表所示,5.2 无失真信源编码,例如:0.2=.125+.0625+.001+.0001+=.0011 0.57=.5+.0625+.1+.0001+=.1001 0.99=.5+.25+.125+.0625+.03125+.015625+,5.2 无失真信源编码,码元/符号,比特/码元,信源熵平均码长信息效率,比特/符号,5.2 无失真信源编码,费诺(Fano)编码方法(属于概率匹配编码)(1)将信源消息符号按其出现的概率大小依次排列:(2)将依次排列的信源符号按概率值分为两大组,使两个组的概率之和近于相同,并对各组赋予一个二进制码元“0”和“1”;(3)将每一大组的信源符号进一步再分成两组,使划分后的两个组的概率之和近于相同,并又赋予两个组一个二进制符号“0”和“1”。(4)如此重复,直至每个组只剩下一个信源符号为止。(5)信源符号所对应的码字即为费诺码。,5.2 无失真信源编码,例5.4(p.96)对例5.3中的信源进行费诺编码。,5.2 无失真信源编码,码元/符号,bit/符号,平均码长信息效率,5.2 无失真信源编码,哈夫曼(Huffman)码(1)将信源消息符号按其出现的概率大小依次排列,(2)取两个概率最小的字母分别配以0和1两个码元,并将这两个概率相加作为一个新字母的概率,与未分配的二进符号的字母重新排队。(3)对重排后的两个概率最小符号重复步骤(2)的过程。(4)不断继续上述过程,直到最后两个符号配以0和1为止。(5)从最后一级开始,向前返回得到各个信源符号所对应的码元序列,即相应的码字。,5.2 无失真信源编码,例5.5(p.96)对例5.3中的信源进行哈夫曼编码,平均码长,码元/符号,信息效率,bit/符号,5.2 无失真信源编码,可见,Huffman码的平均码长最小,R最大、编码效率最高值得注意:哈夫曼编码方法得到的码并非唯一的每次对信源缩减时,赋予信源最后两个概率最小的符号,用0和1是可以任意的,所以可以得到不同的哈夫曼码,但不会影响码字的长度对信源进行缩减时,两个概率最小的符号合并后的概率与其它信源符号的概率相同时,这两者在缩减信源中进行概率排序,其位置放置次序是可以任意的,故会得到不同的哈夫曼码。此时将影响码字的长度,一般将合并的概率放在上面,这样可获得较小的码方差,5.2 无失真信源编码,例5.6(p.97)设有离散无记忆信源,5.2 无失真信源编码,0.4 0.4 0.4 0.6 1.0 0.2 0.2 0.4 0.40.2 0.2 0.20.1 0.2 0.1,0.4 0.4 0.4 0.6 1.0 0.2 0.2 0.4 0.40.2 0.2 0.20.1 0.20.1,两种方法给出的Huffman码的平均码长是相同的所以编码效率也是相同的,5.2 无失真信源编码,码元/符号,但两种码的质量是不相同的,用码方差描述,第一种方法的码方差为,第二种方法的码方差为,可见,第二种方法的码方差比第一种方法的码方差小许多,也就是说第二种方法的Huffman码的质量要好,5.2 无失真信源编码,进行哈夫曼编码时,为得到码方差最小的码,应使合并的信源符号位于缩减信源序列尽可能高的位置上,以减少再次合并的次数,充分利用短码,哈夫曼码是用概率匹配方法进行信源编码哈夫曼码的编码方法保证了概率大的符号对应于短码,概率小的符号对应于长码,充分利用了短码;缩减信源的最后二个码字总是最后一位不同,从而保证了哈夫曼码是即时码。,前一节讨论的无失真信源编码是属于保熵编码本节将要讨论的限失真信源编码属于熵压缩编码其中心任务是:在允许的失真范围内把编码后的信息率压缩到最小引入有失真的熵压缩编码的原因:(1)保熵编码并非总是必需的;(2)保熵编码并非总是可能的;(3)降低信息率有利于信息的传输和处理,因此有必要进行熵压缩编码,尤其是对于连续信源,熵压缩编码就是必需的了,5.3 限失真信源编码定理,5.3 限失真信源编码定理,信息率失真函数给出了失真小于D时所必须具有的最小信息率R(D)只要信息率大于R(D),一定可以找到一种编码,使译码后的失真小于D限失真信源编码定理:设离散无记忆信源X的信息率失真函数R(D),则当信息率RR(D),只要信源序列长度L足够长,一定存在一种编码方法,其译码失真小于或等于D,为任意小的正数。反之,若RR(D),则无论采用什么样的编码方法,其译码失真必大于D 如果是二元信源,对于任意小的,每一个信源符号的平均码长满足如下公式,5.3 限失真信源编码定理,限失真定理的意义:在失真限度内使信息率任意接近R(D)的编码方法存在。然而,要使信息率小于R(D),平均失真一定会超过失真限度D。对于连续平稳无记忆信源,无法进行无失真编码,在限失真情况下,有与上述定理一样的编码定理。限失真信源编码定理只能说明最佳编码是存在的,而具体构造编码方法却一无所知。因而就不能象无失真编码那样从证明过程中引出概率匹配的编码方法。一般只能从优化的思路去求最佳编码。实际上迄今尚无合适的可实现的编码方法可接近R(D)这个界。,实用化技术不同于单纯理论探讨;实用技术不是只追求理论上的性能(如:压缩比),还要考虑工程上的可实现性为了与复杂的实际信源统计匹配,实际的信源编码方法往往都不是单一的方法,而是多种方法的组合应用本节简单介绍几种常用的信源编码方法,5.4 常用信源编码方法简介,5.4 常用信源编码方法简介,5.4.1 游程编码 在二元序列中,连0段称为0游程 连1段称为1游程二元码序列:可变换成下列游程序列:31132131 若已知二元序列以0起始,从游程序列很容易恢复成原来的二元序列 游程序列是多元序列,各长度可按霍夫曼编码或其它方法处理以达到压缩码率的目的,5.4 常用信源编码方法简介,多元序列也存在相应的游程序列,但与二元序列变换所得到的游程序列不同,每个 r 游程的前后均可以是 r 以外的任何符号的游程序列,因此需要插入一个标志来说明后面游程的类别 多元序列变换成游程序列再进行压缩编码没有多大意义 游程编码只适用于二元序列,对于多元信源,一般不直接利用游程编码,5.4 常用信源编码方法简介,冗余位编码,游程编码在多元信源的应用有许多信源序列中,常存在不少的符号不携带信息,因此处理这些符号的数目和时长外,可以不传如电话通信和视频通信这些符号称为冗余位,若能删除,可提高压缩比如下多元序列 x1,x2,xm1,y,y,y,xm1+1,xm1+2,xm2,y,y,其中x是信息代码,称为信息位,y是冗余位可以用下面序列表示 111,100,000111,111000 x1,x2,xm1,x m1+1,x m1+2x 2,1表示信息位,0表示冗余位,5.4 常用信源编码方法简介,后一个序列是去除了冗余位的信息位序列此变换是一一对应的,可逆此变换将一个含有(大量)冗余位的多元序列变换成了一个二元序列和一个缩短了的多元序列这样,这两个序列就可能用不同的方法来编码,以获得更高的压缩码率比如二元码序列再采用游程编码然后根据信源概率分布在利益Huffman编码,5.4 常用信源编码方法简介,5.4.2 算术编码 非分组码的编码方法之一算术码分组码的缺点:不考虑信源符号间的相关性,使得信源编码的匹配原则不能充分满足算术编码的基本思路:从全序列出发,考虑符号之间的依赖关系,将各信源序列的概率映射到0,1 区间上,使每个序列对应这个区间内的一点,也就是一个二进制的小数。这些点把0,1区间分成许多小段,每段的长度等于某一序列的概率。再在段内取一个二进制小数,其长度可与该序列的概率匹配,达到高效率编码的目的算术编码方法与Shannon编码有点类似,只是算术码中的信源序列长度要长的多,5.4 常用信源编码方法简介,信源符号集为A=a1,a2,an,概率分布为P(A)=p1,p2,pn信源符号序列 xi(xi1xi2xilxiL),共有nL种可能序列定义各符号的累积概率(累积分布函数):显然,P1=0,P2=p1,P3=p1+p2=P2+p2,Pr+1=Pr+pr,即 pr=Pr+1-Pr由于Pr+1和Pr都为小于1的正数,可分别对应0,1区间内的两个点,所以pr 就是Pr+1和Pr这两点间的长度,5.4 常用信源编码方法简介,不同的符号有不同的小区间,而且彼此互不重叠,因此可以把小区间的任意一点的二进制小数作为该符号的代码(码字)若信源已经发出一个序列S,即信源输出为S状态,后面接着发一个符号r,则符号概率与积累概率的递推关系采用累积概率P(S)表示码字C(S),符号概率p(S)表示状态区间A(S),5.4 常用信源编码方法简介,P(S)把区间0,1)分割成许多小区间,每个小区间的长度等于各序列的概率p(S),小区间内的任一点可用来代表这序列,代表大于或等于x的最小整数。把积累概率P(S)写成二进位的小数,取其前L位;如果有尾数,就进位到第L位,这样得到一个数C,令,5.4 常用信源编码方法简介,例如:P(S)0.10110001,p(S)=1/17,则L5,得C0.10111这个C就可作为S的码字 编码效率很高,当序列很长时,可达到概率匹配。平均代码长度接近S的熵值。可以唯一地译码,5.4 常用信源编码方法简介,例5.7(p.105)有四个符号a,b,c,d构成简单序列Sabda,各符号及其对应概率如下表,算术编解码过程如下:,5.4 常用信源编码方法简介,设起始状态为空序列,则 A()1,C()0递推得,5.4 常用信源编码方法简介,C(abda)即为编码后的码字010111,5.4 常用信源编码方法简介,算术编码过程还可用单位区间的划分来描述,5.4 常用信源编码方法简介,译码:可通过对编码后的数值大小进行比较,即判断C(S)落在哪个区间就可以得出一个相应的符号序列C(abda)=0.0101110.10,0.1,第一个符号为a放大至0,1(pa-1):C(abda)210.101110.1,0.110 第二个符号为b 去掉累积概率Pb:0.10111-0.1=0.00111放大至0,1(pb-1):0.0011122=0.111 0.111,1 第三个符号为d 去掉累积概率Pd:0.111-0.111=0放大至0,1(pd-1):0240 0,0.1 第四个符号为a,5.4 常用信源编码方法简介,算术编码从性能上看具有许多优点,特别是由于所需的参数很少,不象哈夫曼编码那样需要一个很大的码表,常设计成自适应算术编码来针对一些信源概率未知或非平稳情况。但是在实际实现时还有一些问题,如计算复杂性、计算的精度以及存储量等,随着这些问题的逐渐解决,算术编码正在进入实用阶段,但要扩大应用范围或进一步提高性能,降低造价,还需进一步改进。,5.4.3 矢量量化编码5.4.4 预测编码5.4.5 变换编码(略),5.4 常用信源编码方法简介,第5章 复习,信源编码的主要任务:由于信源符号之间存在分布不均 匀和相关性,使得信源存在冗余度,信源编码的主要任务就是减少冗余,提高编码效率,唯一可译码存在的充分和必要条件是各码字的长度Ki(码元个数)应符合克劳夫特不等式,第5章 复习,编码效率无失真信源编码定理(Shannon第一编码定理)定长编码定理变长编码定理三种无失真信源编码:Shannon编码,Fano编码,Huffman 编码限失真编码定理(Shannon第三编码定理)几种常见信源编码方法:游程编码,冗余编码,算术编码,习题 5-1(p.115)习题 5-10(p.116)中(1),(2)习题 5-11(p.116)中(1),(2),(3),第5章 习题,