信息论与编码第5信息率失真函数与限失真编码.ppt
《信息论与编码第5信息率失真函数与限失真编码.ppt》由会员分享,可在线阅读,更多相关《信息论与编码第5信息率失真函数与限失真编码.ppt(98页珍藏版)》请在三一办公上搜索。
1、,1,第5章信息率失真函数 与限失真编码,信道编码定理虽然告诉我们,有噪声信道的无失真的编码似乎是可能的,但是,这里的无失真只能无限逼近于0,而无法达到0,除非编码分组的长度是无穷大,因此从这个角度,有噪声信道无失真的要求也是不可能的。然而在实际生活中,人们一般并不要求完全无失真恢复信息,通常要求在保证一定质量(一定保证度)的条件下再现原来的消息,也就是说允许失真的存在。,学习得来终觉浅,绝知此事要自悟,2,第5章信息率失真函数 与限失真编码,不同的要求允许不同大小的失真存在,完全无失真的通信既不可能也无必要,有必要进行将失真控制在一定限度内的压缩编码,我们称为限失真编码。信息率失真理论是进行
2、量化、数模转换、频带压缩和数据压缩的理论基础。本章主要介绍信息率失真理论的基本内容及相关的编码方法。,第5章信息率失真函数 与限失真编码,如何进行这种限失真编码呢?考虑我们前面提出的问题,如果要将有10万位小数的1-100之间的数字进行压缩,我们可以采取四舍五入的方法,将这个数转换为只有10位小数的数值,由于小数点10位之后的数值都是微不足道的,所以这种压缩带来的失真并不大。我们可以理解为将一个集合中的元素映射为另外一个集合中的压缩,或者是映射为原集合中的一部分的元素。,5.1 失真测度,5.1.1 系统模型5.1.2失真度与平均失真度,5.1.1系统模型,通过前面的例子和讨论,我们可以建立研
3、究限失真信源编码(有损压缩)的系统模型:信源发出的消息X通过有失真的信源编码输出为Y,由于是有失真的编码,所以X和Y的元素不存在一一对应的关系,我们可以假设X通过一个信道输出Y,这种假想的信道我们称为试验信道。这样,我们就可以通过研究信道的互信息来研究限失真编码,而X和Y的关系也可以用转移概率矩阵(信道矩阵)来表示。,5.1.1系统模型,图5-1 限失真编码模型,除了描述输入输出的关系外,我们还关心如何才能限制失真的问题,因为这一切都是建立在限失真的要求之上的,既然要限制失真,就需要有关于失真的度量。,5.1.2 失真度与平均失真度,如何来度量失真呢?我们先从最为简单的单个符号的信源的失真度量
4、(distortion measure)开始,然后以此为基础来建立更多符号的失真度量。1.单个符号失真度 设有离散无记忆信源,信源符号通过信道传送到接收端Y,,信道的转移概率矩阵,对于每一对(xi,yj),指定一个非负的函数d(xi,yj)为单个符号的失真度或失真函数(distortion-function)。用它来表示信源发出一个符号xi,而在接收端再现yj所引起的误差或失真。失真函数是根据人们的实际需要和失真引起的损失、风险、主观感觉上的差别大小等因素人为规定的。有时候未必能够证明为什么采用这个函数是合理的,其他的函数没有它好。我们假设发出一个符号,如果收到也是它,则失真为0,如果收到的不
5、是它,而是其他的符号,则存在失真,失真函数大于0,即有:,失真度还可表示成矩阵的形式:,D称为失真矩阵。它是nm阶矩阵。,(5-1),9,均方失真:,相对失真:,误码失真:,绝对失真:,前三种失真函数适用于连续信源,后一种适用于离散信源。,最常用的失真函数,5.2 信息率失真函数及其性质,前面我们通过简单的分析指出,要进行最大限度的压缩,根据香农第一定理,压缩的极限为H(Y)=I(X;Y)。但是,我们必须考虑信息压缩造成的失真是在一定的限度内的,因此,这个平均互信息量应该在我们允许的失真范围内尽量小。从直观感觉可知,若允许失真越大,信息传输率可越小;若允许失真越小,信息传输率需越大。所以信息传
6、输率与信源编码所引起的失真(或误差)是有关的,对信息进行压缩的效果与失真也是相关的。,5.2 信息率失真函数及其性质,5.2.1 信息率失真函数的定义5.2.2 信息率失真函数的性质,12,信息率失真函数的定义,为了讨论在允许一定失真D的情况下,信源可以压缩的极限应该是一个与失真相关的函数,我们可以定义信息率失真函数(information rate distortion function)为这一极限,简称率失真函数,记为R(D)。,信息率失真函数的定义,在信源的概率分布(P(X)给定)和失真度D给定以后,PD是满足保真度准则的试验信道集合,即我们把X和Y当做信道的输入输出的话,这个信道集合中
7、的信道的决定性的参数就是信道传递(转移)概率p(yj|xi)。,信息率失真函数的定义,在信源和失真度给定以后,信道的输入和输出的平均互信息I(X;Y)是信道传递概率p(yj|xi)的下凸函数,所以在这些满足保真度准则的PD集合中一定可以找到某个试验信道,使I(X;Y)达到最小,而这个最小值可以从直观上理解为,并且可以被证明为在保真度准则下的信源压缩极限,即信息率失真函数R(D),所以,(5-12),信息率失真函数的定义,或者可以直接地表述为:,其中,R(D)的单位是奈特/信源符号或比特/信源符号。关于上面定义的式子为限失真编码的压缩极限的证明,可以利用渐进等分性来证明,本章后面部分会给出证明。
8、信息率失真函数这一命名也体现了信息的压缩极限是与允许的失真D相对应的一个函数,所以下面我们将会讨论这个函数的性质。如果说试验信道的说法可能会难于理解的话,我们可以将试验信道理解为限失真信源编码器的输入X和输出Y之间的一种概率上的映射关系,或者直接理解为概率p(yj|xi)。,信息率失真函数的定义,在离散无记忆平稳信源的情况下,可证得序列信源的信息率失真函数:(5-13)从数学上来看,平均互信息是输入信源的概率分布的型上凸函数,而平均互信息是信道传递概率p(yj|xi)的U型下凸函数。因此,可以认为信道容量C和信息率失真函数具有对偶性。,信息率失真函数的定义,研究信道容量C是为了解决在已知信道中
9、传送最大的信息量。为了充分利用已给信道,使传输的信息量最大而错误概率任意小,就是一般信道编码问题。研究信息率失真函数是为了解决在已知信源和允许失真度D的条件下,使信源必须传送给用户的信息量最小。这个问题就是在可以接受的失真度D的条件下,尽可能用最少的码符号来传送信源消息,是信源的信息尽快地传送出去来提高通信的有效性。这是信源编码问题。,它们之间的对应关系下表5-1所示:表5-1 信道容量C和R(D)的比较,信息率失真函数的性质,下面我们来讨论函数R(D)的性质,作为一个函数,其函数值处决于自变量,所以我们首先讨论关于它的自变量的取值范围,即定义域。1.信息率失真函数的定义域R(D)的自变量是允
10、许平均失真度D,它是人们规定的平均失真度的上限值。这个值是否可以任意选取呢?其实不然。因为平均失真度的值是受制约的,而且失真度与平均失真度均为非负值,显然满足下式:,(5-14),(5-15),以上最小值的计算方法都是直接求各个失真度的最小值,然后按照概率加权平均,是否正确,为什么?,1)最小值对于离散信源,在一般的情况下可以采用我们前面的定义,当X和Y一一对应的时候,此时平均失真度为0,而平均失真度显然不可能小于0,所以Dmin为0,此时,R(Dmin)=R(0)=H(X)。对于连续信源,Dmin趋向于0时,R(Dmin)=R(0)=Hc(X)=。连续信源无失真的时候,传输的信息量是无穷大,
11、实际信道容量总是有限的,无失真传送这种连续信息是不可能的。只有当允许失真(R(D)为有限值),传送才是可能的。,2)最大值信源最大平均失真度Dmax:必须的信息率越小,容忍的失真就越大。当R(D)等于0时,对应的平均失真最大,也就是函数R(D)定义域的上界值Dmax最大。由于信息率失真函数是平均互信息的极小值,平均互信息量大于等于0,当R(D)=0时,即平均互信息的极小值等于0。满足信息率为0的D值可能存在多个,但是鉴于我们总是希望失真度最小,存在多种选择的时候,总是选择最小值,所以这里定义当R(D)=0时,D的最小值为R(D)定义域的上限,即Dmax是使R(D)=0的最小平均失真度。,R(D
12、)=0时,X和Y相互独立,所以,,满足X和Y相互独立的试验信道有许多,相应地可求出许多平均失真值,这类平均失真值的下界就是Dmax。,(5-16),令,则,(5-17),上式是用不同的概率分布p(yj)对Dj求数学期望,取数学期望当中最小的一个,作为Dmax。实际上是用p(yj)对Dj进行线性分配,使线性分配的结果最小。当p(xi)和失真矩阵已给定时,必可计算出Dj。Dj随j的变化而变化。p(yj)是任选的,只需满足非负性和归一性。若Ds是所有Dj当中最小的一个,我们可取p(ys)=1,其他p(yj)为零,此时Dj的线性分配值(或数学期望)必然最小,即有,(5-18),通俗地说,当我们要进行最
13、大限度的压缩的时候,极端的情况就是将输出端符号压缩为一个,我们可以将任意信源符号xi都转换为一个相同的符号ys,由于对方接受到的符号是确定的,所以,可以无需传递任何信息,或者说传递的信息量为0。对于不同的ys,会带来不同的失真度,我们当然会选择失真度最小的一个。,实际上,不是有意去进行理性的选择,平均失真度的值是可以超过这一值的。由于R(D)是非负函数,因为R(D)是用从中选出的求得的最小平均互信息,所以当D增大时,的范围增大,所求的最小值不大于范围扩大前的最小值,因此R(D)为D的非增函数。当D增大时,R(D)可能减小,直到减小到R(D)=0,此时对应着。如果当DDmax时,仍然为零。,我们
14、有下面的结论:,当且仅当失真矩阵的每一行至少有一个零元素时,一般情况下的失真矩阵均满足此条件;可适当修改失真函数使得;和 仅与 和 有关。,例5-1 设试验信道输入符号集,各符号对应概率分别为1/3,1/3,1/3,失真矩阵如下所示,求和以及相应的试验信道的转移概率矩阵。,解:,令对应最小失真度 的,其它为“0”,可得对应 的试验信道转移概率矩阵为,上式中第二项最小,所以令,可得对应 的试验信道转移概率矩阵为,5.3 离散无记忆信源的信息率失真函数,5.3.1*离散无记忆信源的信息率失真函数5.3.2*连续无记忆信源的信息率失真函数,5.3.1*离散无记忆信源的信息率失真函数,已知信源的概率分
15、布P(X)和失真函数d(x,y),就可求得信源的R(D)函数;原则上它与信道容量一样,即在有约束条件下求极小值的问题。也就是适当选取试验信道P(y|x)使平均互信息最小化:,(5-20),其约束条件除了保真度准则外,还包括转移概率必然满足的一些基本条件,比如非负性、归一化条件:,求解这类极值有好几种方法:如变分法、拉氏乘子(拉格朗日乘子,Lagrange multiplier)法、凸规划方法等等。应用上述的方法,严格地说可以求出解来,但是,如果要求得到明显的解析表达式,则比较困难,通常只能用参量形式来表达。这种非显式的表达式依然不能直接求解信息率失真函数,必须采用收敛的迭代算法求解信息率失真函
16、数。如果信源和失真矩阵存在某种对称性,则可以大大简化信息率失真函数的计算。这里我们先讨论一些简单情形下的信息率失真函数的计算。以上求解的思路是否可以解决所有的问题?得到的解就是进行限失真编码时,某一失真度限制下的最合理的解吗?,对于等概、对称失真信源,存在一个与失真矩阵具有相同对称性的转移概率矩阵分布达到信息率失真函数值。对于n元等概率信源,各个信源符号的概率均为1/n,当失真函数对称时,即,定理5-1 设信源的概率分布为P=p(a1),p(a2),p(ar),失真矩阵为d(ai,bj)rs。为1,2,r上的一个置换,使得p(ai)=p(ai),i=1,2,r,为1,2,s上的一个置换,使得d
17、(ai,bj)=d(ai),(bj),i=1,2,r,j=1,2,s,则存在一个达到信息率失真函数的信道转移概率分布Q=q(bj|ai)具有与d(ai,bj)rs相同的对称性,即q(bj|ai)=q(bj)|(ai)。该定理证明略。,利用这种性质我们可以减少信道转移概率矩阵的未知参数,便于求解。当然,以上定理依然显得复杂,为了保证信源概率分布重排后一定能够与原排列一一对应相等,我们可以直接要求信源等概率分布。此时如果失真矩阵对称,则满足上述定理的条件。我们还可以发现,汉明失真具有对称性,当信源等概率分布,且失真矩阵为汉明失真矩阵时,即:,显然满足上述的条件,可以利用以上定理来简化问题。,例5-
18、5 有一个二元等概率平稳无记忆信源U=0,1,接收符号集V=0,1,3,失真矩阵为 试求其信息率失真函数R(D)。,解:求定义域,由于信源等概率分布,失真矩阵具有对称性,因此存在着与失真矩阵具有同样的对称性的转移概率分布达到信息率失真函数。由,为了运算方便,取,上式中,由于信源等概率,所以(允许失真)给定。,则 一一对应,要失真为有限值,两个无穷对应的概率必然为0,转移概率矩阵与失真矩阵的对应关系为0对应A,1对应B,考虑归一性,B=1-A,对应0,所以根据对应关系,可得,代入上述公式,有,再将它代入转移概率公式中:,由:接受端的概率分布,得:三个概率则:,平均失真度D一定的时候,,图5-4
19、信息率失真函数曲线,5.3.2*连续无记忆信源的信息率失真函数,补充知识:设为实数的有界集合。若:(1)每一个满足不等式;(2)对于任何的,存在有,使,则数称为集合X的下确界。通俗地理解:如果有最小值m,则其最小值就是其下确界,如果其集合中较小的值大于m,且无限地趋向于m,则m也是其下确界。与此类似,有上确界的概念。,连续信源信息量为无限大(取值无限),如果要进行无失真信源编码,编码长度为无穷大,所以连续信源无法进行无失真编码,而必然采用限失真编码。连续信源的信息率失真函数的定义与离散信源的信息率失真函数相类似,但是需要对应地将只需将概率 换为概率密度,由于连续性,需要将求和换为积分(本质上是
20、一种求和形式),而失真的表示也表示为连续形式的,离散信源下的最小值替换为下确界。假设连续信源为X,试验信道的输出为连续随机变量Y,连续信源的平均失真度定义为:,(5-21),通过试验信道获得的平均互信息为:,同样,确定一允许失真度D,凡满足平均失真小于D的所有试验信道的集合记为PD,则连续信源的信息率失真函数定义为:,(5-22),严格地说,连续信源的情况下,可能不存在极小值,但是下确界是存在的,如我们上面讨论的无限趋向于下确界。连续信源的信息率失真函数依然满足前面的信息率失真函数的性质(针对于离散信源讨论的)。对于N维连续随机序列的平均失真度和信息率失真函数也可以类似进行定义。连续信源的信息
21、率失真函数的计算依然是求极值的问题,同样可以采用拉格朗日乘子法进行,较为复杂。这里讨论较为简单的高斯信源的情形,对高斯信源,在一般失真函数下,其率失真函数是很难求得的,但在平方误差失真度量下,其率失真函数有简单的封闭表达式。对平方误差失真,试验信道输入符号和输出符号之间失真为:,对应的平均失真度为:,在平方误差失真下,设允许失真为D,则高斯信源 的率失真函数为:,(5-23),其曲线如下图5-6所示。,图5-6 高斯信源在均方误差准则下的R(D)函数,实际上,我们还可以证明在平均功率 受限条件下,正态分布R(D)函数值最大,它是其他一切分布的上限值,也是信源压缩比中最小的,所以人们往往将它作为
22、连续信源压缩比中最保守的估计值。具体见下面的定理。,定理5-2:对任一连续非正态信源,若已知其方差为,熵为,并规定失真函数为,则其R(D)满足下列不等式:,(正态是上限)(5-24),5.4 保真度准则下的信源编码定理,5.4.1*失真典型序列5.4.2*保真度准则下信源编码定理的证明5.4.3*保真度准则下信源编码逆定理证明,5.4 保真度准则下的信源编码定理,信息率失真函数R(D)是满足保真度准则(D)时所必须具有的最小信息率,在进行信源压缩之类的处理时,R(D)就成为一个界限,不能让实际的信息率低于R(D)。把相关的结论用定理的形式给出,即限失真信源编码定理,又称为保真度准则下的信源编码
23、定理,也就是通常所说的香农第三编码定理。本节中,我们将阐述相关定理,并且从数学上严格证明。为了简化问题,这里我们的讨论限于离散无记忆平稳信源,但是所述的定理可以推广到连续信源,有记忆信源等一般情况。定理的通俗形式如下:,定理5-3:设离散无记忆平稳信源的信息率失真函数为R(D),只要满足RR(D),并且失真度是有限的,当信源系列长度L足够长时,一定存在一种编码方法,其译码失真小于或等于D+,其中是任意小的正数;反过来,若RR(D),则无论采用什么样的编码方法,其译码失真必大于D。,该定理包含两部分:RR(D)的情形称为正定理,RR(D)时,译码失真小于或等于D+的码肯定存在,但定理本身并未告知
24、码的具体构造方法。一般来说,要找到满足条件的码,只能用优化的思路去寻求,迄今为止,尚无合适的系统编码方法来接近香农给出的界R(D)。反定理告诉我们,RR(D)时,译码失真必大于D,肯定找不到满足条件的码,因此用不着浪费时间和精力。,总结起来,香农信息论的三个基本概念信源熵、信道容量和信息率失真函数,都是临界值,是从理论上衡量通信能否满足要求的重要极限。对应这三个基本概念的是香农的三个基本编码定理无失真信源编码定理、信道编码定理和限失真信源编码定理,分别又称为香农第一、第二和第三编码定理,或第一、第二、第三极限定理。这是三个理想编码的存在性定理,它们并不能直接得出相应的编码方法,但是对编码具有指
25、导意义。,为便于后续的证明,将正定理和逆定理分别转换为严格的数学形式:定理5-4 保真度准则下(限失真)信源编码正定理:设R(D)为一离散无记忆信源的信息率失真函数,并且有有限的失真测度。对于任意的 以及任意足够长的码长n,则一定存在一种信源编码C,其码字个数为:,(5-25),而编码后的平均失真度,其中R(D)以h为底,h为编码的进制数。如果用二元编码,且R(D)计算以二为底,即以bit为单位,则:。,它告诉我们,对于任何失真度,只要码长n足够长,总可以找到一种编码C,使编码后的每个信源符号的信息传输率,即。而码的平均失真度。定理说明在允许失真D的条件下,信源最小的、可达到的信息传输率是信源
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 编码 信息率 失真 函数
链接地址:https://www.31ppt.com/p-5230765.html