信息论与编码2-信源及信源熵.ppt
1,信息论与编码-信源及信源熵,第二章 信源与信源熵信源的分类离散信源的数学模型离散信源的信息度量,2,信息论与编码-信源及信源熵,从这一章开始,我们从有效且可靠地传输信息的观点出发,对组成信息传输系统的各个部分分别进行讨论.本章首先讨论信源,重点是信源的统计特性和数学模型,以及各类离散信源的信息测度熵及其性质.这部分内容是香农信息论的基础.,3,信息论与编码-信源及信源熵,(一)信源的分类 信源的分类方法依信源特性而定,一般按照信源发出的消息在时间上和幅度上的分布情况,把信源分为:连续信源:发出在时间上和幅度上都是连续分布的连续消息的信源;离散信源:发出在时间上和幅度上都是离散分布的信源.离散信源又可以细分为:,4,信息论与编码-信源及信源熵,(1)离散无记忆信源:所发出的各个符号之间是相互独立的,发出的符号序列中的各个符号之间没有统计关联性,各个符号的出现概率是它自身的先验概率.(2)离散有记忆信源:发出的各个符号之间不是相互独立的,各个符号出现的概率是有关联的.,5,信息论与编码-信源及信源熵,也可以根据信源发出一个消息所用符号的多少,将离散信源分为:发出单个符号的离散信源:信源每次只发出一个符号代表一个消息;发出符号序列的离散信源:信源每次发出一组含二个以上符号的符号序列代表一个消息.将以上两种分类结合,就有四种离散信源:,6,信息论与编码-信源及信源熵,(1)发出单个符号的无记忆离散信源;(2)发出符号序列的无记忆离散信源;(3)发出单个符号的有记忆离散信源;(4)发出符号序列的有记忆离散信源.一类重要的符号序列有记忆离散信源-马尔可夫信源:某一个符号出现的概率只与前面一个或有限个符号有关,而不依赖更前面的那些符号.,7,信息论与编码-信源及信源熵,(二)离散信源的度量2.1 信源的数学模型及其分类 正如绪论中所述,在通信系统中收信者在未收到消息以前,对信源发出什么消息是不确定的,所以可用随机变量或随机矢量来描述信源输出的消息.或者说,用概率空间来描述信源.,8,信息论与编码-信源及信源熵,离散信源的数学模型就是离散型的概率空间:其中概率p(xi)(i=1,2,n)称为符号xi的先验概率,应满足p(xi)=1 它表示信源可能取的消息(符号)只有n个:x1,x2,xn,而且每次必定取其中一个.,9,信息论与编码-信源及信源熵,然而,很多实际信源输出的消息往往是由一系列符号所组成的.例如中文信源的样本空间集合x是所有中文文字及标点符号的集合.由这些单字和标点符号组成的消息即是中文句子和文章.从时间上看,中文信源的输出是时间上离散的一系列符号,而其中每个符号的出现是随机的,由此构成了不同的中文消息.,10,信息论与编码-信源及信源熵,又例如对离散化的平面图像来说,从空间上来看是一系列离散的符号,而空间每一点的符号(灰度)又都是随机的,由此形成了不同的图像.所以我们可以把一般信源输出的消息看作为时间或空间上离散的一系列随机变量,即随机矢量.这样,信源的输出可用N维随机矢量(x1,x2,xN)来描述,其中N可为有限正整数或可数的无限值.,11,在上述随机矢量中,若每个随机变量xi(i=1,2,N)都是离散的,则可用N重离散概率空间来描述这类信源.即若N维随机矢量 X=(x1,x2,xN)中xi X,i=1,2,n则 X=(x1,x2,xN)XN,信息论与编码-信源及信源熵,12,信息论与编码-信源及信源熵,信源的N重概率空间为:这个空间共有qN个元素.在某些简单的情况下,信源先后发出的一个个符号彼此是统计独立的,则N维随机矢量的联合概率分布满足p(X)=p(xi),即N维随机矢量的联合概率分布可用随机矢量中单个随机变量的概率乘积来表示.这种信源就是离散无记忆信源.,13,信息论与编码-信源及信源熵,一般情况下,信源先后发出的符号之间是互相依赖的.例如在中文字母组成的中文消息中,前后文字的出现是有依赖的,不能认为是彼此不相关的,放在N维随机矢量的联合概率分布中,就必然要引入条件概率分布来说明它们之间的关联.这种信源即有记忆信源.表述有记忆信源要比表述无记忆信源困难得多.实际上信源发出的符号往往只与前面几个符号的依赖关系较强,而与更前面的符号依赖关系就弱.为此可以限制随机序列的记忆长度.当记忆长度为m+1时,称这种有记忆信源为m阶马尔可夫信源.也就是信源所发出的符号只与前m个符号有关,与更前面的符号无关.,14,信息论与编码-信源及信源熵,这样就可用马尔可夫链来描述信源.描述符号之间依赖关系的条件概率为 p(xi|xi-1xi-2xi-m)=p(xi|xi-1xi-2,xi-m)如果条件概率与时间起点j无关,即信源输出的消息可看成为时齐马尔可夫链,则此信源称为时齐马尔可夫信源.,15,信息论与编码-信源及信源熵,2.2 离散信源的熵和互信息2.2.1 自信息量 在讨论了信源的数学模型,即信源的数学描述问题后,很自然接着会提出这样一个问题,即信源发出某一符号xi(i=1,2,n)后,它提供多少信息量?这就是要解决信息的度量问题.在通信的一般情况下,收信者所获取的信息量,在数量上等于通信前后不确定性的消除(减少)的量.,16,信息论与编码-信源及信源熵,具体地说,如信源发某一符号ai,由于信道中噪声的随机干扰,收信者收到的一般是ai的某种变型bi收信者收到bi后,从bi中获取关于ai的信息量以I(ai;bi)表示,则有 I(ai;bi)收到bi前,收信者对ai存在的不确定性(先验不定度)收到bi后,收信者对ai仍然存在的不确定性(后验不定度)收信者收到bi前、后,对ai存在的不确定性的消除.,17,信息论与编码-信源及信源熵,为了便于引出一个重要的结果,我们不妨假定信道中没有噪声的随机干扰(即无噪信道).这时,显然有biai本身,收信者确切无误地收到信源发出的消息那么,(收到bi后,对ai仍然存在的不确定性)0同时,(收到bi后,从bi中获取关于ai的信息量I(ai;bi)就变成(收到ai后,从ai中获取关于ai的信息量I(ai),这个I(ai)也就是ai本身所含有的信息量,即能提供的全部信息量,我们称之为ai 的“自信息量”.,18,信息论与编码-信源及信源熵,根据上述的一般原则,就可有:I(ai)收到ai前,收信者对信源发ai的不确定性.这就是说,信源符号ai的自信息量,在数量上等于信源发符号ai的不确定性.ai的自信息量度量问题,就转变为信源发符号ai的不确定性的度量问题.我们知道,不确定性是与可能性相联系的,而可能性又可由概率的大小来表示所以可以断言,自信息量I(ai)一定是信源发符号ai的先验概率p(ai)的某一函数.,19,信息论与编码-信源及信源熵,一个重要的结论:设某单符号离散信源的概率空间为 其中 且,信源X发 符号ai(i1,2,n)能提供的信息量,即ai(i1,2,n)的自信息量(简称自信量)为:,20,信息论与编码-信源及信源熵,I(ai)=logp(ai)=log1/p(ai)(2.1)这就是说,信源X的任一符号ai(i1,2,n)所含有的自信息量I(ai)(i1,2,n)等于符号ai的先验概率p(ai)(i1,2,n)的倒数的对数.只要测定了先验概率p(ai),就可定量地计算符号ai的自信息量,所以,我们称由(2.1)式表示的函数I(ai)为“信息函数”.,21,信息论与编码-信源及信源熵,由(2.1)式表示的自信量I(ai)有两方面的含意:信源X发符号ai以前,收信者对ai存在的先验不确定性;信源X发符号ai后,ai所含有的(或能提供的)全部信息量.我们说,信息函数(2.1)式的导出,解决了信息的度量问题,这是香农信息理论的一大功勋.由(2.1)式可看出,只要测定先验概率p(ai)(香农信息理论假定,p(ai)是先验可知,或事先可测定的),就可计算符号ai的自信息量.所以,有时把(2.1)式度量的信息,称为“概率信息”.,22,信息论与编码-信源及信源熵,(2.1)式的自信息量采用的测度单位,取决于对数的“底”.如果采用以“2”为底的对数,则所得信息虽单位称为“比特”(bitbinary unit的缩写),如果采用以“e”为底的对数,则所得信息量单位称为奈特(natnature unit的缩写),如采用以“10”为底的对数,则所得信息量单位称为哈特(HartHartley的缩写,以纪念哈特莱首先提出用对数来度量信息),以后,一股采用以“2”为底的对数,且为了书写方便起见,把底数“2”略去不写.,23,信息论与编码-信源及信源熵,不确定度与自信息量:随机事件的不确定度在数量上等于它的自信息量,两者的单位相同,但含义却不同.即有某种概率分布的随机事件不管发生与否,都存在不确定度,而自信息量是在该事件发生后给予观察着的信息量.,24,信息论与编码-信源及信源熵,两个消息xi和yj同时出现的联合自信息量:用联合概率p(xi,yj)来表示,联合自信息量为 I(xi,yj)=log p(xi,yj)当xi和yj相互独立时,有p(xi,yj)=p(xi)p(yj)于是有 I(xi,yj)=I(xi)+I(yj),25,信息论与编码-信源及信源熵,条件自信息量:当xi和yj相互联系时,在事件yj 出现的条件下,xi 的自信息量称为条件自信息量,定义为 I(xi|yj)=logp(xi|yj)其中概率p(xi|yj)为在事件yj 出现的条件下,xi 发生的条件概率.,26,信息论与编码-信源及信源熵,2.2.2 离散信源熵 前面定义的自信息是指某一信源发出某一消息所含有的信息量.所发出的消息不同,它们所含有的信息量也就不同.所以自信息I(ai)是一个随机变量,不能用它来作为整个信源的信息测度.我们定义自信息的数学期望为信源的平均信息量,即,27,信息论与编码-信源及信源熵,也称为信源的信息熵.信源的信息熵H是从整个信源的统计特性来考虑的.它是从平均意义上来表征信源的总体特性的.对于某特定的信源,其信息熵只有一个.不同的信源因统计特性不同,其熵也不同.所以信息熵是从平均意义上来表征信源的总体特性的一个量.因此,信息熵有以下三种物理含义:,28,信息论与编码-信源及信源熵,首先,信息熵H(X)是表示信源输出后每个消息(或符号)所提供的平均信息量.其次,信息熵H(X)是表示信源输出前,信源的平均不确定性.第三,用信息熵H(X)来表征变量X的随机性.应该注意的是:信息熵是信源的平均不确定的描述.一般情况下它并不等于平均获得的信息量.只有在无噪情况下,接收者才能正确无误地接收到信源所发出的消息,消除了H(X)大小的平均不确定性,所以获得的平均信息量就等于H(X).后面将会看到:在一般情况下获得的信息量是两熵之差,并不是信息熵本身.,29,信息论与编码-信源及信源熵,条件信源熵:在给定yj的条件下,xi 的条件自信息量为I(xi|yj),随机事件X的条件熵H(X|yj)为 它表示信源Y发符号yj的前提下,信源X每发一个符号提供的平均信息量.,30,而条件熵,信息论与编码-信源及信源熵,31,信息论与编码-信源及信源熵,它表示信源Y每发一个符号的前提下,信源X再发一个符号所能提供的平均信息量.我们称H(X|Y)为X的条件熵.相应地,有 它表示信源X每发一个符号的前提下,信源Y再发一个符号所能提供的平均信息量.我们称H(Y|X)为Y的条件熵.,32,信息论与编码-信源及信源熵,联合熵:定义为联合符号集合XY的每个元素对(xi,yj)的自信息量的概率加权统计平均值,因此X和Y的联合熵为 它表示X和Y同时发生的不确定度.,33,信息论与编码-信源及信源熵,熵的基本性质:我们已经看到,熵是信源概率空间的一种特殊矩函数.这个矩函数的大小,显然与信源的符号数及其概率分布有关.可见,熵是p(x1),p(x2),p(xq)的q元函数,(实际上,因为p(xi)=1,所以独立变量只有q-1个,H是(q-1)元函数),一般可写成 H(P)=H(p1,p2,pq)=pilogpi 我们称H(P)为熵函数.,34,信息论与编码-信源及信源熵,熵函数H(P)具有下列性质:(1)对称性.当变量的顺序任意互换时,熵函数 的值不变.(2)确定性.即H(1,0)=H(1,0,0)=H(1,0,0)=0.这个性质意味着从总体来看,信源虽然有不同的输出符号,但它只有一个符号几乎必然出现,而其它符号都是几乎不可能出现,那么,这个信源是一个确知信源,其熵等于零.,35,信息论与编码-信源及信源熵,(3)非负性.即H(X)0.这种非负性对于离散信源的熵是合适的,但对连续信源来说这一性质并不存在.以后可以看到,在相对熵的概念下,H(X)可能出现负值.(4)可加性.即统计独立信源X和Y的联合信源的熵H(XY)等于熵H(X)和 H(Y)之和.,36,信息论与编码-信源及信源熵,(5)极值性.即 即等概率分布时,熵达到极值.对于具有q个符号的离散信源,只有在q个信源符号等可能出现的情况下,信源熵才能达到最大值.这也表明等概率分布信源的平均不确定性为最大.这是一个很重要的结论,称为最大离散熵定理.,37,信息论与编码-信源及信源熵,(6)强可加性.即 H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(Y)+H(X|Y)它表明,在X和Y相关联的情况下,信源(X,Y)每发一个符号所提供的平均信息量,等于信源X每发一个符号所提供的平均信息量,再加上在X已知的条件下,信源Y再发一个符号所提供的平均信息量.,38,信息论与编码-信源及信源熵,(7)香农辅助定理 对于任意n及概率矢量P=(p1,p2,pn)和Q=(q1,q2,qn),有如下不等式成立 只有当P=Q时,上式取等号.,39,信息论与编码-信源及信源熵,上式体现了熵函数的极值性.它表明,信源X,P的熵函数H(p1,p2,pn),一定不大于另一符号种数相同的信源Y,Q中各种不同符号的自信息量 在X,P中的统计平均值 如果我们把qi理解为p1,p2,pn的算术平均值q,则当p1p2pnq时,上式中等式成立.,40,信息论与编码-信源及信源熵,这说明,任何一种能使概率p1,p2,pn趋于均等的变动,都会使熵增加.,41,信息论与编码-信源及信源熵,互信息 信息流通的根本问题,是定量计算信宿收到信道输出的某一符号后,从中获取关于信源某一符号的信息量(如图2.1).,信 源 X,有扰离散 信 道,信 宿 Y,干扰源,图2.1 简单的通信系统模型,42,信息论与编码-信源及信源熵,根据熵的概念,可以计算得信道输入符号集的熵 H(X)=p(xi)logp(xi)H(X)是在接收到符号Y以前,关于输入符号X的先验不确定性的度量,所以称为先验熵.如果信道中无干扰(噪声),信道输出符号与输入符号一一对应,那么,接收到传送过来的符号后就消除了对发送符号的先验不确定性.,43,信息论与编码-信源及信源熵,但一般信道中有干扰(噪声)存在,接收到符号Y后对发送的是什么符号仍有不确定性.那么,怎样来度量接受到Y后关于X的不确定性呢?当没有接收到输出符号Y时,已知输入符号X的概率分布为p(X);而当接收到输出符号Yyj后,输入符号的概率分布发生了变化,变成后验概率分布P(X|yj).,44,信息论与编码-信源及信源熵,于是接收到输出符号Yyj后,关于X的平均不确定性为 这是接收到输出符号为yj后关于X的后验熵.可见,接收到输出符号yj后,先验熵变成后验熵.所以后验熵是当信道接收端接收到输出符号yj后,关于输入符号的信息测度.,45,信息论与编码-信源及信源熵,后验熵H(X|yj)在输出符号集Y范围内是个随机量,对后验熵在符号集Y中求期望,得条件熵为H(X|Y).这个条件熵称为信道疑义度.它表示在输出端收到全部输出符号Y集后,对于输入端的符号集X尚存在的不确定性(存在疑义).,46,信息论与编码-信源及信源熵,对X集尚存在的不确定性是由于干扰(噪声)引起的.如果是一一对应信道,那么接收到符号集Y后,对X集的不确性完全消除,则信道疑义度H(X|Y)=0.由前一章分析可知,条件熵小于无条件熵,即H(X|Y)H(X).这正说明接收到符号集Y的所有符号后,关于输入符号X的平均不确定性减少了,即总能消除一些关于输入端X的不确定性,从而获得了一些信息.,47,信息论与编码-信源及信源熵,根据上述,我们已知H(X)代表接收到输出符号集Y以前关于输入符号集X的平均不确定性,而H(X|Y)代表接收到输出符号集Y后关于输入符号集X的平均不确定性.可见,通过信道传输消除了一些不确定性,获得了一定的信息.所以定义X和Y之间的平均互信息 I(X;Y)=H(X)H(X|Y)它代表接收到符号集Y后平均每个符号获得的关于X的信息量.,48,信息论与编码-信源及信源熵,平均互信息I(X;Y)就是互信息I(x;y)在两个概率空间X和Y中求平均的结果.互信息I(x;y)是代表收到消息y后获得关于某事件x的信息量.从平均互信息的定义中,可以进一步理解熵只是平均不确定性的描述,而不确定性的消除(熵差)才等于接收端所获得的信息量.因此,信息量不应该与不确定性混为一谈.,49,信息论与编码-信源及信源熵,小结:信源的分类离散信源数学模型离散信源的度量-自信息量、互信息量、熵等习题,