信息论与编码理论基础王育民(第二章).ppt
《信息论与编码理论基础王育民(第二章).ppt》由会员分享,可在线阅读,更多相关《信息论与编码理论基础王育民(第二章).ppt(100页珍藏版)》请在三一办公上搜索。
1、2023/6/16,1,第二章:信息量和熵,2.1 离散型随机变量的非平均信息量(事件的信息量)2.2 离散型随机变量的平均自信息量(熵)2.4 离散型随机变量的平均互信息量2.5 连续型随机变量的平均互信息量和微分熵2.6 凸函数与(离散型随机变量的)平均互信息量凸性,2023/6/16,2,2.1 离散型随机变量的非平均信息量(事件的信息量),2023/6/16,3,非平均互信息量,例,2023/6/16,4,非平均互信息量,2023/6/16,5,直观认识,对观察者来说,同样观察事件011,但输入消息等概情况下“收获”要大些,即得到的“信息”要多些。越是不太可能发生的事件竟然发生了,越是
2、令人震惊。获得的“信息”要多些。,2023/6/16,6,非平均互信息量,例,2023/6/16,7,直观认识,在接收010的过程中,消息出现的可能性,即后验概率也在不断变化,但变化趋势不再像例2.1.1 那样单调地变化,而是有起伏的,且最后并未达到1或0.观察到010之后不能断定是哪个消息出现了。但是由观察结果计算出来的某个消息出现的后验概率大于1/2或小于1/2,使我们可比未观察前较有把握地推断消息出现的可能性,因而多少得到了一些有关出现的“信息”。若p1/2,也即010是消息x1的输出可能性大。,2023/6/16,8,直观认识,从上述两个系统可以看出,在一个系统中我们所关心的输入是哪个
3、消息的问题,只与事件出现的先验概率和经过观察后事件出现的后验概率有关。信息应当是先验概率和后验概率的函数,即 I(xk;yj)=f Q(xk),P(xk|yj),2023/6/16,9,研究表明信息量就表示成为事件的后验概率与事件的先验概率之比的对数函数!,2023/6/16,10,非平均互信息量,(本章将给出各种信息量的定义和它们的性质。)定义(非平均互信息量)给定一个二维离散型随机变量因此就给定了两个离散型随机变量事件xkX与事件yjY的互信息量定义为,2023/6/16,11,非平均互信息量直观认识,若信源发某符号xi,由于信道中噪声的随机干扰,收信者收到的是xi的某种变形yj,收信者收
4、到yj后,从yj中获取xi的信息量用I(xi;yj)表示,则有I(xi;yj)=收到yj 前,收信者对信源发xi 的不确定性-收到yj 后,收信者对信源发xi仍然存在 的 不确定性=收信者收到yj 前后,收信者对信源发xi 的 不确定性的消除,2023/6/16,12,非平均互信息量性质,其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。互信息量的性质:(1)I(xk;yj)=loga(rkj/(qkwj)。因此有对称性:I(xk;yj)=I(yj;xk)。(2)当rkj=qkwj时,I(xk;yj)=0。即当(rkj/qk)=wj时,I(xk;yj)=0。又即
5、当(rkj/wj)=qk时,I(xk;yj)=0。换句话说,当“X=xk”与“Y=yj”这两个事件相互独立时,互信息量为0)。,2023/6/16,13,非平均互信息量性质,(3)当rkjqkwj时 I(xk;yj)0,当rkj wj时,I(xk;yj)0;当(rkj/qk)wj时,I(xk;yj)0。换句话说,当“X=xk”与“Y=yj”这两个事件相互肯定时,互信息量为正值;当“X=xk”与“Y=yj”这两个事件相互否定时,互信息量为负值。,2023/6/16,14,条件互信息和联合事件互信息,三个事件集的条件互信息定义(定义)为可以推广到任意有限多个空间情况,2023/6/16,15,互信
6、息的可加性,系统,u1,u2,u3,意味着:(u2,u3)联合给出的关于u1的信息量等于u2给出的关于u1的信息量与u2已知条件下u3给出的关于u1的信息量之和。,2023/6/16,16,非平均自信息量,定义(非平均自信息量)给定一个离散型随机变量X,xk,qk,k=1K。事件xkX的自信息量定义为I(xk)=loga(1/qk),其中底数a是大于1的常数。,2023/6/16,17,自信息量的性质:(1)非负性.I(xk)0(2)单调性.qk越小,I(xk)越大(3)I(xk;yj)minI(xk),I(yj)即互信息量不超过各自的自信息量。证明 注意到总有rkjminqk,j。(why?
7、什么情况下相等?)因此根据定义,I(xk;yj)I(xk),I(xk;yj)I(yj)。,非平均自信息量,2023/6/16,18,非平均自信息量的直观认识,若信源发某符号xi,没有信道中噪声的随机干扰,收信者收到的yj就是xi本身。收信者收到yj=xi后,当然就完全消除了对信源发符号xi的不确定性,即 收到yj=xi 后,收信者对信源发xi仍然存在的不确定性=0I(xi;xi)=收到xi前,收信者对信源发xi 的不确定性=I(xi),2023/6/16,19,2023/6/16,20,2023/6/16,21,2023/6/16,22,条件的非平均自信息量,定义(条件的非平均自信息量)给定一
8、个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J在事件yj发生的条件下事件xk的条件自信息量定义为 I(xk|yj)=loga(1/P(X=xk|Y=yj)=loga(wj/rkj),条件的非平均自信息量,条件的非平均自信息量实际上是非平均自信息量的简单推广,只不过将概率换成了条件概率。条件的非平均自信息量的特殊性质:I(xk|yj)=I(xk)-I(xk;yj),2023/6/16,23,2023/6/16,24,联合的非平均自信息量,定义(联合的非平均自信息量)给定一个二维离散型随机变量(X,Y),(xk,yj),rkj,k=1K;j=1J事件(xk,yj)(X,
9、Y)的自信息量定义为I(xk,yj)=loga(1/rkj),联合的非平均自信息量,联合的非平均自信息量实际上是非平均自信息量的简单推广。即可以将(X,Y)直接看成是一维的随机变量。联合的非平均自信息量的特殊性质:I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。,2023/6/16,25,2023/6/16,26,非平均信息量(事件的信息量),小结非平均互信息量I(xk;yj)非平均自信息量I(xk),I(yj)条件的非平均自信息量I(xk|yj),I(yj|xk)联合的非平均自信息量I(xk,yj),非平
10、均信息量(事件的信息量),相互关系:I(xk;yj)min I(xk),I(yj)I(xk;yj)=I(xk)-I(xk|yj)I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)I(xk,yj)=I(xk)+I(yj)-I(xk;yj),2023/6/16,27,2023/6/16,28,联合自信息、条件自信息和互信息,2023/6/16,29,2.2 离散型随机变量的平均自信息量熵,2023/6/16,30,自信息量的不足,信息函数 I(xk)破天荒地使信息度量成为可能,是信息度量的有力工具,但在信息度量方面仍然存在某些不足.,自信息量的不足,信源发符号xk不是确定
11、事件,是以p(xk)为概率的随机事件,相应的自信息量I(xk)也是一个以p(xk)为概率的随机性的量,显然,用一个随机性的量来度量信息是不方便的.信息函数I(xk)只能表示信源发某一特定的具体符号xk所提供的信息量.不同的符号由不同的自信息量.所以它不足以作为整个信源的总体信息测度.据此,在信息函数I(xk)的基础上,构架一个确定的量,作为信源的总体信息测度,就成为我们面临的一个重要课题.,2023/6/16,31,2023/6/16,32,统计平均值,能作为信源总体信息测度的确定的量,应是信源X可能发出的各种不同符号xk(k=1,2,K)含有的自信息量I(xk)(k=1,2,K),在信源的概
12、率空间 p(x1),p(x2),p(xK)中的统计平均值H(X).,2023/6/16,33,平均自信息量熵,定义(平均自信息量熵)离散型随机变量X,xk,qk,k=1K的平均自信息量(又称为熵)定义为 其中底数a是大于1的常数。,平均自信息量(信息)熵,集X的平均自信息量表示集X中事件出现的平均不确定性,即为了确定集X中出现一个事件平均所需的信息量(观测之前),或集X中每出现一事件平均给出的信息量(观测之后)。,2023/6/16,34,信息熵与热熵,信息熵和统计热力学中定义的热熵在形式上完全相同。在热力学中,X表示系统所有可能的状态,p(x)表示某一个特定状态x出现的概率。热熵H(X)描述
13、了系统的“无规则”的程度,即在某一给定时刻一个系统可能出现的有关状态的“不确定”的程度。,2023/6/16,35,2023/6/16,36,例子,2023/6/16,37,2023/6/16,38,2023/6/16,39,平均自信息量熵,注意:(1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk)通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为,2023/6/16,40,平均自信息量熵,例 离散型随机变量X有两个事件x1和x2,
14、P(X=x1)=p,P(X=x2)=1-p则X 的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p)观察H(X),它是p的函数,图给出了函数图象.,2023/6/16,41,图2.2.1,H(X)1.00.5 0 0.5 1 P,平均自信息量熵,该图象具有某种对称性:当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)当00。p越靠近1/2,H(X)越大。(X是真正的随机变量时,总有正的熵。随机性越大,熵越大)当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特),2023/6/16,4
15、2,2023/6/16,43,平均自信息量熵,2023/6/16,44,平均自信息量熵,2023/6/16,45,平均自信息量熵,2023/6/16,46,平均自信息量熵,2023/6/16,47,平均自信息量熵,2023/6/16,48,平均自信息量熵,2023/6/16,49,平均自信息量熵,条件平均自信息量(条件熵),条件非平均自信息量是集 上的随机变量由此可类似给出条件平均自信息量称做是给定 条件下,集 的条件熵同时,又可以看作是集 上的随机变量,继续求统计平均/期望,2023/6/16,50,2023/6/16,51,条件平均自信息量条件熵,定义(条件熵)给定一个二维离散型随机变量(
16、X,Y),(xk,yj),rkj,=p(xk,yj)k=1K;j=1J,称如下定义的H(X|Y)为X相对于Y的条件熵,联合的非平均自信息量,2023/6/16,52,给定一个二维离散型随机变量(X,Y),(xk,yj),rkj=p(xk,yj),k=1K;j=1J事件(xk,yj)(X,Y)的自信息量 I(xk,yj)=-log p(xk,yj)求其统计平均或数学期望,2023/6/16,53,联合的平均自信息量联合熵,定义(联合熵)二维离散型随机变量(X,Y),(xk,yj),rkj=p(xk,yj),k=1K;j=1J的联合熵定义为,2023/6/16,54,各熵之间的关系,熵、条件熵、联
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 编码 理论基础 王育民 第二

链接地址:https://www.31ppt.com/p-5230753.html