【教学课件】第1章熵和互信息量.ppt
《【教学课件】第1章熵和互信息量.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第1章熵和互信息量.ppt(83页珍藏版)》请在三一办公上搜索。
1、第1章 熵和互信息量,本章介绍信源的统计特性和数学模型各类信源的信息测度-熵及其性质引入信息理论的一些基本概念和重要结论,通信系统模型:,对信息论的学习可从信源开始消息是信息的载荷者。信息是抽象的,消息是具体的。要研究信息,还得从研究消息入手。由于信源发送什么消息预先是不可知的,只能用概率空间来描述信源,1.1 信源的数学模型及分类,单符号信源:输出是单个符号(代码)的消息离散信源连续信源平稳随机序列信源:信源输出的消息由一系列符号序列所组成,可用N维随机矢量 X(X1,X2,XN)描述,且随机矢量X 的各维概率分布都与时间起点无关-平稳!离散平稳信源连续平稳信源无记忆(独立)离散平稳信源有记
2、忆信源m阶马尔可夫信源随机波形信源,离散信源(单符号),特点:输出是单个符号(代码)的消息,符号集的取值A:a1,a2,aq是有限的或可数的,可用一维离散型随机变量X来描述。例:投硬币、书信、电报符号等等。数学模型:设每个信源符号ai出现的(先验)概率 p(ai)(i=1,2,q)满足:,概率空间能表征离散信源的统计特性,因此也称概率空间为信源空间。,连续信源,特点:输出是单个符号(代码)的消息,输出消息的符号集A的取值是连续的,可用一维的连续型随机变量X 来描述。例:语音信号、热噪声信号、遥控系统中有关电压、温度、压力等测得的连续数据等等。数学模型:连续型的概率空间。即:,或,满足,或,1.
3、2 离散信源的信息熵及其性质,基本的离散信源可用一维随机变量X来描述信源的输出,信源的数学模型可抽象为:,问题:这样的信源能输出多少信息?每个消息的出现携带多少信息量?,信息的度量,考虑:信息的度量(信息量)和不确定性消除的程度有关,消除的不确定性获得的信息量;不确定性就是随机性,可以用概率论和随机过程来测度,概率小不确定性大;推论:概率小 信息量大,即信息量是概率的单调递减函数;信息量应该具有可加性;,信息量的推导,某事件发生所含有的信息量应该是该事件发生的先验概率的函数。即:I(ai)f p(ai)根据客观事实和人们的习惯概念,函数 f p(ai)应满足以下条件:(1)它应是先验概率p(a
4、i)的单调递减函数,即当 p(a1)p(a2)时,有 f p(a1)f p(a2);(2)当p(ai)=1时,f p(ai)=0(3)当p(ai)=0时,f p(ai)=(4)两个独立事件的联合信息量应等于它们分别的信息量之和。即统计独立信源的信息量等于它们分别的信息量之和。可以证明对数函数满足上述条件:,一.自信息,设离散信源X的概率空间为:,I(ai)代表两种含义:(1)当事件ai发生以前,表示事件ai发生的不确定性(2)当事件ai发生以后,表示事件ai所提供的信息量,称事件ai发生所含有的信息量为 ai 的自信息量。定义为:,一点说明,计算自信息量时要注意有关事件发生概率的计算;自信息量
5、的单位取决于对数的底;底为2,单位为“比特(bit,binary unit)”;底为e,单位为“奈特(nat,nature unit)”;底为10,单位为“哈特(hat,Hartley)”;根据换底公式得:,一般计算都采用以“2”为底的对数,为了书写简洁,常把底数“2”略去不写,1 nat=1.44bit,1 hat=3.32 bit;,例 8个串联的灯泡x1,x2,x8,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问每进行一次测量可获得多少信息量?总共需要多少次测量才能获知和确定哪个灯泡已损坏。,解:收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量)不确定性减少的量
6、(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性),已知8个灯泡等概率损坏,所以先验概率P(x1)1/8,即,第二次测量获得的信息量=I P(x2)-I P(x3)=1(bit)第三次测量获得的信息量=I P(x3)=1(bit)至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。,第一次测量获得的信息量=I P(x1)-I P(x2)=1(bit)经过二次测量后,剩2个灯泡,等概率损坏,P(x3)1/2,一次测量后,剩4个灯泡,等概率损坏,P(x2)1/4,二.信息熵,对一个信源发出不同的消息所含有的信息量也不同。所以自信息I(ai)是一个随机变量,不能用它
7、来作为整个信源的信息测度。定义自信息的数学期望为平均自信息量Hr(X),称为信息熵:,由于这个表达式和统计物理学中热熵的表达式相似,且在概念上也有相似之处,因此借用“熵”这个词,把H(X)称为信息“熵”;信息熵的单位由自信息量的单位决定,即取决于对数的底。,H(X)的单位:r 进制单位符号(r1),熵的计算例:有一布袋内放l00个球,其中80个球是红色的,20个球是白色的。随便摸出一个球,猜测是什么颜色,那么其概率空间为:,如果被告知摸出的是红球,那么获得的信息量是:I(a1)log p(a1)log0.8=0.32(比特)如被告知摸出来的是白球,所获得的信息量应为:I(a2)log p(a2
8、)log0.2=2.32(比特)平均摸取一次所能获得的信息量为:H(X)=p(a1)I(a1)+p(a2)I(a2)=0.72(比特/符号),熵的含义,熵是从整个集合的统计特性来考虑的,它从平均意义上来表征信源的总体特征。在信源输出后,信息熵H(X)表示每个消息提供的平均信息量;在信源输出前,信息熵H(X)表示信源的平均不确定性;信息熵H(X)表征了变量X的随机性。例如,有两信源X、Y,其概率空间分别,计算其熵,得:H(X)=0.08(bit/符号)H(Y)=1(bit/符号)H(Y)H(X),因此信源Y比信源X的平均不确定性要大。,例 设甲地的天气预报为:晴(占48)、阴(占28)、大雨(占
9、18)、小雨(占18)。又设乙地的天气预报为:晴(占78),小雨(占18)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为14。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。,两个信源,解:甲地天气预报构成的信源空间为:,则其提供的平均信息量即信源的信息熵:,乙地天气预报的信源空间为:,结论:甲地天气预报提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小。,甲地极端情况,极端情况1:晴天概率1,结论:等概率分布时信源的不确定性最大,所以信息熵(平均信息量)最
10、大。,极端情况2:各种天气等概率分布,乙地极端情况,极端情况1:晴天概率1,结论:在极端情况2下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。,极端情况2:各种天气等概率分布,信息熵是信源概率空间的一种特殊矩函数。这个矩函数的大小,与信源的符号数及其概率分布有关。我们用概率矢量P来表示概率分布P(x):,三、信息熵的基本性质,这样,信息熵H(X)是概率矢量P或它的分量p1,p2,pq的q-1元函数(因各分量满足上述条件限制,所以独立变量只有q-1元)。一般 H(X)可写成:,熵函数,H(P)是概率矢量P的函数,称为熵函数。用下述表示方法:用H(x)表示以离散
11、随机变量x描述的信源的信息熵;用H(P)或 H(p1,p2,pq)表示概率矢量为P=(p1,p2,pq)的q个符号信源的信息熵。若当 q=2 时,因为 p1+p2=1,所以将两个符号的熵函数写成H(p1)或H(p2)。熵函数H(P)是一种特殊函数,具有以下性质。,性质:,1、对称性:H(P)的取值与分量 p1,p2,pq的顺序无关。说明:从数学角度:H(P)=pi log pi 中的和式满足交换率;从随机变量的角度:熵只与随机变量的总体统计特性有关。例,2、确定性:H(1,0)=H(1,0,0)=H(1,0,0,0)=0性质说明:从总体来看,信源虽然有不同的输出符号,但它只有一个符号几乎必然出
12、现,而其它符号则是几乎不可能出现,那么,这个信源是一个确知信源,其熵等于零。3、非负性:H(P)0说明:随机变量X的概率分布满足0pi1,当取对数的底大于1时,log(pi)0,-pilog(pi)0,即得到的熵为正值。只有当随机变量是一确知量时熵才等于零。这种非负性合适于离散信源的熵,对连续信源来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。,非负性体现信息是非负的。,4、扩展性,性质说明:信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。,所以,上式成立,因为,5、可加性 统计独立信源X和Y的联合信源的熵等于信源X和Y各自的熵之和。H(XY)=H(X
13、)+H(Y),可加性是熵函数的一个重要特性,正因具有可加性,才使熵函数的形式是唯一的。,证明:,例如,甲信源为,它们的联合信源是,可计算得联合信源的联合熵:H(Z)=H(XY)=log(nm)=log m+log n=H(X)+H(Y),乙信源为,6、强可加性两个互相关联的信源X和Y的联合信源的熵等于信源X的熵加上在X已知条件下信源Y的条件熵。H(XY)=H(X)+H(Y/X),H(Y/X)表示信源 X 输出一符号的条件下,信源Y再输出一符号所能提供的平均信息量,称为条件熵。,H(XY)=H(X)+H(Y/X)的证明:,H(XY)=H(X)+H(Y/X),7、递增性,若原信源 X 中有一个符号
14、分割成了m个元素(符号),这m个元素的概率之和等于原元素的概率,而其他符号的概率不变,则新信源的熵增加。熵的增加量等于由分割而产生的不确定性量。,证明可以从熵的定义或强可加性得出:,即得:,递增性的推广,它表示n个元素的信源熵可以递推成(n-1)个二元信源的熵函数的加权和。这样,可使多元信源的熵函数的计算简化成计算若干个二元信源的熵函数。因此,熵函数的递增性又可称为递推性。,8、极值性(定理1.1)在离散信源情况下,信源各符号等概率分布时,熵值达到最大。,性质表明等概率分布信源的平均不确定性为最大。这是一个很重要的结论,称为最大离散熵定理。,证明:因为对数是型凸函数,满足詹森不等式Elog Y
15、 log EY,则有:,二进制信源是离散信源的一个特例。该信源符号只有二个,设为“0”和“1”。符号输出的概率分别为“”和“1-”,即信源的概率空间为:,H(X)=-log(1-)log(1-)=H(),即信息熵H(x)是的函数。取值于0,1区间,可画出熵函数H()的曲线来,如右图所示。,熵函数H(P)是概率矢量P(p1,p2,pq)的严格型凸函数(或称上凸函数)。它表示:对任意概率矢量P1(p1,p2,pq)和P2(p1,p2,pq),和任意的 01,有:H P1十(1-)P2 H(P1)十(1-)H(P2)因为熵函数具有上凸性,所以熵函数具有极值,其最大值存在。,9、上凸性,当离散平稳无记
16、忆信源发出固定长度的消息序列时,则得到原信源的扩展信源。例如在电报系统中,若信源输出的是二个二元数字组成的符号序列,此时可认为是一个新的信源,它由四个符号(00,01,10,11)组成,我们把该信源称为二元无记忆信源的二次扩展信源。如果把N个二元数字组成一组,则信源等效成一个具有2N个符号的新信源,把它称为二元无记信源的N次扩展信源。,1.3 离散无记忆信源的扩展信源,一般情况下,对一个离散无记忆信源X,其样本空间为a1,a2,aq,对它的输出消息序列,可用一组组长度为N的序列来表示它。这时,它等效成一个新信源。新信源输出的符号是N维离散随机矢量X=(X1,X2,XN),其中每个分量Xi(i1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件 教学 课件 互信
链接地址:https://www.31ppt.com/p-5658105.html