《信息论基础熵》PPT课件.ppt
熵、联合熵、条件熵,目标理解各种熵的概念;掌握离散信源各种熵的基本性质,有两个含义:,1、当事件发生前,表示该事件发生的不确定性;2、当事件发生后,标是该事件所提供的信息量,自信息量的单位取决于对数所取的底,若以2为底,单位为比特,以e为底,单位为奈特,以10为底,单位为哈特,通常取比特为单位,回顾(1),回顾(1),例1:设天气预报有两种消息,晴天和雨天,出现的概率分别为1/4和3/4,我们分别用 来表示晴天,以 来表示雨天,则我们的信源模型如下:,对一个信源发出不同的消息所含有的信息量也不同。自信息是一个随机变量,不能用它来作为整个信源的信息测度,信息熵具有以下两种物理含义:1、表示信源输出前信源的平均不确定性2、表示信源输出后,每个符号所携带的平均信息量,熵的单位取决于对数所取的底,若以2为底,单位为比特/符号,回顾(2),熵是从整个集合的统计特性来考虑的,它从平均意义上来表征信源的总体特征。,说明,自信息量I(x1)和I(x2)只是表征信源中各个符号的不确定度,一个信源总是包含着多个符号消息,各个符号消息又按概率空间的先验概率分布,因而各个符号的自信息量就不同。所以自信息量不能作为信源总体的信息量。,平均不确定度H(X)的定义公式与热力学中熵的表示形式相同,所以又把H(X)称为信源X的熵。熵是在平均意义上来表征信源的总体特性的,可以表征信源的平均不确定度。,说明,信息量则只有当信源输出符号而被接收者收到后,才有意义,这就是给予接收者的信息度量,这值本身也可以是随机量,也可以与接收者的情况有关。某一信源,不管它是否输出符号,只要这些符号具有某些概率特性,必有信源的熵值;这熵值是在总体平均上才有意义,因而是一个确定值,一般写成H(X),X是指随机变量的整体(包括概率分布)。,说明,作业相关,人口问题:在某个地区,一对夫妻只允许生一个孩子,可是这里所有的夫妻都希望能生个男孩传宗接代,因此这里的夫妻都会一直生到生了一个男孩为止,假定生男生女的概率相同问:(1)这个地区男孩会多于女孩吗?(2)一个家庭孩子的个数用离散随机变量X表示,计算X的熵 解:假定一个家庭里有k个女孩,1个男孩,相应的概率是0.5k*0.5,因此女孩的平均数是,女孩的平均数与男孩的平均数相等。,习题相关,设离散无记忆信源其发生的消息为(202120130213001203210110321010021032011223210)(1)此消息的自信息是多少?(2)在此消息中平均每个符号携带的信息量是多少?,解:(1)因为离散信源是无记忆的,所以其发出的消息序列中各符号是统计独立的。因此,此消息的自信息就等于消息中各个符号的自信息之和!根据题意,可得,此消息中共有14个“0”符号,13个“1”符号,12个“2”符号,6个“3”符号,则得到消息的自信息是,习题相关,(2)此消息中共含45个信源符号,这45个信源符号携带着8781比特信息量,则此消息中平均每个符号携带的信息量为,(202120130213001203210110321010021032011223210),注意:此值是此消息中平均每个符号携带的信息量,该离散无记忆信源平均每个符号携带的信息量,即信息墒,习题相关,新授课,联合熵与条件熵熵、联合熵与条件熵信息熵的基本性质,新授课,联合熵与条件熵熵、联合熵与条件熵信息熵的基本性质,信源发出序列中只有前后两个符号间有依赖关系:信源的概率空间:连续两个信源符号出现的联合概率分布为:,联合熵与条件熵,已知符号 出现后,紧跟着 出现的条件概率为:,由二维离散信源的发出符号序列的特点可以把其分成每两个符号一组,每组代表新信源 中的一个符号。并假设组与组之间是统计独立的,互不相关的。,得到一个新的离散无记忆信源,其联合概率空间为:,联合熵与条件熵,根据(信息)熵的定义,可得:(1)联合熵,可以表征信源输出长度为2的平均不确定性,或所含有的信息量。,说明:联合熵是随机序列 联合离散符号集上的每个符号对 联合自信息量的数学期望,联合熵与条件熵,(2)条件熵,则:,联合熵与条件熵,随机序列 的联合符号集上的条件自信息量的数学期望,例题,已知二维随机变量 的联合概率分布 为 求,解:,由,又由,所以,新授课,联合熵与条件熵 熵、联合熵与条件熵信息熵的基本性质,H(X,Y)H(X)H(YX)H(X,Y)H(Y)H(XY),证明:,熵、联合熵与条件熵,所以,熵、联合熵与条件熵,证明:由,熵、联合熵与条件熵,H(XY)H(Y)H(XY),所以,熵、联合熵与条件熵,例 某一二维离散信源,其发出的符号只与前一个符号有关,即可用联合概率P(xi,xj)给出它们的关联程度,如下表所示,求信源的熵H(X)、条件熵H(X2|X1)和联合熵H(X1,X2)。,解:根据概率关系可计算得条件概率P(xj|xi),计算 结果列表如下:,得:,H(X):表示信源中每个符号的平均信息量(信源熵)。H(Y):表示信宿中每个符号的平均信息量(信宿熵)。H(X|Y):表示在输出端接收到Y的全部符号后,发送端X尚存的平均不确定性。这个对X尚存的不确定性是由于干扰引起的。信道疑义度(损失熵,含糊度)H(Y|X):表示在已知X的全部符号后,对于输出Y尚存的平均不确定性。信道散布度(噪声熵)H(XY):表示整个信息传输系统的平均不确定性(联合熵)。,熵的意义(对通信系统),熵之间的相互关系H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(Y)+H(X|Y)H(X)=H(X|Y)H(Y)=H(Y|X)H(X,Y)=H(X)+H(Y),熵、联合熵与条件熵,新授课,联合熵与条件熵 熵、联合熵与条件熵信息熵的基本性质,新授课,联合熵与条件熵 熵、联合熵与条件熵信息熵的基本性质,对称性确定性非负性扩展性可加性强可加性递增性上凸性极值性,1、对称性:H(P)的取值与分量 p1,p2,pq的顺序无关。说明:从数学角度:H(P)=pi log pi 中的和式满足交换率;从随机变量的角度:熵只与随机变量的总体统计特性有关。,信息熵的基本性质,一个例子:,信息熵的基本性质,2、确定性:H(1,0)=H(1,0,0)=H(1,0,0,0)=0性质说明:从总体来看,信源虽然有不同的输出符号,但它只有一个符号几乎必然出现,而其它符号则是几乎不可能出现,那么,这个信源是一个确知信源,其熵等于零。,信息熵的基本性质,3、非负性:H(P)0说明:随机变量X的概率分布满足0pi1,当取对数的底大于1时,log(pi)0,-pilog(pi)0,即得到的熵为正值。只有当随机变量是一确知量时熵才等于零。这种非负性合适于离散信源的熵,对连续信源来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。,信息熵的基本性质,4、扩展性,所以,上式成立.,因为,信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变,信息熵的基本性质,5、可加性 统计独立信源X和Y的联合信源的熵等于信源X和Y各自的熵之和。H(X,Y)=H(X)+H(Y),信息熵的基本性质,证明:,信息熵的基本性质,例如,甲信源为,它们的联合信源是,可计算得联合信源的联合熵:H(Z)=H(XY)=log(nm)=log m+log n=H(X)+H(Y),乙信源为,信息熵的基本性质,6、强可加性两个互相关联的信源X和Y的联合信源的熵等于信源X的熵加上在X已知条件下信源Y的条件熵。H(X,Y)=H(X)+H(Y|X),信息熵的基本性质,7、递增性,若原信源 X 中有一个符号分割成了m个元素(符号),这m个元素的概率之和等于原元素的概率,而其他符号的概率不变,则新信源的熵增加。熵的增加量等于由分割而产生的不确定性量。,信息熵的基本性质,即得:,例:运用熵函数的递增性(的推广),计算熵函数H(1/3,1/3,1/6,1/6)的数值。,熵函数H(P)是概率矢量P(p1,p2,pq)的严格型凸函数(或称上凸函数)。它表示:对任意概率矢量P1(p1,p2,pq)和P2(p1,p2,pq),和任意的 01,有:H P1十(1-)P2 H(P1)十(1-)H(P2)因为熵函数具有上凸性,所以熵函数具有极值,其最大值存在。,8、上凸性,信息熵的基本性质,9、极值性在离散信源情况下,信源各符号等概率分布时,熵值达到最大。,性质表明等概率分布信源的平均不确定性为最大。这是一个很重要的结论,称为最大离散熵定理。,信息熵的基本性质,证明:因为对数是型凸函数,满足詹森不等式Elog Y log EY,则有:,二进制信源是离散信源的一个特例。该信源符号只有二个,设为“0”和“1”。符号输出的概率分别为“”和“1-”,即信源的概率空间为:,信息熵的基本性质,即信息熵H(x)是的函数。取值于0,1区间,可画出熵函数H()的曲线来,如右图所示。,H(X)=-log(1-)log(1-)=H(),信息熵的基本性质,判断题,1)H(X)0;2)若X与Y独立,则H(X)=H(X|Y);3)如果H(X|YZ)=0,则要么H(X|Y)=0,要么H(X|Z)=0;4)H(X|X)=0;5)若X与Y独立,则H(X|Y)=H(Y|X).,x只有个可能的结果,H(X)0,p(x)=p(x|y)H(X|Y=y)=H(X),棋子所在的位置:横格和纵格共同决定,F,F,F,T,T,该信源的熵H(X)log6不满足熵的极值性?,2.65,2.58,判断题,1)H(X)0;2)若X与Y独立,则H(X)=H(X|Y);3)如果H(X|YZ)=0,则要么H(X|Y)=0,要么H(X|Z)=0;4)H(X|X)=0;5)若X与Y独立,则H(X|Y)=H(Y|X).,x只有个可能的结果,H(X)0,p(x)=p(x|y)H(X|Y=y)=H(X),棋子所在的位置:横格和纵格共同决定,F,F,F,T,T,该信源的熵H(X)log6不满足熵的极值性?,2.65,2.58,作业,P22T1(除I(X;Y)T6,T1 H(X,Y)=1.825 H(X)=0.9183 H(Y)=1,T6 H(X,Y|Z)=H(X|Z)+H(Y|X,Z)H(X|Z)当H(Y|X,Z)=0,即 Y是X、Z的函数时,原式等号成立。,有两个同时输出的信源X和Y,其中X的信源符号为A,B,C,Y的信源符号为D,E,F,G,已知 P(X)和P(Y|X),求联合信源的联合熵和条件熵。,扩展训练 1,解:信源X的熵为:,扩展训练 1,信源XY输出每一对消息的联合概率为:P(X,Y)=P(Y/X)P(X),结果如上表。,联合熵:,条件熵:,扩展训练 1,从上述结果可得:H(X,Y)=H(X)+H(Y/X)=1.461+1.956=3.417(bit/每对符号),当两个信源统计独立时,H(X,Y)=H(X)+H(Y)为最大。,对第二个信源Y,其熵H(Y)的计算。由全概率公式:,扩展训练 1,联合熵的最大值为:,由于信源相关,使联合熵减小,其减小量为:,因此:,扩展训练 1,电视屏上约有 500 600=3 105个格点,按每点有 10个不同的灰度等级考虑,则共能组成n=103*10个不同的画面。按等概率1/103*10计算,平均每个画面可提供的信息量为,=3 105 3.32 比特/画面,扩展训练 2,有一篇千字文章,假定每字可从万字表中任选,则共有不同的千字文 N=100001000=104000 篇 仍按等概率1/100001000计算,平均每篇千字文可提供的信息量为 H(X)logN4 103332 13 104 比特千字文,比较:,“一个电视画面”平均提供的信息量远远超过“一篇千字文”提供的信息量。,扩展训练 3,该信源X输出符号只有两个,设为0和1。输出符号发生的概率分别为p和q,pq=1。即信源的概率空间为,则二元信源熵为 H(X)=-plogp-qlogq=-plogp-(1-p)log(1-p)=H(p),扩展训练 4,扩展训练 4,信源信息熵H(X)是概率p的函数,通常用H(p)表示。p取值于0,1区间。H(p)函数曲线如图所示。从图中看出,如果二元信源的输出符号是确定的,即p=1或q=1,则该信源不提供任何信息。反之,当二元信源符号0和1以等概率发生时,信源熵达到极大值,等于1比特信息量。,扩展训练 4,有一布袋内放l00个球,其中80个球是红色的,20个球是白色的。随便摸出一个球,猜测是什么颜色,那么其概率空间为:,扩展训练 5,解:,如果被告知摸出的是红球,那么获得的信息量是:I(a1)log p(a1)log0.8=0.32(比特)如被告知摸出来的是白球,所获得的信息量应为:I(a2)log p(a2)log0.2=2.32(比特)平均摸取一次所能获得的信息量为:H(X)=p(a1)I(a1)+p(a2)I(a2)=0.72(比特/符号),扩展训练 5,精彩回顾,信息重要性:食指上网,拇指发信!信息论重要性:量化信息!消息的信息含量等于该消息的惊奇程度!对数函数量化信息原由?1位的推广。,64张纸牌的对分搜索。,熵是故事的属性?香农信息量+KCC=常数!是一种与读者无关的绝对方式衡量故事所包含信息量的方法!,精彩回顾,H(P)是概率矢量P的函数,称为熵函数。我们用下述表示方法:用H(x)表示以离散随机变量x描述的信源的信息熵;用H(P)或 H(p1,p2,pq)表示概率矢量为P=(p1,p2,pq)的q个符号信源的信息熵。若当 q=2 时,因为 p1+p2=1,所以将两个符号的熵函数写成H(p1)或H(p2)。,扩展训练 6,