欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    信息论讲义第二讲课件.ppt

    • 资源ID:3692734       资源大小:2.12MB        全文页数:68页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息论讲义第二讲课件.ppt

    第二章 信息的统计度量,内容提要 2.1 自信息量和条件自信息量 2.2 互信息量和条件互信息量 2.3 离散集的平均自信息量 2.4 离散集的平均互信息量 2.5 连续随机变量的互信息和相对熵,离散随机变量,事件,2.1 自信息量和条件自信息量,2.1.1 自信息量 简单事件 联合事件2.1.2 条件自信息量,自信息的推导,某事件发生所含有的信息量应该是该事件发生的先验概率的函数。即:I(ai)f p(ai),根据客观事实和人们的习惯概念,函数 f p(ai)应满足以下条件:(1)它应是先验概率p(ai)的单调递减函数,即当 p(a1)p(a2)时,有 f p(a1)f p(a2)(2)当p(ai)=1时,f p(ai)=0(3)当p(ai)=0时,f p(ai)=(4)两个独立事件的联合信息量应等于它们分别的信息量之和。即统计独立信源的信息量等于它们分别的信息量之和。,1928年,信息论的先驱者之一哈特莱(Hartley)首先研究了具有Nm个组合的单个消息信源。他对这类非概率信源进行了研究,并给出了最早的信息度量公式,定义为可能消息量的对数:I=logNm=mlogN,可以证明对数函数满足上述条件:,自信息的推导(续),2.1.1 自信息量,自信息量 任意简单随机事件xi的发生概率为p(xi),则自信息量为,一、简单事件,释:(1)p(xi)1,表示事件xi出现的概率,取“-”号的主要目的是:使I(xi)0,2.1.1 自信息量(续),(2)意义:,具有某种概率分布的随机事件不管发生与否,都存在不确定度,不确定度表征了该事件的特性,而自信息量是在该事件发生后给予观察者的信息量。,一个出现概率接近于1的随机事件,发生的可能性很大,所以它包含的不确定度就很小;反之,一个出现概率很小的随机事件,很难猜测在某个时刻它能否发生,所以它包含的不确定度就很大;若是确定性事件,出现概率为1,则它包含的不确定度为0。,2.1.1 自信息量(续),(3)单位:取决于对数的底 比特(以2为底)I(xi)=-log2 p(xi)奈特(以e为底)I(xi)=-loge(xi)哈特来(以10为底)I(xi)=-log10(xi),根据换底公式得:,1 nat=1.44bit,1 hat=3.32 bit;,2.1.1 自信息量(续),例:英文字母中“e”出现概率为0.105,“c”出现的概率为0.023,“o”出现的概率为0.001。分别计算它们的自信息量。解:根据自信息量的定义,解得“e”的自信息量:“c”的自信息量:“o”的自信息量:,例:一个以等概率出现的二进制码元(0,1)所包含的自信息量为:I(0)=I(1)=-log2(1/2)=log22=1 bit,例:若是一个m位的二进制数,因为该数的每一位可从0,1两个数字中任取一个,因此有2m个等概率的可能组合。所以I=-log2(1/2m)=m bit,就是需要m比特的信息来指明这样的二进制数。,2.1.1 自信息量(续),2.1.1 自信息量(续),例:一副充分洗乱了的牌(含52张牌),求:(1)任一特定排列(2)若从中抽取13张牌,所给出的点数都不相同的信息量?。解:依题意1)52张牌共有52!种排列,假设每种排列方式等概出现,则所给出的信息量 2)52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下:,2.1.1 自信息量(续),联合自信息量 二维联合集XY上元素(xi yj)的自信息量定义为其中,xiyj 是积事件;p(xiyj)是二维联合概率,二、联合事件,例:同时抛一对质地均匀的骰子,每个骰子各面朝上的概率均为1/6。试求:(1)“3和5同时发生”的自信息量(2)“两个1同时发生”的自信息量(3)“两个点数中至少有一个是1”的自信息量解:(1)甲3乙5,甲5乙3 p(A)=1/36 2=1/18 I(A)=-log p(A)=4.17 bit(2)甲1乙1 p(B)=1/36 I(B)=-log p(B)=5.17 bit(3)扣掉 甲、乙都不是1的概率 p(C)=1-6/5 5/6=11/36 I(C)=-log p(C)=1.71 bit,2.1.1 自信息量(续),2.1.2 条件自信息量,条件自信息量 若事件xi在事件yj给定条件下的概率为p(xi|yj),则其条件自信息量定义为因为p(xi|yj)1,所以条件自信息量非负,即:I(xi|yj)0。,释:I(xi)是事件xi本身所具有的不确定性;I(xi|yj)是事件yj 发生后,事件xi 尚存在的不确定性;条件自信息量单位同自信息量。,2.1.2 条件自信息量(续),概率知识复习1.乘法公式2.全概率公式3.条件概率公式4.贝叶斯公式,2.1.2 条件自信息量(续),例:有一正方形棋盘,分64个格,如果甲将一棋子放在某格内,让乙猜测。,1.将方格按顺序编号(1,2,64),让乙猜测棋子所在格的序号。2.将方格按行,列编号(如图所示),甲告诉乙棋子所在行或者列的编号,让乙猜测位置。计算乙猜中的信息量。,Answer:,1),2),2.1.2 条件自信息量(续),2.2 互信息量和条件互信息量,2.2.1 互信息量 定义 性质2.2.2 条件互信息量,2.2.1 互信息量,一、互信息量定义 对两个离散随机事件集X和Y,事件yj的出现给出关于事件xi的信息量,其定义式为 物理意义:互信息量是一种消除的不确定性的度量。互信息量=先验的不确定性-尚存在的不确定性。表示事件xi 发生后传递给事件yj的信息量;表示事件yj发生所能提供的关于事件xi的信息量。,I(xi;yj)=,例:8个串联的灯泡x1,x2,x8,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问每进行一次测量可获得多少信息量?,解:收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量)不确定性减少的量(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性),2.2.1 互信息量(续),已知8个灯泡等概率损坏,所以先验概率P(x1)1/8,即,第二次测量获得的信息量=I P(x2)-I P(x3)=1(bit)第三次测量获得的信息量=I P(x3)=1(bit),第一次测量获得的信息量=I P(x1)-I P(x2)=1(bit)经过二次测量后,剩2个灯泡,等概率损坏,P(x3)1/2,一次测量后,剩4个灯泡,等概率损坏,P(x2)1/4,2.2.1 互信息量(续),例:求:当接收信号为A2时,哪个电台发射的可能性大?,2.2.1 互信息量(续),解:从概率论角度分析,根据贝叶斯公式从互信息量角度分析,接收H2可能性大,接收H2可能性大,2.2.1 互信息量(续),二、互信息量的性质(1)互易性 由事件提供的有关事件的信息量等于由事件提供的有关事件的信息量。(2)互信息量可为零 当事件xi,yj 彼此统计独立,I(xi;yj)=0。表明:当事件xi 同 yj相互独立时,不能通过对事件yj的观测获得关于另一事件xi的任何信息。,2.2.1 互信息量(续),(3)互信息量小于自信息量 任何两个事件之间的互信息量不可能大于其中任一事件的自信息量。I(xi;yj)I(xi)I(xi;yj)I(yj)物理意义 表明:自信息量I(xi)是为了确定事件xi的出现所必需提供的信息量,也是任何其他事件所能提供的关于事件xi的最大信息量。,2.2.1 互信息量(续),(4)互信息量I(xi;yj)可正可负 在给定观测数据yj的条件下,事件xi出现的概率p(xi|yj),称为后验概率。当后验概率大于先验概率,即p(xi|yj)p(xi)时,互信息量为正值,即I(xi;yj)0;当后验概率小于先验概率,即p(xi|yj)p(xi)时,互信息量为负值,即I(xi;yj)0。物理意义:互信息量为正,意味着事件yj的出现有助于肯定事件xi的出现;反之,则是不利的。造成不利的原因是由于信道干扰引起的。,2.2.1 互信息量(续),例:已知信源包含8个数字消息0,1,2,3,4,5,6,7。为了在二进制信道上传输,用信源编码器把这8个十进制数编成三位二进制代码组,信源各消息(符号)的先验概率及相应的代码组见下表,求互信息量,2.2.2 条件互信息量(续),解:I(ui;x0)表示译码器收到第一个码元x0后提供的关于消息ui的信息量。按贝叶斯公式有,后验概率为故接到第一个码元“0”后的后验概率为,2.2.2 条件互信息量(续),求得互信息量为如表示:译码器收到第一个码元“0”后,提供的有关消息u3的信息量为0.415 bits。,2.2.2 条件互信息量(续),同理求接到01后的后验概率 接到011后的后验概率,按贝叶斯公式有,2.2.2 条件互信息量(续),后验概率分布,2.2.2 条件互信息量(续),得到 此式表示译码器收到码元“01”后,提供的有关消息的信息量为2bit.此式表示译码器收到码元“011”后,提供的有关消息的信息量为3bit。,2.2.2 条件互信息量(续),2.2.2 条件互信息量,定义:在联合集XYZ中,在给定zk的条件下,xi与yj之间的互信息量定义为条件互信息量。其定义式为,2.2.2 条件互信息量(续),在XYZ联合集上还存在事件xi与积事件yj zk之间的互信息量,其定义式为 表明:事件yj和zk同时出现后所提供的关于xi的信息量I(xi;yjzk)等于事件yj出现后所提供的关于xi的互信息量I(xi;yj)加上在已知yj的条件下由事件zk所提供的关于xi的信息量I(xi;zk|yj)。,例:已知信源包含8个数字消息0,1,2,3,4,5,6,7。为了在二进制信道上传输,用信源编码器把这8个十进制数编成三位二进制代码组,信源符号的先验概率见下表求:1)求在给定x0条件下,消息u3与y1之间的条件互信息量。2)求在给定x0y1条件下,消息u3与z1之间的条件互信息量。3)求消息u3与代码组之间的互信息量。,2.2.2 条件互信息量(续),解:接收到代码0,01和011的后验概率分别为,2.2.2 条件互信息量(续),在给定x0条件下,消息u3与y1之间的条件互信息量 I(u3;y1|x0)在给定x0y1条件下,消息u3与z1之间的条件互信息量 I(u3;z1|x0y1),2.2.2 条件互信息量(续),消息u3与代码组x0y1z1之间的互信息量 I(u3;x0y1z1)解法二:根据定义直接得到,2.2.2 条件互信息量(续),2.3 离散集的平均自信息量,2.3.1平均自信息量(熵,Entropy)熵的定义 熵的性质2.3.2 条件熵和联合熵2.3.3 各种熵的关系2.3.4 加权熵 加权熵定义 加权熵性质,一个布袋内放100个球,其中80个球是红色的,20个球是白色的,若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息量。解:依据题意 这一随机事件的概率空间为,引出,其中:x1表示摸出的球为红球事件,x2表示摸出的球是白球事件.如果摸出的是红球,则获得的信息量是 I(x1)=-log2p(x1)=-log20.8 bit 如果摸出的是白球,则获得的信息量是 I(x2)=-log2p(x2)=-log20.2 bit,如果每次摸出一个球后又放回袋中,再进行下一次摸取。则如此摸取n次,红球出现的次数为np(x1)次,白球出现的次数为np(x2)次。随机摸取n次后总共所获得的信息量为 np(x1)I(x1)+np(x2)I(x2),引出(续),则平均随机摸取一次所获得的信息量为 H(X)=1/nnp(x1)I(x1)+np(x2)I(x2)=-p(x1)log2p(x1)+p(x2)log2p(x2),=0.72比特/次,说明:,自信息量I(x1)和I(x2)只是表征信源中各个符号的不确定度,一个信源总是包含着多个符号消息,各个符号消息又按概率空间的先验概率分布,因而各个符号的自信息量就不同。所以自信息量不能作为信源总体的信息量。,引出(续),1、概率论的核心概念是随机变量。随机变量的精确描述是分布律和概率密度。随机变量的粗略描述是数字特征(均值和方差)。2、信息论的核心概念是信息。信息的精确描述是信息量(自信息量、条件自信息量和互信息量)。信息的粗略描述是什么?熵,引出(续),2.3.1 平均自信息量(熵,Entropy),一、平均自信息量定义 在离散集X上,随机变量I(xi)的数学期望定义为平均自信息量 又称作集X的信息熵,简称熵。释:信息熵和统计力学中热熵表达式在形式上相同。热熵描述一个系统在某时刻可能出现的有关状态的不确定程度。,2.3.1 平均自信息量(续),(2)信息熵H(X)是信源输出消息xi的自信息量I(xi)的概率加权平均值,即统计平均值。信息熵H(X)是从平均意义上表征信源总体的一个量,是信源的统计平均不确定性的描述。,有两个信源,其概率空间分别为信息熵分别为H(X)=-0.99log0.99-0.01log0.01=0.08 比特/符号H(Y)=-0.5log0.5-0.5log0.5=1 比特/符号可见 H(Y)H(X)结论:信源Y的二个输出消息是等可能性的,所以事先猜测哪一个消息出现的不确定性要大;信源X的二个输出消息不是等概率的,事先猜测x1和x2哪一个出现,虽然具有不确定性,但大致可以猜出x1会出现,所以信源X的不确定性要小;信息熵反映的就是信源输出前平均不确定程度的大小。,2.3.1 平均自信息量(续),2.3.1 平均自信息量(续),(3)信息熵是概率矢量P=(p1,p2,pq)的函数(4)单位:由自信息量单位确定。以2为底时,记为 H(x)以r为底时,记为 Hr(x)例:中、英、俄、法、西五国文字的信息熵 法文 3.98 bit 西班牙文 4.01 bit 英文 4.03 bit 俄文 4.35 bit 中文 9.65 bit,例:设甲地的天气预报为:晴(占48)、阴(占28)、大雨(占18)、小雨(占18)。又设乙地的天气预报为:晴(占78),小雨(占18)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为14。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。,2.3.1 平均自信息量(续),解:甲地天气预报构成的信源空间为,则其提供的平均信息量即信源的信息熵:,乙地天气预报的信源空间为:,结论:甲地天气预报提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小。,甲地极端情况,极端情况1:晴天概率1,结论:等概率分布时信源的不确定性最大,所以信息熵(平均信息量)最大。,极端情况2:各种天气等概率分布,乙地极端情况,极端情况1:晴天概率1,结论:在极端情况2下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。,极端情况2:各种天气等概率分布,例:电视屏上约有 500 600=3 105个格点,按每 点有 10个不同的灰度等级考虑,则共能组成n=103x10个不同的画面。按等概率1/103x10计算,平均每个画面可提供的信息量为,=3 105 3.32 比特/画面,2.3.1 平均自信息量(续),例:有一篇千字文章,假定每字可从万字表中任选,则共有不同的千字文 N=100001000=104000 篇 仍按等概率1/100001000计算,平均每篇千字文可提供的信息量为 H(X)log2N 4 103 332 13 104 比特千字文,比较:,“一个电视画面”平均提供的信息量远远超过“一篇千字文”提供的信息量。,2.3.1 平均自信息量(续),例:该信源X输出符号只有两个,设为0和1。输出符号发生的概率分别为p和q,pq=l。即信源的概率空间为,则二元信源熵为 H(X)=-plogp-qlogq=-plogp-(1-p)log(1-p)=H(p),2.3.1 平均自信息量(续),2.3.1 平均自信息量(续),信源信息熵H(X)是概率p的函数,通常用H(p)表示。p取值于0,1区间。H(p)函数曲线如图所示。从图中看出,如果二元信源的输出符号是确定的,即p=1或q=1,则该信源不提供任何信息。反之,当二元信源符号0和1以等概率发生时,信源熵达到极大值,等于1比特信息量。,2.3.1 平均自信息量(续),一、熵函数的数学性质(1)对称性 当概率矢量P=(p1,p2,pq)中的q个分量的次序任意变更时,熵值不变。物理意义:熵仅与信源总体的统计特性有关(总体性)。如果某些信源总体的统计特性相同,不管其内部结构如何,这些信源的熵值相同。,2.3.1 平均自信息量(续)-性质,例:,H(X)=H(Y)=H(Z)意义:信息熵相同,表示三个信源总体特性相同说明熵定义具有局限性,2.3.1 平均自信息量(续)-性质,例:设A、B两地的天气情况分别为 求得H(A)=H(B)=1.75 bits,显然冰雹将导致严重灾害,人们应更加重视,但未能从熵中反映出来,从而有了加权熵的概念。,2.3.1 平均自信息量(续)-性质,(2)非负性等号成立的充要条件:当且仅当集合X中某元素xi 的发生概率pi=1,其余pk=0(ki),即确定概率场的熵值最小。物理意义:从总体来看,若某信源虽然有不同的输出符号,但它只有一个符号几乎必然出现,而其他符号几乎都不可能出现,则这个信源是一个确知信源,其信源熵等于零。,2.3.1 平均自信息量(续)-性质,(3)扩展性 表明:若集合X有q个事件,另一集合X有q+1个事件,但X和集X的差别只是多了一个概率近于零的事件,则两个集的熵值一样,即:若某事件的概率同集合中其他事件相比很小时,则它对于集合的熵值的贡献可以忽略。,本性质说明,信源的取值增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。虽然概率很小的事件出现后,给予收信者较多的信息。但从总体来考虑时,因为这种概率很小的事件几乎不会出现,所以它在熵的计算中占的比重很小。这也是熵的总体平均性的一种体现。,2.3.1 平均自信息量(续)-性质,2.3.1 平均自信息量(续)-性质,(4)可加性 如果有两个随机变量X,Y,他们不是相互独立的,则二维随机变量(X,Y)的熵等于X的无条件熵加上当X已给定时Y的条件概率定义的熵的统计平均值,即,2.3.1 平均自信息量(续)-性质,(5)极值性 式中,n是集合的元素数目。证明:对于任意实数,有 x0,有则可等价为,2.3.1 平均自信息量(续)-性质,即因此即 集合X的任意概率分布pi对其他概率分布qi自信息的数学期望必不小于本身定义的熵H(p1,p2,pq),2.3.1 平均自信息量(续)-性质,证明极值性 最大熵定理:离散集合中各事件等概分布时,信息熵达到最大。应用:(1)图像均衡处理,对比度强,层次丰富(2)PCB、FPGA自动布线,获得最稳定的工程拓扑结构设计。(3)统计推断、频谱分析、最佳编码、故障诊断等,2.3.1 平均自信息量(续)-性质,(6)确定性物理意义:(1)集合X中只要有一个事件为必然事件,则其余事件为不可能事件。(2)此时,集合X中每个事件对熵的贡献都为零,因而熵必为零。(3)此时信源X为确定信源,不能从中获得任何信息,2.3.1 平均自信息量(续)-性质,(7)上凸性 是概率分布 的严格上凸函数。,x1,x2,x1+(1-)x2,f(x),f(x1)+(1-)f(x2),f x1+(1-)x2,x,Y,0,2.3.1 平均自信息量(续)-性质,即给定集合 和取 构造则有证明:将按定义展开,易得小于0,2.3.1 平均自信息量(续)-性质,

    注意事项

    本文(信息论讲义第二讲课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开