信息论的基本概念.ppt
《信息论的基本概念.ppt》由会员分享,可在线阅读,更多相关《信息论的基本概念.ppt(112页珍藏版)》请在三一办公上搜索。
1、本章的主要问题,信息如何表示?如何度量?,第二章:信息论的基本概念,2.1 离散随机变量的熵,2.1.1 熵的引入2.1.2 香农熵与热力学熵的关系2.1.3 熵可以作为信息的度量(熵的物理意义)2.1.4 熵函数的性质2.1.5 联合熵和条件熵,1,信息无处不在,但:信息用什么表示?如何表示?,不确定性携载的信息,可用随机变量的不确定性或随机性作为信息的表示,“信息是事物运动状态或存在方式的不确定性的描述”香农,问题1:,信息是随机的,2.1.1 熵的引入-1,如何度量信息?如何计算消息的信息量?某些消息比另外一些消息传递了更多的信息。类似于火车运输货物多少用“货运量”衡量 消息信号传输信息
2、多少用“信息量”衡量 概率论知识:事件出现的可能性愈小,概率愈小;该事件是否会出现的不确定性就愈大事件出现的可能性愈大,概率愈大该事件是否会出现的不确定性就愈小 信息量与消息出现的概率有关。,问题2:,2.1.1 熵的引入-2,研究思路一:自信息概率空间的平均自信息熵研究思路二:直接定义,2.1.1 熵的引入-3,2,分析信息的特征,信息量(消息)关系式应反映如下规律:(1)信息量是概率的非负函数,即 I=fP(x)(2)P(x)越小,I越大;反之,I越小,且 P(x)1时,I0 P(x)0时,I(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,
3、即 IP(x1)P(x2)=IP(x1)+IP(x2)+,自信息:,研究思路一,信息量的直观定义:收到某消息获得的信息量不确定性减少的量(收到此消息前关于某事件发生的不确定性)(收到此消息后关于某事件发生的不确定性)在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息,收到此消息后关于某事件发生的不确定性完全消除,此项为零。因此得 收到某消息获得的信息量 收到此消息前关于某事件发生的不确定性 信源输出的此消息中所含有的信息量,自信息:,可以用泛函分析方法解得满足条件的函数形式为用概率测度定义信息量:设离散信源X,其概率空间为如果知道事件xi已发生,则该事件所含有的自信息定义为,自信息:,
4、自信息含义,当事件xi发生以前:表示事件xi发生的不确定性。当事件xi发生以后:表示事件xi所含有(或所提供)的信息量。在无噪信道中,事件xi发生后,能正确无误地传输到收信者,所以I(xi)可代表接收到消息xi后所获得的信息量。这是因为消除了I(xi)大小的不确定性,才获得这么大小的信息量。,自信息的测度单位及其换算关系,如果取以2为底,则信息量单位称为比特(binary unit)如果取以e为底,则信息量单位称为奈特(nature unit)如果取以10为底,则信息量单位称为哈特(Hart unit)1奈特1.44比特 1哈特3.32比特,一般都采用以“2”为底的对数,为了书写简洁,有时把底
5、数2略去不写。,信息论中“比特”与 计算机术语中“比特”区别,如果p(xi)=1/2,则I(xi)=1比特。所以1比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。信息论中“比特”是指抽象的信息量单位;计算机术语中“比特”是代表二元符号(数字);这两种定义之间的关系是:每个二元符号所能提供的最大平均信息量为1比特。,信源熵平均信息量,自信息是一个随机变量:自信息是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。平均信息量信源熵:自信息的数学期望。也称为信源的信息熵/信源熵/香农熵/无条件熵/熵函数/熵。信息熵的单位:取决于对数选取的底。一般选用
6、以2为底,其单位为比特/符号。信息熵的意义:信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。,熵(Entropy)的直接引入,一个离散随机变量X,以不同的取值概率有N个可能取值,信息论关心:X的不确定性不确定性大,获取的信息量多,研究思路二,熵的引入,不确定性分析:随机变量X、Y、Z,问题:1、能否度量?,小,大,2、如何度量?,香农指出:存在熵函数 满足先验条件,1、连续性条件:是 的连续函数,2、等概时为单调增函数:是N的增函数,3、可加性条件:当随机变量的取值不是通过一次试验而
7、是若干次试验确定取值时,X在各次试验中的不确定性可加。,结论:唯一的形式:,C=常数0,即:,可加性条件进一步说明:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,随机变量在各次试验中的不确定性可加,且其和始终与通过一次试验取得结果的不确定程度相同。,熵的定义,X为一随机变量样本空间Xx1,x2,.xnpi或p(xi)是输出为xi的概率定义为随机变量的熵函数,含义:(1)通过观测随机 变量X所获得的 平均信息量(2)对随机变量X的“不确定性”、“随机性”的度量,熵的单位,与前面介绍自信息的单位时相同,信息熵的单位也与公式中的对数取底有关。通信与信息中最常用的是以2为底,这时单位为比特
8、(bit);理论推导中用以e为底较方便,这时单位为奈特(Nat);工程上用以10为底较方便,这时单位为哈特利(Hartley)。它们之间可以引用对数换底公式进行互换。比如:1 bit=0.693 Nat=0.301 Hartley,熵H(X)-通过观测随机变量X所获得的平均信息量,进一步理解:平均统计平均(区别与算术平均)单位抽象的信息单位,无量纲(量纲单位)比特不同于计算机中的“比特”计算机:代表一个二元数字(binary digit)信息:对数取2为底时信息量的单位 关系:每一个二元数字所能提供的最大平均信息量为1比特认为:当x0时 xlog(1/x)=0通信:信息速率单位时间内信息的数量
9、,3,2.1.2 香农熵与热力学中热熵的关系,熵这个名词是香农从物理学中的统计热力学借用过来的,在物理学中称它为热熵,是表示分子混乱程度的一个物理量,这里,香农引用它来描述随机变量的平均不确定性,含义是类似的。但是在热力学中,任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信息熵为负热熵。二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲的。,2,(不确定性),2.1.3 熵可以作为信息的量度,对于随机变量而言:试验前试验后,各取值的概率分布,确切取值(0),(不确定性),熵的差值,一定的确切性,多次试验后,通过试验消除了不确定性获得了信
10、息,信息量获得的信息的数量,例2.1:试验前:试验后:,H(x)=log6=2.58bits=1.79nats,H(x1)=0,H(x)H(x1)=log6,例2.2:,试验前:,H(x)=log8=3(bit/符号),1,2,3,1,2,3,4,5,6,7,8,第一次测量后:,X1,P(x1),1 2 3 4 5 6 7 8,1/4 1/4 1/4 1/4 0 0 0 0,H(x1)=log4=2(bit/符号),H(x)H(x1)=1获得1bit信息量,H(x2)H(x3)=1 获得1bit信息量,第二次测量后:,X2,P(x2),1 2 3 4 5 6 7 8,1/2 1/2 0 0 0
11、 0 0 0,H(x2)=log2=1(bit/符号),第三次测量后:,X3,P(x3),1 2 3 4 5 6 7 8,1 0 0 0 0 0 0 0,H(x3)=log1=0(bit/符号),H(x1)H(x2)=1 获得1bit信息量,H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯泡是坏的,至少需要获得3个bit的信息量,才能完全消除不确定性。,熵的物理含义,观察随机变量X、Y、Z,=0.08(比特/符号),=1(比特/符号),H(Z)=5(-0.2log0.2)=2.32(比特/符号),熵的物理含义,熵是随机变量的随机性的描述。变量Y、Z等概,
12、随机性大,变量X不等概,则随机性小等概情况下,可取值越多,随机性越大H()是描述随机变量所需的比特数熵是随机变量平均不确定性的描述X试验中发生a1,获得的自信息为-log0.01=6.64(bit)Y试验中发生a1,获得的自信息为-log0.5=2.32(bit)H()反映的是平均的不确定性,例2.3 设某班学生在一次考试中获优(A)、良(B)、中(C)、及格(D)和不及格(E)的人数相等。当教师通知某甲:“你没有不及格”,甲获得了多少比特信息?为确定自己的成绩,甲还需要多少信息?,H(X)=5(-0.2log0.2)=2.32(比特),H(X)=4(-0.25log0.25)=2(比特),甲
13、获得的信息=H(X)-H(X)=0.32(比特),还需要的信息2.32-0.32=2(比特),2,2.1.4 熵函数的性质,香农熵是概率矢量的非负的上凸函数性质1:非负性性质2:上凸性性质3:唯一性(连续性、可加性、等概单调增),熵函数的性质非负性,证明一:,因为:,则:,所以:,熵函数的性质非负性,证明二:,有:,或:,所以:,熵函数的性质上凸性,凸性的概念:若对区域D中任意两点 和,均有:则称:区域D是凸域。,理解:若两点 和 在凸域D内,则 和 之间的线段也整个在区域D内。,在a,b上定义的下凸函数,若在凸域内,在a,b上定义的上凸函数,若在凸域内,Jenson不等式,这一结果被称为Je
14、nson不等式。Jenson不等式可以根据凸函数和数学归纳法来证明,熵函数的性质上凸性,上凸性:熵函数具有凸性,即H(P)是P的上凸函数。证明:(1)证明概率矢量P=(p1,p2,pN)的集合组成的区域是一个凸域。(2)利用,作业,熵函数的性质,定理2.1极值性 对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:,其中:N为X可能取值得个数。,例2.4:二元熵函数是对01分布的随机变量所求的熵:,H(X)=-plogp-(1-p)log(1-p)=H(p),有:,而:,可以证明,p1/2时,H(p)取最大值,为log2=1。而p=0或1时,H(p)0,故二元熵函数的曲线如图所示:
15、,p,二元熵函数曲线,等概时(p=0.5):随机变量具有最大的不确定性,p=0,1时:随机变量的不确定性消失。,计算机术语VS信息单位:“比特”每一个二元数字所能提供的最大平均信息量为1比特 符号等概分布的二元数字序列中,每一个二元数字将平均提供1比特的信息量;符号非等概分布时,每一个二元数字所提供的平均信息量总是小于1比特,例:2.5 P=0.5,0.25,0.25 Q=0.48,0.32,0.2H(P)=H(Q)=1.5 bits不同的概率分布熵可以相同For 3 symbols:Hmax(P)=log 3=1.585 bits 进一步理解:熵只与随机变量的总体结构有关,它表征随机变量的总
16、体的平均不确定性。局限性:不能描述时间本身的具体含义和主观价值,定理2.2 设离散随机变量的概密矩阵为 函数 是随机变量不确定性的量度,若此函数满足条件连续性等概时单调增函数性可加性则此函数必为,熵函数的性质唯一性,证明:可参见朱雪龙应用信息论基础P24,2.1.5 联合熵与条件熵条件熵,物理含义:已知一随机变量的情况下,对另一随机变量不确定性的量度,条件熵:,理解:观测Y以后,仍保留的关于X的不确定量。,2.1.5 联合熵与条件熵联合熵,联合熵物理意义:二元随机变量不确定性的量度,联合熵、条件熵的关系:,当X,Y相互独立时,有:,于是有:,理解:当随机变量相互独立时,其联合熵等于单个随机变量
17、的熵之和,而条件熵等于无条件熵。,联合熵、条件熵的关系:,一般情况下,理解:表明一般情形下:条件熵总是小于无条件熵。,注意:这是平均意义上的,2,“相对”熵:,设p(x),q(x)是两个不同的离散概率分布函数,则:,为概率分布函数p(x)关于q(x)的“相对”熵。,2,作业:利用Jenson不等式证明,意义:如果p(x)看作系统本身的概率分布,q(x)看做人们对系统进行估计得到的经验概率分布,则相对熵反映了由于逼近误差引起的信息量的丢失。,2.2 离散随机变量的互信息(Mutual information),互信息的定义2.2.2 互信息函数的性质2.2.3 熵 VS 互信息,1,H(XY)=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 基本概念
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5230848.html