信息论编码田宝玉.ppt
第4章 连续信息与连续信源,第4章 连续信息与连续信源,本章主要内容:1.连续随机变量集合的熵 2.离散时间高斯信源的熵 3.连续最大熵定理 4.连续随机变量集的平均互信息 5.离散集与连续集之间的互信息,本章在研究第3章离散信源的基础上研究连续信源的信息量度量。内容安排如下:首先研究离散时间连续信源的差熵,主要是高斯信源的差熵;然后介绍连续信源最大熵定理;最后介绍连续集合之间的平均互信息、离散集合与连续集合的平均互信息。,本节主要内容:1.连续随机变量的离散化 2.连续随机变量集的熵 3.连续随机变量集的条件熵 4.连续随机变量集的联合熵 5.连续随机变量集合差熵的性质 6.连续随机变量集合的信息散度,4.1 连续随机变量集合的熵,4.1.1 连续随机变量的离散化,一个连续随机变量的离散化过程大致如下:若给定连续随机变量集合 的概率分布 或 概率密度;再给定一个由实数集合到有限或可数集合的划分,使得,其中 表示离散区间,为实数集合,且 互斥;用 将 进行划分,划分后的离散集合表示为 或,且使得:()即,把 的概率看成 取值 的概率,这样就得到离散化后随机变量的概率分布。,4.1.1 连续随机变量的离散化(续),对于二维连续随机变量,可采用类似方法,得到离散化后对应的二维离散随机变量的联合概率分布:()其中,分别为 的某种划分,且。,4.1.2 连续随机变量集的熵,设连续随机变量集合 在离散化后分别为,根据离散化后的离散事件的概率可得()取等间隔划分,即令,则(),4.1.2 连续随机变量集的熵(续),这样,离散化后信源的熵可看成由()式中的两项组成,当x0 时,第一和第二项分别用 和 来表示。那么()(),4.1.2 连续随机变量集的熵(续),可见,连续信源的熵由两部分组成:一部分为绝对熵,其值为无限大,用 表示;另一部为差熵(或微分熵),用 表示。通常我们所说的连续信源的熵就是差熵,可写成:()差熵的单位为:比特(奈特)/自由度。,4.1.3 连续随机变量集的条件熵,类似地,可计算离散化后的 为:取等间隔划分,即令,则(),4.1.3 连续随机变量集的条件熵(续),当 时,第一和第二项分别用 和 来表示。那么),4.1.3 连续随机变量集的条件熵(续),与前面类似以,连续信源的条件熵也由两部分组成:一部分为绝对熵,其值为无限大,用 表示;另一部分为差熵,用 表示,可写成:)条件差熵的单位也为:比特(奈特)/自由度。,4.1.4 连续随机变量集的联合熵,类似地,可以定义N维连续随机变量集合的联合差熵为:(4.1.13)其中,N维连续随机变量,为 的联合概率密度,积分为在整个概率空间的多重积分。联合差熵的单位为:比特(奈特)/N自由度。,4.1.4 连续随机变量集的联合熵(续),对于平稳随机过程或平稳随机序列 定义熵率为:(4.1.14)实际上,熵率表示每自由度的熵。注:(1)一维连续信源的符号含一个自由度,N维连续信源的符号含N个自由度;(2)一个连续信源的符号可能含多个自由度,所以比特/自由度不一定等于比特/符号;(3)对于某些信源有时也用比特/符号做单位。,4.1.5 连续随机变量集合差熵的性质连续熵与离散熵的类似性,连续熵与离散熵计算表达式类似。通过比较可见,由计算离散熵到计算连续熵,不过是将离散概率变成概率密度,将离散求和变成积分。熵的不增性。连续熵同样满足熵的不增原理,即(4.1.15)由于 仅当X、Y独立时等式成立。,4.1.5 连续随机变量集合差熵的性质(续)连续熵与离散熵的类似性,可加性 设N维高斯随机矢量集合,很容易证明(4.1.16)且仅当 相互独立时,熵的不增性等式成立。,4.1.5 连续随机变量集合差熵的性质连续熵与离散熵的差别,差熵可以作为信源平均不确定性的相对量度但不是绝对的量度。如前所述,差熵实际上只是连续信源熵的一部分,因此不能作为信源平均不确性大小的绝对量度。但是每个信源所包含的绝对熵部分都等于,与信源的概率分布无关,所以差熵的大小仍然可以作为信源平均不确定性的相对量度,即差熵的大的信源平均不确定性大。,4.1.5 连续随机变量集合差熵的性质(续)连续熵与离散熵的差别,差熵不具有非负性。根据差熵的公式,如果在整个积分区间概率密度的值若大于1,则计算出的差熵的值就小于零。在连续信源中,在一一对应变换的条件下,差熵可能发生变化。如果两个离散信源符号的取值有一一对应的变换关系,那么变换后信源的熵是不变 的,但此时对于连续信源,差熵可能发生变化。下面是详细的论述。,4.1.5 连续随机变量集合差熵的性质连续信源变换的熵,定理4.1.1 设、为定义在 空间中的两个N维矢量,是可微的一对一的从RN到自身的变换,(4.1.17)其中 为 的概率密度,为逆变换 的雅可比行列式,即(4.1.18),4.1.5 连续随机变量集合差熵的性质(续)连续信源变换的熵,如果,不依赖于 或者是一个线性变换,那么(4.1.17)式变为(4.1.20)设、为定义在 空间中的两个N维随机矢量集合,,其中 是一个 的可逆线性变换,为N维常数列矢量。这时由于,其中 表示矩阵A的行列式,则(4.1.21),4.1.5 连续随机变量集合差熵的性质(续)连续信源变换的熵,可以写成如下更明显的形式:(4.1.21a)如果变换为平移和旋转,即,则(4.1.21b)即经过平移和旋转变换后的连续信源的差熵不变。,4.1.6 连续随机变量集合的信息散度,与离散情况类似,我们可以定义连续随机变量的信息散度。设 和 为定义在同一概率空间的两个概率密度,定义 相对 于的散度为:(4.1.22)同样,在(4.1.22)中,概率密度的维数不限,可以是一维,也可以是多维。,4.1.6 连续随机变量集合的信息散度(续),定理4.1.2(散度不等式)如果两个连续随机矢量概率密度分别为 和,那么(4.1.23)当且仅当对所有 时,等式成立。,本节主要内容:1.一维高斯随机变量集的熵 2.多维独立高斯随机变量集的熵 3.多维相关高斯随机变量集的熵,4.2 离散时间高斯信源的熵,4.2.1 一维高斯随机变量集的熵,设一维高斯随机变量X的分布密度为:(4.2.1)其中,m,2分别为随机变量X的均值和方差,先计算,4.2.1 一维高斯随机变量集的熵(续),根据()式,可得一维高斯随机矢量集合的熵为:(4.2.2)可见,高斯信源的熵仅与方差有关而与均值无关。,4.2.2 多维独立高斯随机变量集的熵,设N维独立高斯随机变量的分布密度为:(4.2.3)其中,分别为随机矢量 的均值和方差。根据熵的可加性,可求得多维独立高斯随机矢量集合的熵:(4.2.4),4.2.3 多维相关高斯随机变量集的熵,定理4.2.1 设N维高斯随机矢量 的分布密度为:(4.2.5)其中,为 协方差矩阵,其中,为 的均值矢量,那么随机矢量集的熵为:(4.2.6),例4.2.1 设X和Y是分别具有均值,方差 的两个独立的高斯随机变量集合,且,;试求。解 根据题意有,根据(4.1.21),有 上面利用了X、Y的独立性。,例(续)将变换改为,试求解 此时 到 的变换是正交变换,变换后熵不变,所以,主要内容 1、限峰值最大熵定理 2、限功率最大熵定理 3、熵功率和剩余度,4.3 连续最大熵定理,对于离散信源,当信源符号等概率分布时信源的熵取最大值。对于连续信源,差熵也可以通过改变信源的概率密度求最大值,但情况有所不同:除一般情况下对概率密度的非负 和归一化 的约束条件之外,还必须附加其他的约束条件。这些附加约束通常是对随机变量矩的约束,最重要的约束是对信源输出的峰值约束和功率约束,即在一阶矩和二阶矩的约束条件下求 的极值问题,4.3.1 限峰值最大熵定理,若信源输出信号的峰值功率受限为P,即信源输出信号的瞬时电压限定在,等价于信源输出连续随机变量X的取值幅度受限于 内取值,即在约束 下,求信源熵的极值。峰值功率受限等价于将信源输出的幅度限制在一个有限区间内。,定理4.3.1 幅度受限的随机变量,当均匀分布时有最大的熵。,该定理的详细描述如下:当N维随机矢量 具有概率密 度,分布区间为(a1,b1),(a2,b2),(aN,bN)时,其熵满足证明:设是分布区间为(a1,b1),(a2,b2),(aN,bN)的均匀分布,概率密度为:,证明续:,计算-log,(xi(ai,bi),i=1,N),根据定理,有 所以:即:仅当 等于时,等式成立,此时的熵就是均匀分布的信源的熵。,4.3.2 限功率最大熵定理,若信源输出信号的平均功率受限,对于均值为0的一维信源来说,就是其方差 受限。对于均值不为零的N维信源 的情况,就是在其协方差矩阵 受限的约束条件下,求信源熵的极值。一维随机变量的功率就是它的方差,功率受限即为方差一定;对于多维随机变量,功率受限即为协方差矩阵一定。,定理4.3.2 功率受限的随机变量,当高斯分布时有最大的熵。,该定理可详细描述如下:设N 维信源 的概率密度为,协方差矩阵为,且,其中:t 为 的均值矢量,那末 的熵满足 仅当为高斯分布时等式成立。证明:设 为(4.2.5)式所规定的N维高斯概率密度,其协方差矩阵也为,根据定理有,证明续,所以 上面利用了两概率分布具有相同的自协方差矩阵的条件,其中,类似于(4.2.6)式的推导,可得到(4.3.1)式,仅当 为高斯分布时等式成立。证毕。,4.3.3 熵功率和剩余度,定义差熵为的连续随机变量集合X的熵功率为 从而有 可见,连续信源的熵功率就是具有相同差熵的高斯信源的平均功率。设X的实际功率为。根据限功率最大熵定理,具有相同功率时,高斯分布的熵最大,因此有 再根据(4.2.10),得,即,任何一个信源的熵功率不大于其实际平均功率(方差)。,信源剩余,熵功率的大小可以表示连续信源剩余的大小。如果熵功率等于信号的平均功率,就表示信号没有剩余。熵功率和信号的平均功率相差越大,说明信号的剩余越大。所以信号平均功率和熵功率之差被称为连续信源的剩余度。只有高斯分布的信源的熵功率等于其实际平均功率,剩余度为零。,定理4.3.3 熵功率不等式,如果X和Y都是方差有限的连续随机变量,则 仅当X和Y均为高斯随机变量时等式成立。(证明略)上式说明,两随机变量集合的熵功率的和不大于两随机变量和的熵功率,除非两者都是高斯随机变量。,主要内容 1、连续随机变量集的平均互信息 2、连续随机变量集平均互信息的性质,4.4 连续随机变量集的平均互信息,4.4.1 连续随机变量集的平均互信息,设X、Y为两个连续随机变量集合,它们的平均互信息定义为:其中,Sup(Supremum)为上确界,取遍所有对X、Y的划分P、Q。根据离散平均互信息的定义可得 I(XP;YQ)=其中,X划分为集合,Y划分为集合,分别为相应离散集合的概率分布。,设对X有两种划分,分别为P1、P2,其中P1中的每一个区间都是P2中某个区间的子区间,则离散集合XP1 中的某元素就包含在离散集合XP2中的某个元素中。因此XP1 可看成XP2的细化。根据前面离散互信息的性质有:同样的论证也适用于Y。可见X、Y的区间划分越细,则平均互信息越大。因此,我们有理由把这些划分区间大小趋近于零时的平均互信息的极限值作为连续随机变量集合X、Y的平均互信息。,设连续集合X、Y,分别由P、Q两划分变成离散集合且,那末,根据()()可得所以 当 时,趋近于,因此,,4.4.2 连续随机变量集平均互信息的性质,对称性,即 非负性,即平均互信息与差熵的关系线性变换下平均互信息的不变性设、为定义在RN空间中的两个N维矢量,、分别为、的可逆线性变换,即,那么,例题:二维高斯随机变量集合,其中 的均值和方差分别为 和,且相关系数为,求:(1)的联合分布密度;(2);(3)。解(1)设XY的协方差矩阵,则 利用(4.2.5)式,得,续解:(2)根据高斯变量差熵的公式(4.2.6)、(4.2.2),得(3)根据公式(4.1.15)和(4.2.22),得到,例 已知X,S为零均值、互相独立的高斯随机变量集合,方差分别为P、Q;Z为独立于X和S的零均值高斯噪声,方差为N;设,其中,为常数。求:(1);(2)解:由已知条件可得(1),续解:(2),主要内容 1、离散事件与连续事件之间的互信息 2、离散集合与连续集合的平均互信息,4.5 离散集与连续集之间的互信息,4.5.1 离散事件与连续事件之间的互信息,设事件x X,取自字母表A,y为连续集Y中的事件,定义x 与y之间的互信息为:其中,为y的概率密度。且,,4.5.2 离散集合与连续集合的平均互信息,集合与集合的平均互信息定义如下:例 已知一信道的输入和输出分别为X和Y,其中X等概率取值为+1,-1,且Z为在-2与2之间均匀分布的随机变量;(1)求的概率密度;(2)求信道输入与输出之间的互信息。解(1)其中,和 为条件概率密度。设为的概率密度,可得,如图,可得,(2)=0.5 bit.,本 章 小 结,连续信源的熵通过对信源输出取值离散化来研究;连续熵与离散熵有很大的区别,特别是连续熵不具非负性,在一一对应的变换下不具熵的不变性;连续熵与离散熵也有类似性,具有熵的可加性;连续随机变量集合的平均互信息保持离散平均互信息的性质;连续最大熵定理:限功率时高斯信源有最大熵;限峰值时均匀分布信源有最大熵;,高斯信源的熵:N维离散时间高斯信源熵仅与协方差矩阵有关:离散集与连续集之间的平均互信息的计算:,