多媒体数据压缩的基本技术.ppt
《多媒体数据压缩的基本技术.ppt》由会员分享,可在线阅读,更多相关《多媒体数据压缩的基本技术.ppt(72页珍藏版)》请在三一办公上搜索。
1、第三讲 多媒体数据压缩的基本技术(1),Outline多媒体数据压缩的理论依据量化标量量化矢量量化预测编码 差分脉冲编码调制(DPCM)自适应差分脉码调制(ADPCM),压缩的必要性,AUDIO,VIDEO,数据压缩可分为两类:无损压缩有损压缩无损压缩是指压缩后的数据进行重构(还原,解压缩),重构后的数据与原来的数据完全相同。有损压缩是指压缩后的数据进行重构,重构的数据与原来的数据有所不同,但不影响人对原始资料表达信息的理解。,多媒体数据压缩的理论依据,信息论 现在科学领域中的一个重要分支 Shannon所创立的信息论对数据压缩有极为重要的指导意义 给出了数据压缩的理论极限 指明了数据压缩的技
2、术途径 为通信技术的发展奠定了理论基础,两个基本概念:熵和信源熵,Entropy(熵)的概念:(1)熵是信息量的度量方法,它表示某一事件出现的消息越多,事件发生的可能性就越小,数学上就是概率越小。(2)某个事件的信息量用 Ii=-log2Pi 表示,其中Pi为第 i 个事件的概率,信源熵的定义,其中 P i 是符号 S i 在 S 中出现的概率,,表示包含在 Si 的信息量,也就是编码 Si 所需要的位数,例如,一幅用256级灰度表示的图像,如果每一个象素点灰度的概率均为 Pi=1/256,编码每一个象素点就需要8位。,无损编码定理,离散信源X无损编码所能达到的最小速率不能低于该信源的信源熵,
3、即:,信源编码定理(有损编码定理),对于给定的信源,在允许一定的失真D情况下,存在一率失真函数R(D),当编码速率R不低于R(D)时,编码失真能够不大于D。R(D)一般不容易计算 该定理没有给出编码方法,熵编码(保熵编码、无损压缩),定长编码香农-范诺(Shannon-Fano)编码霍夫曼编码 算术编码Ziv-Lempel编码(70年代末J.Ziv和A.Lempel)行程编码(Run Length Encoding,RLE),举例说明:,有一幅40个象素组成的灰度图像,灰度共有5级,分别用符号A、B、C、D和E表示,40个象素中出现灰度A的象素数有15个,出现灰度B的象素数有7个,出现灰度C的
4、象素数有7个等等,如右边所示。如果用3个位表示5个等级的灰度值(定长编码),也就是每个象素用3位表示,编码这幅图像总共需要120位。,就是说每个符号用2.196位表示,40个象素需用87.84位,按照信息论理论,这幅图像的熵为:,香农-范诺(Shannon-Fano)编码,按照符号出现的频度或概率排序,然后使用递归方法分成两个部分,每一部分具有近似相同的次数。Shannon(1948年)和Fano(1949年)最早阐述和实现这种编码,因此被称为香农-范诺(Shannon-Fano)算法。这种方法采用从上到下的方法进行编码。,香农-范诺编码举例,上例按照香农范诺算法的编码结果,编码后的位数 30
5、 14 14 18 15 91(位),霍夫曼编码,霍夫曼(Huffman)在1952年提出了一种编码方法,是从下到上的编码方法。基本思想是:对于出现概率较大的符号取较短的码长,而对概率较小的符号取较长的码长。是一种变长码,霍夫曼码通常被称为最优码,仍以上一个例子说明它的编码步骤:,1.初始化,根据符号概率的大小按由大到小顺序对符号进行排序2.把概率最小的两个符号组成一个节点,D和E组成节点P1 3.重复步骤2,得到节点P2、P3和P4,形成一棵“树”,其中的P4称为根节点 4.从根节点P4开始到相应于每个符号的“树叶”,从上到下标上“0”(上枝)或者“1”(下枝),至于哪个为“1”哪个为“0”
6、则无关紧要,最后的结果仅仅是分配的代码不同,而代码的平均长度是相同的。5.从根节点P4开始顺着树枝到每个叶子分别写出每个符号的代码,上例按照霍夫曼编码的结果(总共90位),霍夫曼码的码长虽然是可变的,但却不需要另外附加同步代码。例如,码串中的第1位为0,那末肯定是符号A,因为表示其他符号的代码没有一个是以0开始的,因此下一位就表示下一个符号代码的第1位。同样,如果出现“110”,那么它就代表符号D。如果事先编写出一本解释各种代码意义的“词典”,即码簿,那么就可以根据码簿一个码一个码地依次进行译码。,采用霍夫曼编码时需要注意的问题:,霍夫曼码没有错误保护功能,在译码时,如果码串中没有错误,那么就
7、能一个接一个地正确译出代码。但如果码串中有错误,哪怕是1位出现错误,不但这个码本身译错,更糟糕的是一错一大串,全乱了套,这种现象称为错误传播(error propagation)。计算机对这种错误是无能为力的,说不出错在哪里,更谈不上去纠正它。霍夫曼码是可变长度码,因此很难随意查找或调用压缩文件中间的内容,然后再译码,这就需要在存储代码之前加以考虑。,量化,量化是将具有连续幅度值的输入信号转换到只有有限个幅度值的输出信号的过程。标量量化均匀量化非均匀量化对数量化自适应量化矢量量化,标量量化,标量量化对信号的每个样点分别量化 连续信号的量化过程是将给定的连续信号幅度值x变成 有限个离散幅度值集合
8、中的一个值y的过程数学描述:对取值连续的无限集合x,通过变换Q映射到一个只有L个离散值集合yk,k=1,2,L上,量化器 Q 输入 x 落入:,时,量化器输出为 yk,即:,其中 xk 称作分层电平或判决电平,yk 称作量化电平或重建电平。共有L1个分层电平和L个量化电平,要用 R 比特表示。其中:,输入输出特性曲线(量化器量化特性),量化误差(量化噪声),对于确定信号x,q也是确定信号;对于语音、图象等随机信号,q也是随机信号。设x的概率分布密度函数是px(x),q的概率分布密度为pq(x),则q的均方值为:,量化误差的方差同 px(x)、xk、yk及L都有关。那么问题就转化成为在给定px(
9、x)和L的前提下,如何确定xk、yk,使量化误差功率(方差)最小?,1均匀量化,各量化区间相等,设量化器量化范围是-V到+V,则,量化电平取各量化区间中点,在这里我们只讨论输入信号幅度受限情况:,量化误差:,当L足够大,即足够小,近似有,为均匀分布,类似白噪声,也称颗粒噪声,只同L,V有关,同信号幅度概率分布及输入功率都无关,定义:,用分贝表示:,量化器每增加一个比特,SNR提高约6db,SNR与2x有关,即与信号大小和幅度概率分布有关,临界过载时SNR达最大值,均匀分布信号:,正弦信号:临界过载时,语音为非平稳随机信号,电话语音电平变化超过40db。对小信号电平输入,SNR应保证约2030d
10、b,即最大SNR需6070db,均匀量化器要1113比特。,2非均匀量化,均匀量化简单、易实现,但量化器特性曲线同输入信号幅度概率密度函数不匹配,采用非均匀量化可解决此问题,使量化效果更好。给定信号幅度概率分布密度,求解最佳分层电平和最佳量化电平。两种求解方法:迭代求解,大R值近似求解。,(1)最佳非均匀量化器的迭代求解方法,Lloyd 和Max提出,通常称劳依得-麦克思(Lloyd-Max)量化器,适用于L为任意值 由,为使上式达最小,分别对各分层电平和量化电平求偏导,并令其为零:,将量化噪声公式代入上两式可以得到,有:,以及:,因此有:,最佳分层电平应取两个相邻重建电平中点 最佳重建电平处
11、于量化间隔概率质心上 一般情况下(L3),求解需要使用迭代方法,其步骤如下所述:A 选初始值y1,由式(2)求出x2;B 根据y1,x2由式(1)求出y2;C 根据y2,x2,由式(2)求出x3。重复以上步骤,求出x2,x3,xL和y1,y2,yL。然后将xL及xL+1=代入(2)式右端求出值,看此值是否很接近已求出的yL。若不接近,则根据偏差调整y1的初值,重复以上过程,直到偏差满足给定的容差。,(2)大R值非均匀量化器近似求解,对于大R值,L足够大,可认为在每个量化间隔中,输入信号幅度概率密度近似为固定值,在该区间内,信号出现的概率为:,并有,当L值足够大,可以选V值较大,使,的概率很小,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体 数据压缩 基本 技术
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6560927.html