多媒体技术Chapter04-B.ppt
《多媒体技术Chapter04-B.ppt》由会员分享,可在线阅读,更多相关《多媒体技术Chapter04-B.ppt(102页珍藏版)》请在三一办公上搜索。
1、第4章 无损数据压缩,1,多媒体信源引起了“数据爆炸”如果不进行数据压缩 传输和存储都难以实用化。,多媒体数据,Facebook每天上传1亿张图片,130TB日志量,数据压缩就是在一定的精度损失条件下,以最少的数码表示信源所发出的信号。,第4章 无损数据压缩,2,第4章 无损数据压缩,3,时间域压缩迅速传输媒体信源频率域压缩并行开通更多业务空间域压缩降低存储费用能量域压缩降低发射功率,多媒体数据压缩的必要性 数据存储 传输带宽,第4章 无损数据压缩,4,压缩比要大恢复后的失真小压缩算法要简单、速度快压缩能否用硬件实现,数据压缩技术实现的衡量标准,第4章 无损数据压缩,5,信息冗余 采集的多媒体
2、数据信息具有相关性,可以用数学的方法来表示这些重复数据或相关数据。感官误差允许 人们在感知各种媒体对象时,往往对一些细节信息没有很强的感知,而且存在各种隐蔽效应。,多媒体数据压缩的可能性,第4章 无损数据压缩,数据压缩可分成两种类型,一种叫做无损压缩,另一种叫做有损压缩。无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。一个很常见的例子是磁盘文件的压缩。根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/21/4。一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(L
3、enpel-Ziv&Welch)压缩算法。,6,有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不会让人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但可大大提高压缩比。(数字水印),第4章 无损数据压缩,7,本章主要介绍目前用得最多,技术最成熟的无损压缩编码技术,包含:霍夫曼编码算术编码RLE编码词典编码 对于不打算开发压缩技术和编写压缩程序的读者可不必深究编译码
4、的详细过程。,第4章 无损数据压缩,8,香农-范诺编码算法需要用到下面两个基本概念1.Entropy(熵)的概念(1)熵是信息量的度量方法,它表示某一事件出现的消息越多,不确定性事件发生的可能性就越小,数学上就是概率越小。(2)某个事件的信息量用Ii=-log2pi表示,其中pi为第i个事件的概率,0pi=1,4.1.1 香农-范诺编码,4.1 香农-范诺与霍夫曼编码,9,2.信源S的熵的定义按照香农(Shannon)的理论,信源S的熵定义为,4.1.1 香农-范诺编码,其中pi是符号si在S中出现的概率;log2(1/pi)表示包含在si中的信息量,也就是编码si所需要的位数。例如,一幅用2
5、56级灰度表示的图像,如果每一个象素点灰度的概率均为pi=1/256,编码每一个象素点就需要8位。,10,例4.1 有一幅40个象素组成的灰度图像,灰度共有5级,分别用符号A、B、C、D和E表示,40个象素中出现灰度A的象素数有15个,出现灰度B的象素数有7个,出现灰度C的象素数有7个等等,如表4-01所示。如果用3个位表示5个等级的灰度值,也就是每个象素用3位表示,编码这幅图像总共需要120位(31537373635)。表4-01 符号在图像中出现的数目符 号ABCDE出现的次数157765,4.1.1 香农-范诺编码,11,按照香农理论,这幅图像的熵为H(S)=(15/40)log2(40
6、/15)+(7/40)log2(40/7)+(5/40)log2(40/5)=2.196这就是说每个符号用2.196位表示,40个象素需用87.84位(2.19640)。,4.1.1 香农-范诺编码,12,最早阐述和实现这种编码的是Shannon(1948年)和Fano(1949年),因此被称为香农-范诺(Shannon-Fano)算法。这种方法采用从上到下的方法进行编码。首先按照符号出现的频度或概率排序,例如,A,B,C,D和E,如表4-02所示。然后使用递归方法分成两个部分,使两个部分的概率和接近于相等。直至不可再分,即每一个叶子对应一个字符。如图4-01所示。按照这种方法进行编码得到的总
7、位数为91,实际的压缩比约为1.3:1。,4.1.1 香农-范诺编码,13,表4-02 Shannon-Fano算法举例表,4.1.1 香农-范诺编码,14,图4-01香农-范诺算法编码举例,4.1.1 香农-范诺编码,15,霍夫曼(Huffman)在1952年提出了另一种编码方法,即从下到上的编码方法。现仍以一个具体的例子说明它的编码步骤:(1)初始化,根据符号概率的大小按由大到小顺序对符号进行排序,如表4-03和图4-02所示。表4-03霍夫曼编码举例,4.1.2 霍夫曼编码,4.1 香农-范诺与霍夫曼编码,16,图4-02霍夫曼编码方法,4.1.2 霍夫曼编码,17,(2)把概率最小的两
8、个符号组成一个节点,如图4-02中的D和E组成节点P1。(3)重复步骤2,得到节点P2、P3和P4,形成一棵“树”,其中的P4称为根节点。(4)从根节点P4开始到相应于每个符号的“树叶”,从上到下标上“0”(上枝)或者“1”(下枝),至于哪个为“1”哪个为“0”则无关紧要,最后的结果仅仅是分配的代码不同,而代码的平均长度是相同的。,4.1.2 霍夫曼编码,18,(5)从根节点P4开始顺着树枝到每个叶子分别写出每个符号的代码,如表4-03所示。(6)按照香农理论,这幅图像的熵为H(S)=(15/39)log2(39/15)+(7/39)log2(39/7)+(5/39)log2(39/5)=2.
9、1859压缩比1.34:1。,4.1.2 霍夫曼编码,19,霍夫曼码的码长虽然是可变的,但却不需要另外附加同步代码。例如,码串中的第1位为0,那末肯定是符号A,因为表示其他符号的代码没有一个是以0开始的,因此下一位就表示下一个符号代码的第1位。同样,如果出现“110”,那么它就代表符号D。如果事先编写出一本解释各种代码意义的“词典”,即码簿,那么就可以根据码簿一个码一个码地依次进行译码。,4.1.2 霍夫曼编码,20,采用霍夫曼编码时有两个问题值得注意:霍夫曼码没有错误保护功能,在译码时,如果码串中没有错误,那么就能一个接一个地正确译出代码。但如果码串中有错误,哪怕仅仅是1位出现错误,不但这个
10、码本身译错,更糟糕的是一错一大串,全乱了套,这种现象称为错误传播(error propagation)。计算机对这种错误也无能为力,说不出错在哪里,更谈不上去纠正它。霍夫曼码是可变长度码,因此很难随意查找或调用压缩文件中间的内容,然后再译码,这就需要在存储代码之前加以考虑。尽管如此,霍夫曼码还是得到广泛应用。,4.1.2 霍夫曼编码,21,与香农-范诺编码相比,这两种方法都自含同步码,在编码之后的码串中都不需要另外添加标记符号,即在译码时分割符号的特殊代码。此外,霍夫曼编码方法的编码效率比香农-范诺编码效率高一些。,4.1.2 霍夫曼编码,22,算术编码在图像数据压缩标准(如JPEG,JBIG
11、)中扮演了重要的角色。在算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码间隔。信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间。编码过程中的间隔决定了符号压缩后的输出。算术编码器的编码过程可用下面的例子加以解释。,4.2 算术编码,23,例4.2 假设信源符号为00,01,10,11,这些符号的概率分别为 0.1,0.4,0.2,0.3,根据这些概率可把间隔0,1)顺序分成4个子间隔:0,0.1),0.1,0.5),0.5,0.7),0.7,1),其中x,y)表示半开放间隔,即包含x不包含y。上面的信息可综
12、合在表4-04中。表4-04 信源符号、概率和初始编码间隔,4.2 算术编码,24,如果二进制消息序列的输入为:10 00 11 00 10 11 01。编码时首先输入的符号是10,找到它的编码范围是0.5,0.7)。由于消息中第二个符号00的编码范围是0,0.1),因此它的间隔就取0.5,0.7)的第一个十分之一作为新间隔0.5,0.52)。依此类推,编码第3个符号11时取新间隔为0.514,0.52),编码第4个符号00时,取新间隔为0.514,0.5146),。消息的编码输出可以是最后一个间隔中的任意数。整个编码过程如图4-03所示。,4.2 算术编码,25,图4-03 算术编码过程举例
13、,4.2 算术编码,26,这个例子的编码和译码的全过程分别表示在表4-05和表4-06中。根据上面所举的例子,可把计算过程总结如下。考虑一个有M个符号 ai=(1,2,M)的字符表集,假设概率p(ai)=pi,而。输入符号用xn表示,第n个子间隔的范围用 表示。其中 l0=0,d0=1和p0=0,ln表示间隔左边界的值,rn 表示间隔右边界的值,dn=rn-ln表示间隔长度。编码步骤如下:,4.2 算术编码,27,步骤1:首先在1和0之间给每个符号分配一个初始子间隔,子间隔的长度等于它的概率,初始子间隔的范围用I1=l1,r1)=,)表示。令d1=r1-l1,L=l1和R=r1。,4.2 算术
14、编码,28,步骤2:L和R的二进制表达式分别表示为:和 其中ui 和vi 等于“1”或者“0”。比较u1和v1:如果u1v1,不发送任何数据,转到步骤3;如果u1=v1,就发送二进制符号u1。比较u2和v2:如果u2v2,不发送任何数据,转到步骤3;如果u2=v2,就发送二进制符号u2。,4.2 算术编码,29,这种比较一直进行到两个符号不相同为止,然后进入步骤3。步骤3:n加1,读下一个符号。假设第n个输入符号为xn=ai,按照以前的步骤把这个间隔分成如下所示的子间隔:令L=In,R=rn和dn=rn-In,然后转到步骤2。,4.2 算术编码,30,表4-05 编码过程,4.2 算术编码,3
15、1,表4-06 译码过程,4.2 算术编码,32,例4.3 假设有4个符号的信源,它们的概率如表4-07所示:表4-07 符号概率,4.2 算术编码,33,输入序列为xn:a2,a1,a3,。它的编码过程如图4-04所示,现说明如下。输入第1个符号是x1=a2,可知i=2,定义初始间隔 0.5,0.75),由此可知 d1=0.25,左右边界的二进制数分别表示为:L0.5=0.1(B),R0.70.11(B)。按照步骤2,u1=v1,发送1。因u2v2,因此转到步骤3。,4.2 算术编码,34,输入第2个字符x2=a1,i=1,它的子间隔 0.5,0.625),由此可得d2=0.125。左右边界
16、的二进制数分别表示为:L0.5=0.100(B),R0.101(B)。按照步骤2,u2=v2=0,发送0,而u3和v3不相同,因此在发送0之后就转到步骤3。,4.2 算术编码,35,输入第3个字符,x3=a3,i=3,它的子间隔 0.59375,0.609375),由此可得d3=0.015625。左右边界的二进制数分别表示为:L0.59375=0.10011(B),R0.609375=0.100111(B)。按照步骤2,u3=v3=0,u4=v4=1,u5=v5=1,但u6和v6不相同,因此在发送011之后转到步骤3。发送的符号是:10011。被编码的最后的符号是结束符号。,4.2 算术编码,
17、36,图4-04 算术编码概念,4.2 算术编码,37,就这个例子而言,算术解码器接受的第1位是“1”,它的间隔范围就限制在0.5,1),但在这个范围里有3种可能的码符 a2,a3和 a4,因此第1位没有包含足够的译码信息。在接受第2位之后就变成“10”,它落在0.5,0.75)的间隔里,由于这两位表示的符号都指向a2开始的间隔,因此就可断定第一个符号是 a2。在接受每位信息之后的译码情况如下表4-08所示。,4.2 算术编码,38,表4-08 译码过程表,4.2 算术编码,39,在上面的例子中,我们假定编码器和译码器都知道消息的长度,因此译码器的译码过程不会无限制地运行下去。实际上在译码器中
18、需要添加一个专门的终止符,当译码器看到终止符时就停止译码。在算术编码中需要注意的几个问题:,4.2 算术编码,40,(1)由于实际的计算机的精度不可能无限长,运算中出现溢出是一个明显的问题,但多数机器都有16位、32位或者64位的精度,因此这个问题可使用比例缩放方法解决。(2)算术编码器对整个消息只产生一个码字,这个码字是在间隔0,1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码。(3)算术编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。,4.2 算术编码,41,算术编码可以是静态的或者自适应的。在静态算术编码中,信源符号的概率是固定的。在自
19、适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改,在编码期间估算信源符号概率的过程叫做建模。需要开发动态算术编码的原因是因为事先知道精确的信源概率是很难的,而且是不切实际的。当压缩消息时,我们不能期待一个算术编码器获得最大的效率,所能做的最有效的方法是在编码过程中估算概率。因此动态建模就成为确定编码器压缩效率的关键。,4.2 算术编码,42,练习:设英文元音字母采用固定模式符号概率分配如下:字符:A E IOU概率:0.2 0.30.10.20.2试用算术编码对字符串EAIO进行编码。,4.2 算术编码,43,EAIO的编码为:0.2336,0.2348),现实中有许多
20、这样的图像,在一幅图像中具有许多颜色相同的图块。在这些图块中,许多行上都具有相同的颜色,或者在一行上有许多连续的像素都具有相同的颜色值。在这种情况下就不需要存储每一个像素的颜色值,而仅仅存储一个像素的颜色值,以及具有相同颜色的像素数目就可以,或者存储一个像素的颜色值,以及具有相同颜色值的行数。这种压缩编码称为行程编码(run length encoding,RLE),具有相同颜色并且是连续的像素数目称为行程长度。,4.3 RLE编码,44,为了叙述方便,假定有一幅灰度图像,第n行的像素值如图4-05所示:,图4-05 RLE编码的概念,4.3 RLE编码,45,用RLE编码方法得到的代码为:8
21、0315084180。代码中用黑体表示的数字是行程长度,黑体字后面的数字代表像素的颜色值。例如黑体字50代表有连续50个像素具有相同的颜色值,它的颜色值是8。,4.3 RLE编码,46,对比RLE编码前后的代码数可以发现,在编码前要用73个代码表示这一行的数据,而编码后只要用11个代码表示代表原来的73个代码,压缩前后的数据量之比约为7:1,即压缩比为7:1。这说明RLE确实是一种压缩技术,而且这种编码技术相当直观,也非常经济。RLE所能获得的压缩比有多大,这主要是取决于图像本身的特点。如果图像中具有相同颜色的图像块越大,图像块数目越少,获得的压缩比就越高。反之,压缩比就越小。,4.3 RLE
22、编码,47,译码时按照与编码时采用的相同规则进行,还原后得到的数据与压缩前的数据完全相同。因此,RLE是无损压缩技术。RLE压缩编码尤其适用于计算机生成的图像,对减少图像文件的存储空间非常有效。,4.3 RLE编码,48,然而,RLE对颜色丰富的自然图像就显得力不从心,在同一行上具有相同颜色的连续像素往往很少,而连续几行都具有相同颜色值的连续行数就更少。如果仍然使用RLE编码方法,不仅不能压缩图像数据,反而可能使原来的图像数据变得更大。请注意,这并不是说RLE编码方法不适用于自然图像的压缩,相反,在自然图像的压缩中还真少不了RLE,只不过是不能单纯使用RLE一种编码方法,需要和其他的压缩编码技
23、术联合应用。,4.3 RLE编码,49,4.4.1 词典编码的思想,4.4 词典编码,有许多场合,开始时不知道要编码数据的统计特性,也不一定允许你事先知道它们的统计特性。因此,人们提出了许许多多的数据压缩方法,企图用来对这些数据进行压缩编码,在实际编码过程中以尽可能获得最大的压缩比。这些技术统称为通用编码技术。词典编码(Dictionary Encoding)技术就是属于这一类,这种技术属于无损压缩技术。,50,4.4.1 词典编码的思想,词典编码(dictionary encoding)的根据是数据本身包含有重复代码这个特性。例如文本文件和光栅图像就具有这种特性。词典编码法的种类很多,归纳起
24、来大致有两类。第一类词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用已经出现过的字符串替代重复的部分,它的输出仅是指向早期出现过的字符串的“指针”。这种编码概念如图4-06所示。,51,图4-06 第一类词典法编码概念,4.4.1 词典编码的思想,52,这里所指的“词典”是指用以前处理过的数据来表示编码过程中遇到的重复部分。这类编码中的所有算法都是以Abraham Lempel和Jakob Ziv在1977年开发和发表的称为LZ77算法为基础的,例如1982年由Storer和Szymanski改进的称为LZSS算法就是属于这种情况。,4.4.1 词典编码的思想,53
25、,第二类算法的想法是企图从输入的数据中创建一个“短语词典(dictionary of the phrases)”,这种短语不一定是像“严谨勤奋求实创新”和“国泰民安是坐稳总统宝座的根本”这类具有具体含义的短语,它可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中的短语的“索引号”,而不是短语本身。这个概念如图4-07所示。,4.4.1 词典编码的思想,54,图4-07 第二类词典法编码概念,4.4.1 词典编码的思想,55,J.Ziv和A.Lempel在1978年首次发表了介绍这种编码方法的文章LZ78算法。在他们的研究基础上,Terry A.Wel
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 Chapter04
链接地址:https://www.31ppt.com/p-6560896.html