数据压缩技术.ppt
《数据压缩技术.ppt》由会员分享,可在线阅读,更多相关《数据压缩技术.ppt(85页珍藏版)》请在三一办公上搜索。
1、多媒体技术与应用,第3章 数据压缩技术第4章 数据存储技术第5章 数字音频技术第6章 数字图形图像技术第7章 数字视频技术第8章 网络多媒体技术第9章 多媒体操作系统,第3章 数据压缩技术,多媒体技术的核心是计算机实时地综合处理声音、文字、图形、图像等信息,而为了使计算机能够处理这些信息,就必须对它们进行数字化,即把那些在时间和幅度上连续变化的声音、图形和图像信号等,转换成计算机能够处理的、在时间和幅度上均为离散量的数字信号。这个过程,就称为多媒体数据编码。20世纪90年代以来,移动通信等无线接入和多媒体技术的大量引入,同时受到频带的限制,迫使人们采用压缩编码,如今,数据压缩技术的应用已经有了
2、一些封装性很好的软件工具和方法。,3.1 多媒体信息的计算机表示,多媒体信息的主要类型有文本(text)、语音(voice)、音响(audio)、矢量图(vector graphics)、位图(bitmap)和视频(video)等。通常,数字化的视频和音频信号其数据量是十分巨大的。例如,一幅640480点阵的彩色图像(6位色,即65536种颜色/像素)数据量约为4.92MB;对于电视信号,如果以每秒25帧图像的速度进行播放,则要求这种信号必须以不低于122.9Mb/s速度进行数据传输,才不至于造成失真;而音频信号,如果采样频率为 44.1kHz,量化为16位双声道立体声,则650MB的光盘只能
3、存放l个小时的播放量,并且要求其传输速率不低于1.4Mb/s。,3.1 多媒体信息的计算机表示,为了达到令人满意的图像、视频画面质量和听觉效果,多媒体系统必须解决视频、音频信号数据的大容量存储和实时传输问题。而这样大的数据量和这么高的数据传输率,对于任何一个多媒体系统都是不小的负担。另一方面,这些多媒体数据之间往往具有很大的相关性和冗余性,确实具有很大的压缩潜力。,3.1 多媒体信息的计算机表示,以位图(BMP)图像为例,图像数据中像素与像素之间无论是在行方向还是在列方向都具有很大的相关性,因而整体上数据的冗余度很大。在允许一定限度失真的前提下,可以对图像数据进行很大程度的压缩(例如转换成JP
4、G格式)。这里所说的失真一般都是在人眼允许的误差范围之内,压缩前后的图像如果不做非常细致的对比很难觉察出两者之间的差别。见图3-1。,图3-1 bmp图片与jpg图片的比较,a)bmp图片,900KB b)jpg图片,41.2KB,3.2 数据压缩编码技术,为了解决存储、处理和传输多媒体数据的问题,除了提高计算机本身的性能以及通信信道的带宽外,更重要的则是对多媒体数据进行高效实时的压缩,压缩的目的是要减少多媒体信息的存储量和传输量,因此,数据压缩编解码自然成为了多媒体技术中的核心技术。,多媒体的数据量、信息量和冗余量,数据是用来记录和传送信息的,或者说数据是信息的载体。对于人类用计算机推理与计
5、算来说,真正有用的不是数据本身,而是数据所携带的信息。多媒体数据,尤其是图像、音频和视频,其数据量是相当大的,但那么大的数据量并不完全等于它们所携带的信息量。在信息论中,这就称为冗余,即:冗余是指信息存在的各种性质的多余度。,多媒体的数据量、信息量和冗余量,多媒体数据中存在的数据冗余主要有以下几种类型。1)空间冗余:这是图像数据中经常存在的一种冗余。在同一幅图像中,规则物体和规则背景(所谓规则是指表面是有序的而不是杂乱无章的排列)的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。2)时间冗余:这是序列图像(电视图像、运动图像)和语音数据中所经常包含的冗余。图像序列
6、中的两幅相邻的图像,后一幅图像与前一幅图像之间有较大的相关,这反映为时间冗余。同理,在语音中,由于人在说话时其发音的音频是一连续和渐变的过程,而不是一个完全时间上独立的过程,因而存在着时间冗余。空间冗余和时间冗余是当我们将图像信号看作是概率信号时所反应出的统计特性,因此有时这两种冗余也被称为统计冗余。,多媒体的数据量、信息量和冗余量,3)信息熵冗余(编码冗余):信息熵冗余是指数据所携带的信息量少于数据本身而反映出来的数据冗余。4)结构冗余:数字化图像(例如草席图像)中表面纹理存在着非常强的纹理结构,称之为在结构上存在冗余。5)知识冗余:有许多图像的理解与某些基础知识有相当大的相关性。例如人脸的
7、图像有固定的结构等。这类规律性的结构可由先验知识和背景知识得到,此类冗余为知识冗余。6)视觉冗余:人类的视觉系统由于受生理特性的限制,对于图像场的变化并不是都能感知的。这些变化如果不被视觉所察觉的话,我们仍认为图像是完好的或足够好的。这样的冗余,称之为视觉冗余。事实上,人类视觉系统的一般分辨能力估计为26灰度等级,而一般图像的量化采用的是28灰度等级。,多媒体的数据量、信息量和冗余量,说多媒体数据是可以被压缩的,是因为多媒体数据中存在着上述各种各样的冗余。针对不同类型的冗余,人们已经提出了许多方法用于实施对多媒体数据的压缩。,图像压缩预处理,所谓图像数据压缩,就是要在不影响或少影响图像质量的前
8、提下,尽量设法减少图像数据中的数据量。其首要任务,就是去除各种图像数据中的冗余数据。当然,删除冗余数据必然会给图像质量带来一定的损失,这就需要进行相应的预处理,来保证将这种损失降至最低限度。为此,图像压缩技术使用一些通用的预处理工具,如滤波器、色差信息二次抽样、量化、预测编码、运动补偿、变长编码和图像内插等附加的能提供有效压缩因子的图像变换算法。,数据压缩方法,数据压缩处理一般由两个过程组成:一是编码过程,即将原始数据经过编码进行压缩,以便于存储与传输;二是解码过程,即对编码数据进行解码,还原为可以使用的数据。按照出发点的不同,数据压缩方法有几种不同的分类结果。根据解码后的数据与原始数据是否完
9、全一致,数据压缩方法可分为可逆(无失真)编码方法和不可逆(有失真)编码方法两类。,数据压缩方法,用可逆编码方法压缩的图像,其解码图像与原始图像严格相同,即压缩是完全可恢复的或没有偏差的。用不可逆编码方法压缩的图像,其还原后的图像较之原始图像存在着一定的误差,但这种误差上限定在一定范围内,就视觉效果而言一般是可接受的。因此,不可逆编码方法大多被用在把人类视觉作为对象的场合下。根据压缩原理的不同,还可以区分如预测编码、变换编码、量化与向量量化编码、信息熵编码、分频带编码(又称子带编码)、结构编码、基于知识的编码等类别。此外,还有统计编码、行程编码和算术编码等方法。,无损压缩与有损压缩,常用的压缩编
10、码可以分为两大类:一类是无损压缩法,也称冗余压缩法、熵编码;另一类是有损压缩法,也称熵压缩法。,无损压缩与有损压缩,1.无损压缩法无损压缩法去掉或减少了数据中的冗余,但这些冗余值是可以重新插入到数据中的,因此,无损压缩是可逆的过程。例如,需压缩的数据长时间不发生变化,此时连续的多个数据值将会重复;这时若只存储不变样值的重复数目,显然会减少存储数据量,且原来的数据可以从压缩后的数据中重新构造出来(或者叫做还原,解压缩),信息没有损失。因此,无损压缩法也称无失真压缩。典型的无损压缩法主要是基于统计的编码方案,如霍夫曼(Huffman)编码、Fano-Shannon编码、算术编码、游程编码(Run-
11、length)、LZ编码等。,无损压缩与有损压缩,无损压缩法由于不会产生失真,因此在多媒体技术中一般用于文本数据的压缩,它能保证完全地恢复原始数据,如磁盘文件的压缩。但这种方法压缩比较低,如LZ编码、游程编码、霍夫曼编码的压缩比一般在2:1 5:1之间。,无损压缩与有损压缩,2.有损压缩法有损压缩法压缩了熵,会减少信息量。因为熵定义为平均信息量,而损失的信息是不能再恢复的,因此这种压缩法是不可逆的。常用的有损压缩方法有PCM(脉冲编码调制)、预测编码、变换编码(离散余弦变换方法)、插值和外推法(空域亚采样、时域亚采样、自适应)等。新一代的数据压缩方法,如矢量量化和子带编码、基于模型的压缩、分形
12、压缩和小波变换压缩等也已经接近或达到实用水平。,无损压缩与有损压缩,有损压缩法由于允许一定程度的失真,适用于重构信号不一定非要和原始信号完全相同的场合,可用于对图像、声音、动态视频等数据的压缩。如采用混合编码的JPEG标准,它对自然景物的灰度图像,一般可压缩几倍到十几倍,而对于自然景物的彩色图像,压缩比将达到几十倍甚至上百倍。采用ADPCM编码的声音数据,压缩比通常也能做到4:1 8:1。压缩比最为可观的是动态视频数据,采用混合编码的DVI多媒体系统,压缩比通常可达l00:1到200:1。,数据压缩算法的综合评价指标,数据压缩方法的优劣主要由所能达到的压缩倍数、从压缩后的数据所能恢复(或称重建
13、)的图像(或声音)的质量、以及压缩和解压缩的速度等几方面来评价。此外,算法的复杂性和延时等也是应当考虑的因素。衡量一种数据压缩技术好坏的指标综合起来就是:一压缩比要大;二实现压缩的算法要简单,压缩、解压速度快;三是恢复效果要好。,3.3 多媒体文件,在大多数系统中,普通的文本文件由字节的线性序列组成,而对多媒体而言,情况就复杂多了。首先,视频与音频完全不同,它们由不同的设备捕获(视频为CCD芯片,音频为麦克风),具有不同的内部结构(视频每秒有2530帧,音频每秒有44 100个样本),并且通过不同的设备来回放(视频为显示器,音频为扩音器)。,3.3 多媒体文件,此外,大多数电影现在针对的是全世
14、界的观众,而这些观众语言不同。这一情况有两种处理方法。对于某些国家,需要产生一个额外的声音轨迹,用当地语言进行配音,但是不包含音效。例如,在日本所有的电视都具有两个声道,电视观众看外国影片时可以听原声语言也可以听日语,遥控器上有一个按钮可以用来进行语言选择。在其他国家使用的是原始的声音轨迹,配以当地语言的字幕。,3.3 多媒体文件,除此之外,许多在电视中播放的电影现在也提供英文字幕,使讲英语但是听力较弱的人可以观看,结果,数字电影实际上可能由多个文件组成:一个视频文件、多个音频文件以及多个包含各种语言字幕的文本文件。DVD能够存放至多32种语言的字幕文件。,3.3 多媒体文件,因此,文件系统需
15、要跟踪每个文件的多个“子文件”。一种可能的方案是像传统的文件一样管理每个子文件(例如,使用i节点来跟踪文件的块),并且要有一个新的数据结构列出每个多媒体文件的全部子文件。另一方法是创造一种二维的i节点,使每一列列出每个子文件的全部块。一般而言,其组织必须能够使观众观看电影时可以动态地选择使用哪个音频及字幕轨迹。在各种情况下,还必须有保持子文件同步的某种方法,才能保证当选中的音频轨迹回放时与视频保持同步。,视频编码,人类的眼睛具有这样的特性:当一幅图像闪现在视网膜上时,在它衰退之前将保持几毫秒的时间。如果一个图像序列以每秒50或更多张图像闪现,眼睛并不会注意到它。所有基于视频或影片胶片的运动图像
16、系统都利用了这一原理产生活动的画面。为了理解视频系统,可以从简单的黑白电视开始。为了将二维图像表示为作为时间函数的一维电压,摄像机用一个电子束对图像进行横向扫描并缓慢地向下移动,记录下电子束经过处光的强度。在扫描的终点处,电子束折回,称为一帧(frame)。这一作为时间函数的光的强度以广播方式传播出去,接收机则重复扫描过程以重构图像。,视频编码,精确的扫描参数随国家使用的标准的不同而有所不同。NTSC有525条扫描线(为了在过去的圆形CRT上显示一个近似矩形的图像,顶端和底端的几条线是不显示的,只显示483条),水平与垂直方向的纵横比为4:3,每秒为30帧。欧洲的PAL和SECAM制式有625
17、条扫描线(只显示576条),纵横比也是4:3,每秒为25帧。,视频编码,虽然每秒25帧足以捕获平滑的运动,但是在这样的帧率下,有许多人会感觉到图像闪烁(因为新的图像尚未出现以前旧的图像就已经在视网膜上消失)。增加帧率就会对稀缺的带宽提出更多的要求,因此要采取不同的方法,即首先显示所有的奇数扫描线,接着再显示所有的偶数扫描线。此处的半帧称为一个场(field)。实验表明,尽管人们在每秒25帧时感觉到闪烁,但是在每秒50场时却感觉不到,这一技术被称为隔行扫描,否则就称为逐行扫描。,视频编码,彩色视频采用与单色(黑白)视频相同的扫描模式,只不过使用了三个同时运动的电子束而不是一个运动电子束来显示图像
18、,对于红、绿和蓝(RGB)这三个加性原色中的每一颜色使用一个电子束。这一技术能够工作是因为任何颜色都可以由红、绿和蓝以适当的强度线性叠加而构造出来。然而,为了在一个信道上进行传输,三个彩色信号必须组合成一个复合信号。为了使黑白接收机可以显示传输的彩色电视节目,NTSC、PAL和SECAM三种制式都将RGB信号线性组合为一个亮度信号和两个色度信号,并使用不同系数从RGB信号构造信号。,视频编码,由于人的眼睛对亮度信号比对色度信号敏感得多,所以色度信号不必非要精确地进行传输。因此,亮度信号应该用与旧的黑白信号相同的频率进行广播,从而使其可以被黑白电视机接收。两个色度信号则可以以更高的频率用较窄的波
19、段进行广播。某些电视机有标着亮度、色调和饱和度(或者是亮度、色彩和颜色)字样的旋钮或调节装置,可以分别控制这三个信号。理解亮度和色度对于理解视频压缩的工作原理是十分必要的。,视频编码,数字视频最简单的表示方法是帧的序列,每一帧由呈矩形栅格的图像要素即像素组成。对于彩色视频,每一像素RGB三色中的每种颜色用8个二进制位来表示,这样可以表示2241600万种不同的颜色,而人的眼睛没有能力区分这么多颜色。要产生平滑的运动效果,数字视频像模拟视频一样必须每秒至少显示25帧。然而,由于高质量的计算机显示器通常用存放在视频RAM中的图像每秒钟扫描屏幕75次或更多次,因此所有计算机显示器都采用逐行扫描。仅仅
20、连续刷新(也就是重绘)相同的帧三次就足以消除闪烁。,视频编码,换言之,运动的平滑性是由每秒不同的图像数决定的,而闪烁则是由每秒刷新屏幕的次数决定的。这两个参数是不同的。一幅静止的图像以每秒20帧的频率显示不会表现出断断续续的运动,但是却会出现闪烁,因为当一帧画面在视网膜上消退时下一帧还没有出现。一部电影每秒有20个不同的帧,在80Hz的刷新率下每一帧将连续绘制4次,这样不会出现闪烁,但是运动将是断断续续的。,音频编码,音频(声音)波是一维的声(压)波。当声波进入人耳的时候,鼓膜将振动,导致内耳的小骨随之振动,将神经脉冲送入大脑,这些脉冲被收听者感知为声音。类似地,当声波冲击麦克风的时候,麦克风
21、将产生电信号,将声音的振幅表示为时间的函数。,音频编码,音频波可以通过模数转换器(ADC)转换成数字形式。ADC以电压作为输入,并且生成二进制数作为输出。图3-2 a)中为一个正弦波的例子。为了数字化地表示该信号,我们可以每隔T秒对其进行采样,如图3-2 b)中的条棒高度所示。如果一个声波不是纯粹的正弦波,而是正弦波的线性叠加,其中存在的最高频率成分为f,那么以2f的频率进行采样就足够了。,图3-2 音频的采样与量化,音频编码,数字样本是不准确的。图3-2 c)中的样本只允许9个值,从-1.00到1.00,步长为0.25,因此,需要4个二进制位来表示它们。8位样本可以有256个不同的值,16位
22、样本可以有65 536 个不同的值。由于每一样本的位数有限而引入的误差称为量化噪声。如果量化噪声太大,耳朵就会感觉到。对声音进行采样的两个著名的例子是电话和音频CD。数字化的声音可以十分容易地在计算机上用软件进行处理。有许许多多的个人计算机程序可以让用户从多个信号源记录、显示、编辑、混合和存储声波。事实上,所有专业的声音记录与编辑系统如今都是数字化的。,3.4 视频压缩,由于数据量太大,处理多媒体信息的唯一希望是有可能进行大比例的数据压缩。在过去几十年,在大量研究的基础上已经发明了许多压缩技术和算法,使多媒体传输成为可能。所有的压缩系统都需要两个算法:一个用于在源端对数据进行压缩,另一个用于在
23、目的端对数据进行解压缩,这两个算法分别被称为编码算法和解码算法。这些算法具有某些不对称性,这对于理解数据压缩是十分重要的。,3.4 视频压缩,首先,对于许多应用而言,一个多媒体文档(比如说一部电影)只需要编码一次(当该文档存储在多媒体服务器上时),但是需要解码数千次(当该文档被客户观看时)。这一不对称性意味着,假若解码算法速度快并且不需要昂贵的硬件,那么编码算法速度慢并且需要昂贵的硬件也是可以接受的。从另一方面来说,对于诸如视频会议这样的实时多媒体而言,编码速度慢是不可接受的,在这样的场合,编码必须即时完成。,3.4 视频压缩,第二个不对称性是编码/解码过程不必是100可逆的。也就是说,当对一
24、个文件进行压缩并进行传输,然后对其进行解压缩时,用户可以期望取回原始的文件,准确到最后一位。对于多媒体,这样的要求是不存在的。视频信号经过编码和解码之后与原始信号只存在轻微的差异通常就是可以接受的。当解码输出不与原始输入严格相等时,系统被称为是有损的。所有用于多媒体的压缩系统都是有损的,因为这样可以获得更好的压缩效果。,视听业务视频编译码标准(H.261/263),1980年,国际电报电话咨询委员会CCITT所属的视频编码专家组的H.261建议被通过,这是CCITT制定的国际上第一个视频压缩标准,已成为可视电话和电话会议的国际标准。H.261名称为“视听业务视频编译码标准”,它最初是针对在IS
25、DN上实现电信会议应用,特别是面对面的可视电话和视频会议而设计的。,视听业务视频编译码标准(H.261/263),实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。根据图像传输清晰度的不同,码率变化范围在64Kb/s192Mb/s之间,编码方法包括DCT变换、可控步长线性量化、变长编码及预测编码等。,视听业务视频编译码标准(H.261/263),由于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据压缩 技术
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6296300.html