数据压缩技术.ppt
多媒体技术与应用,第3章 数据压缩技术第4章 数据存储技术第5章 数字音频技术第6章 数字图形图像技术第7章 数字视频技术第8章 网络多媒体技术第9章 多媒体操作系统,第3章 数据压缩技术,多媒体技术的核心是计算机实时地综合处理声音、文字、图形、图像等信息,而为了使计算机能够处理这些信息,就必须对它们进行数字化,即把那些在时间和幅度上连续变化的声音、图形和图像信号等,转换成计算机能够处理的、在时间和幅度上均为离散量的数字信号。这个过程,就称为多媒体数据编码。20世纪90年代以来,移动通信等无线接入和多媒体技术的大量引入,同时受到频带的限制,迫使人们采用压缩编码,如今,数据压缩技术的应用已经有了一些封装性很好的软件工具和方法。,3.1 多媒体信息的计算机表示,多媒体信息的主要类型有文本(text)、语音(voice)、音响(audio)、矢量图(vector graphics)、位图(bitmap)和视频(video)等。通常,数字化的视频和音频信号其数据量是十分巨大的。例如,一幅640480点阵的彩色图像(6位色,即65536种颜色/像素)数据量约为4.92MB;对于电视信号,如果以每秒25帧图像的速度进行播放,则要求这种信号必须以不低于122.9Mb/s速度进行数据传输,才不至于造成失真;而音频信号,如果采样频率为 44.1kHz,量化为16位双声道立体声,则650MB的光盘只能存放l个小时的播放量,并且要求其传输速率不低于1.4Mb/s。,3.1 多媒体信息的计算机表示,为了达到令人满意的图像、视频画面质量和听觉效果,多媒体系统必须解决视频、音频信号数据的大容量存储和实时传输问题。而这样大的数据量和这么高的数据传输率,对于任何一个多媒体系统都是不小的负担。另一方面,这些多媒体数据之间往往具有很大的相关性和冗余性,确实具有很大的压缩潜力。,3.1 多媒体信息的计算机表示,以位图(BMP)图像为例,图像数据中像素与像素之间无论是在行方向还是在列方向都具有很大的相关性,因而整体上数据的冗余度很大。在允许一定限度失真的前提下,可以对图像数据进行很大程度的压缩(例如转换成JPG格式)。这里所说的失真一般都是在人眼允许的误差范围之内,压缩前后的图像如果不做非常细致的对比很难觉察出两者之间的差别。见图3-1。,图3-1 bmp图片与jpg图片的比较,a)bmp图片,900KB b)jpg图片,41.2KB,3.2 数据压缩编码技术,为了解决存储、处理和传输多媒体数据的问题,除了提高计算机本身的性能以及通信信道的带宽外,更重要的则是对多媒体数据进行高效实时的压缩,压缩的目的是要减少多媒体信息的存储量和传输量,因此,数据压缩编解码自然成为了多媒体技术中的核心技术。,多媒体的数据量、信息量和冗余量,数据是用来记录和传送信息的,或者说数据是信息的载体。对于人类用计算机推理与计算来说,真正有用的不是数据本身,而是数据所携带的信息。多媒体数据,尤其是图像、音频和视频,其数据量是相当大的,但那么大的数据量并不完全等于它们所携带的信息量。在信息论中,这就称为冗余,即:冗余是指信息存在的各种性质的多余度。,多媒体的数据量、信息量和冗余量,多媒体数据中存在的数据冗余主要有以下几种类型。1)空间冗余:这是图像数据中经常存在的一种冗余。在同一幅图像中,规则物体和规则背景(所谓规则是指表面是有序的而不是杂乱无章的排列)的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。2)时间冗余:这是序列图像(电视图像、运动图像)和语音数据中所经常包含的冗余。图像序列中的两幅相邻的图像,后一幅图像与前一幅图像之间有较大的相关,这反映为时间冗余。同理,在语音中,由于人在说话时其发音的音频是一连续和渐变的过程,而不是一个完全时间上独立的过程,因而存在着时间冗余。空间冗余和时间冗余是当我们将图像信号看作是概率信号时所反应出的统计特性,因此有时这两种冗余也被称为统计冗余。,多媒体的数据量、信息量和冗余量,3)信息熵冗余(编码冗余):信息熵冗余是指数据所携带的信息量少于数据本身而反映出来的数据冗余。4)结构冗余:数字化图像(例如草席图像)中表面纹理存在着非常强的纹理结构,称之为在结构上存在冗余。5)知识冗余:有许多图像的理解与某些基础知识有相当大的相关性。例如人脸的图像有固定的结构等。这类规律性的结构可由先验知识和背景知识得到,此类冗余为知识冗余。6)视觉冗余:人类的视觉系统由于受生理特性的限制,对于图像场的变化并不是都能感知的。这些变化如果不被视觉所察觉的话,我们仍认为图像是完好的或足够好的。这样的冗余,称之为视觉冗余。事实上,人类视觉系统的一般分辨能力估计为26灰度等级,而一般图像的量化采用的是28灰度等级。,多媒体的数据量、信息量和冗余量,说多媒体数据是可以被压缩的,是因为多媒体数据中存在着上述各种各样的冗余。针对不同类型的冗余,人们已经提出了许多方法用于实施对多媒体数据的压缩。,图像压缩预处理,所谓图像数据压缩,就是要在不影响或少影响图像质量的前提下,尽量设法减少图像数据中的数据量。其首要任务,就是去除各种图像数据中的冗余数据。当然,删除冗余数据必然会给图像质量带来一定的损失,这就需要进行相应的预处理,来保证将这种损失降至最低限度。为此,图像压缩技术使用一些通用的预处理工具,如滤波器、色差信息二次抽样、量化、预测编码、运动补偿、变长编码和图像内插等附加的能提供有效压缩因子的图像变换算法。,数据压缩方法,数据压缩处理一般由两个过程组成:一是编码过程,即将原始数据经过编码进行压缩,以便于存储与传输;二是解码过程,即对编码数据进行解码,还原为可以使用的数据。按照出发点的不同,数据压缩方法有几种不同的分类结果。根据解码后的数据与原始数据是否完全一致,数据压缩方法可分为可逆(无失真)编码方法和不可逆(有失真)编码方法两类。,数据压缩方法,用可逆编码方法压缩的图像,其解码图像与原始图像严格相同,即压缩是完全可恢复的或没有偏差的。用不可逆编码方法压缩的图像,其还原后的图像较之原始图像存在着一定的误差,但这种误差上限定在一定范围内,就视觉效果而言一般是可接受的。因此,不可逆编码方法大多被用在把人类视觉作为对象的场合下。根据压缩原理的不同,还可以区分如预测编码、变换编码、量化与向量量化编码、信息熵编码、分频带编码(又称子带编码)、结构编码、基于知识的编码等类别。此外,还有统计编码、行程编码和算术编码等方法。,无损压缩与有损压缩,常用的压缩编码可以分为两大类:一类是无损压缩法,也称冗余压缩法、熵编码;另一类是有损压缩法,也称熵压缩法。,无损压缩与有损压缩,1.无损压缩法无损压缩法去掉或减少了数据中的冗余,但这些冗余值是可以重新插入到数据中的,因此,无损压缩是可逆的过程。例如,需压缩的数据长时间不发生变化,此时连续的多个数据值将会重复;这时若只存储不变样值的重复数目,显然会减少存储数据量,且原来的数据可以从压缩后的数据中重新构造出来(或者叫做还原,解压缩),信息没有损失。因此,无损压缩法也称无失真压缩。典型的无损压缩法主要是基于统计的编码方案,如霍夫曼(Huffman)编码、Fano-Shannon编码、算术编码、游程编码(Run-length)、LZ编码等。,无损压缩与有损压缩,无损压缩法由于不会产生失真,因此在多媒体技术中一般用于文本数据的压缩,它能保证完全地恢复原始数据,如磁盘文件的压缩。但这种方法压缩比较低,如LZ编码、游程编码、霍夫曼编码的压缩比一般在2:1 5:1之间。,无损压缩与有损压缩,2.有损压缩法有损压缩法压缩了熵,会减少信息量。因为熵定义为平均信息量,而损失的信息是不能再恢复的,因此这种压缩法是不可逆的。常用的有损压缩方法有PCM(脉冲编码调制)、预测编码、变换编码(离散余弦变换方法)、插值和外推法(空域亚采样、时域亚采样、自适应)等。新一代的数据压缩方法,如矢量量化和子带编码、基于模型的压缩、分形压缩和小波变换压缩等也已经接近或达到实用水平。,无损压缩与有损压缩,有损压缩法由于允许一定程度的失真,适用于重构信号不一定非要和原始信号完全相同的场合,可用于对图像、声音、动态视频等数据的压缩。如采用混合编码的JPEG标准,它对自然景物的灰度图像,一般可压缩几倍到十几倍,而对于自然景物的彩色图像,压缩比将达到几十倍甚至上百倍。采用ADPCM编码的声音数据,压缩比通常也能做到4:1 8:1。压缩比最为可观的是动态视频数据,采用混合编码的DVI多媒体系统,压缩比通常可达l00:1到200:1。,数据压缩算法的综合评价指标,数据压缩方法的优劣主要由所能达到的压缩倍数、从压缩后的数据所能恢复(或称重建)的图像(或声音)的质量、以及压缩和解压缩的速度等几方面来评价。此外,算法的复杂性和延时等也是应当考虑的因素。衡量一种数据压缩技术好坏的指标综合起来就是:一压缩比要大;二实现压缩的算法要简单,压缩、解压速度快;三是恢复效果要好。,3.3 多媒体文件,在大多数系统中,普通的文本文件由字节的线性序列组成,而对多媒体而言,情况就复杂多了。首先,视频与音频完全不同,它们由不同的设备捕获(视频为CCD芯片,音频为麦克风),具有不同的内部结构(视频每秒有2530帧,音频每秒有44 100个样本),并且通过不同的设备来回放(视频为显示器,音频为扩音器)。,3.3 多媒体文件,此外,大多数电影现在针对的是全世界的观众,而这些观众语言不同。这一情况有两种处理方法。对于某些国家,需要产生一个额外的声音轨迹,用当地语言进行配音,但是不包含音效。例如,在日本所有的电视都具有两个声道,电视观众看外国影片时可以听原声语言也可以听日语,遥控器上有一个按钮可以用来进行语言选择。在其他国家使用的是原始的声音轨迹,配以当地语言的字幕。,3.3 多媒体文件,除此之外,许多在电视中播放的电影现在也提供英文字幕,使讲英语但是听力较弱的人可以观看,结果,数字电影实际上可能由多个文件组成:一个视频文件、多个音频文件以及多个包含各种语言字幕的文本文件。DVD能够存放至多32种语言的字幕文件。,3.3 多媒体文件,因此,文件系统需要跟踪每个文件的多个“子文件”。一种可能的方案是像传统的文件一样管理每个子文件(例如,使用i节点来跟踪文件的块),并且要有一个新的数据结构列出每个多媒体文件的全部子文件。另一方法是创造一种二维的i节点,使每一列列出每个子文件的全部块。一般而言,其组织必须能够使观众观看电影时可以动态地选择使用哪个音频及字幕轨迹。在各种情况下,还必须有保持子文件同步的某种方法,才能保证当选中的音频轨迹回放时与视频保持同步。,视频编码,人类的眼睛具有这样的特性:当一幅图像闪现在视网膜上时,在它衰退之前将保持几毫秒的时间。如果一个图像序列以每秒50或更多张图像闪现,眼睛并不会注意到它。所有基于视频或影片胶片的运动图像系统都利用了这一原理产生活动的画面。为了理解视频系统,可以从简单的黑白电视开始。为了将二维图像表示为作为时间函数的一维电压,摄像机用一个电子束对图像进行横向扫描并缓慢地向下移动,记录下电子束经过处光的强度。在扫描的终点处,电子束折回,称为一帧(frame)。这一作为时间函数的光的强度以广播方式传播出去,接收机则重复扫描过程以重构图像。,视频编码,精确的扫描参数随国家使用的标准的不同而有所不同。NTSC有525条扫描线(为了在过去的圆形CRT上显示一个近似矩形的图像,顶端和底端的几条线是不显示的,只显示483条),水平与垂直方向的纵横比为4:3,每秒为30帧。欧洲的PAL和SECAM制式有625条扫描线(只显示576条),纵横比也是4:3,每秒为25帧。,视频编码,虽然每秒25帧足以捕获平滑的运动,但是在这样的帧率下,有许多人会感觉到图像闪烁(因为新的图像尚未出现以前旧的图像就已经在视网膜上消失)。增加帧率就会对稀缺的带宽提出更多的要求,因此要采取不同的方法,即首先显示所有的奇数扫描线,接着再显示所有的偶数扫描线。此处的半帧称为一个场(field)。实验表明,尽管人们在每秒25帧时感觉到闪烁,但是在每秒50场时却感觉不到,这一技术被称为隔行扫描,否则就称为逐行扫描。,视频编码,彩色视频采用与单色(黑白)视频相同的扫描模式,只不过使用了三个同时运动的电子束而不是一个运动电子束来显示图像,对于红、绿和蓝(RGB)这三个加性原色中的每一颜色使用一个电子束。这一技术能够工作是因为任何颜色都可以由红、绿和蓝以适当的强度线性叠加而构造出来。然而,为了在一个信道上进行传输,三个彩色信号必须组合成一个复合信号。为了使黑白接收机可以显示传输的彩色电视节目,NTSC、PAL和SECAM三种制式都将RGB信号线性组合为一个亮度信号和两个色度信号,并使用不同系数从RGB信号构造信号。,视频编码,由于人的眼睛对亮度信号比对色度信号敏感得多,所以色度信号不必非要精确地进行传输。因此,亮度信号应该用与旧的黑白信号相同的频率进行广播,从而使其可以被黑白电视机接收。两个色度信号则可以以更高的频率用较窄的波段进行广播。某些电视机有标着亮度、色调和饱和度(或者是亮度、色彩和颜色)字样的旋钮或调节装置,可以分别控制这三个信号。理解亮度和色度对于理解视频压缩的工作原理是十分必要的。,视频编码,数字视频最简单的表示方法是帧的序列,每一帧由呈矩形栅格的图像要素即像素组成。对于彩色视频,每一像素RGB三色中的每种颜色用8个二进制位来表示,这样可以表示2241600万种不同的颜色,而人的眼睛没有能力区分这么多颜色。要产生平滑的运动效果,数字视频像模拟视频一样必须每秒至少显示25帧。然而,由于高质量的计算机显示器通常用存放在视频RAM中的图像每秒钟扫描屏幕75次或更多次,因此所有计算机显示器都采用逐行扫描。仅仅连续刷新(也就是重绘)相同的帧三次就足以消除闪烁。,视频编码,换言之,运动的平滑性是由每秒不同的图像数决定的,而闪烁则是由每秒刷新屏幕的次数决定的。这两个参数是不同的。一幅静止的图像以每秒20帧的频率显示不会表现出断断续续的运动,但是却会出现闪烁,因为当一帧画面在视网膜上消退时下一帧还没有出现。一部电影每秒有20个不同的帧,在80Hz的刷新率下每一帧将连续绘制4次,这样不会出现闪烁,但是运动将是断断续续的。,音频编码,音频(声音)波是一维的声(压)波。当声波进入人耳的时候,鼓膜将振动,导致内耳的小骨随之振动,将神经脉冲送入大脑,这些脉冲被收听者感知为声音。类似地,当声波冲击麦克风的时候,麦克风将产生电信号,将声音的振幅表示为时间的函数。,音频编码,音频波可以通过模数转换器(ADC)转换成数字形式。ADC以电压作为输入,并且生成二进制数作为输出。图3-2 a)中为一个正弦波的例子。为了数字化地表示该信号,我们可以每隔T秒对其进行采样,如图3-2 b)中的条棒高度所示。如果一个声波不是纯粹的正弦波,而是正弦波的线性叠加,其中存在的最高频率成分为f,那么以2f的频率进行采样就足够了。,图3-2 音频的采样与量化,音频编码,数字样本是不准确的。图3-2 c)中的样本只允许9个值,从-1.00到1.00,步长为0.25,因此,需要4个二进制位来表示它们。8位样本可以有256个不同的值,16位样本可以有65 536 个不同的值。由于每一样本的位数有限而引入的误差称为量化噪声。如果量化噪声太大,耳朵就会感觉到。对声音进行采样的两个著名的例子是电话和音频CD。数字化的声音可以十分容易地在计算机上用软件进行处理。有许许多多的个人计算机程序可以让用户从多个信号源记录、显示、编辑、混合和存储声波。事实上,所有专业的声音记录与编辑系统如今都是数字化的。,3.4 视频压缩,由于数据量太大,处理多媒体信息的唯一希望是有可能进行大比例的数据压缩。在过去几十年,在大量研究的基础上已经发明了许多压缩技术和算法,使多媒体传输成为可能。所有的压缩系统都需要两个算法:一个用于在源端对数据进行压缩,另一个用于在目的端对数据进行解压缩,这两个算法分别被称为编码算法和解码算法。这些算法具有某些不对称性,这对于理解数据压缩是十分重要的。,3.4 视频压缩,首先,对于许多应用而言,一个多媒体文档(比如说一部电影)只需要编码一次(当该文档存储在多媒体服务器上时),但是需要解码数千次(当该文档被客户观看时)。这一不对称性意味着,假若解码算法速度快并且不需要昂贵的硬件,那么编码算法速度慢并且需要昂贵的硬件也是可以接受的。从另一方面来说,对于诸如视频会议这样的实时多媒体而言,编码速度慢是不可接受的,在这样的场合,编码必须即时完成。,3.4 视频压缩,第二个不对称性是编码/解码过程不必是100可逆的。也就是说,当对一个文件进行压缩并进行传输,然后对其进行解压缩时,用户可以期望取回原始的文件,准确到最后一位。对于多媒体,这样的要求是不存在的。视频信号经过编码和解码之后与原始信号只存在轻微的差异通常就是可以接受的。当解码输出不与原始输入严格相等时,系统被称为是有损的。所有用于多媒体的压缩系统都是有损的,因为这样可以获得更好的压缩效果。,视听业务视频编译码标准(H.261/263),1980年,国际电报电话咨询委员会CCITT所属的视频编码专家组的H.261建议被通过,这是CCITT制定的国际上第一个视频压缩标准,已成为可视电话和电话会议的国际标准。H.261名称为“视听业务视频编译码标准”,它最初是针对在ISDN上实现电信会议应用,特别是面对面的可视电话和视频会议而设计的。,视听业务视频编译码标准(H.261/263),实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。根据图像传输清晰度的不同,码率变化范围在64Kb/s192Mb/s之间,编码方法包括DCT变换、可控步长线性量化、变长编码及预测编码等。,视听业务视频编译码标准(H.261/263),由于H.261所针对的可视电话信号最初考虑是在一般电话网中传输的,带宽和码率是其考虑的核心问题。其每帧取样点数比较低,且采取抽帧传输的方法,无法满足数字电视压缩编码的要求,但H.261是此前压缩编码数十年研究的结果,成为以后JPEG和MPEG编码方法的重要基础。,视听业务视频编译码标准(H.261/263),H.263是关于低于64Kb/s比特率的窄带通道视频编码建议,其目的是能在现有的电话网上传输活动图像。H.263是在H.261建议的基础上发展起来的,其信源编码算法仍然是帧间预测和DCT混合编码。在H.261建议的基础上,H.263将运动矢量的搜索增加为半像素点搜索,同时又增加了无限制运动矢量、基于语法的算术编码、高级预测技术和PB帧编码等4个高级选项,从而达到了进一步降低码速率和提高编码质量的目的。,视听业务视频编译码标准(H.261/263),H.263采用运动视频编码中常见的编码方法,将编码过程分为帧内编码和帧间编码两个部分。帧内用改进的DCT变换并量化,在帧间采用1/2像素运动矢量预测补偿技术,使运动补偿更加精确,量化后使用改进的变长编码表(VLC)对量化数据进行嫡编码,得到最终的编码系数。H.263的编码速度快,其设计编码延时不超过150ms;码率低,在512Kb/s乃至384Kb/s带宽下仍可得到相当满意的图像效果,十分适用于需要双向编解码并传输的场合,如可视电话和网络条件不是很好的场合。,视听业务视频编译码标准(H.261/263),H.263建议草案于1995年11月完成。虽然在低比特率、低分辨率的应用中H.263有它的优点,但也有一定的局限性。对此,ITU-T对H.263进行了修改,于1998年1月提出了H.263+建议。H.263+又称为H.263版本2,它是H.263协议的扩展,增加了12种新的协商模式和附加特性,以扩大协议的应用范围,提高重建图像的主观质量,加强对编码比特率的控制。H.263提供了两种编码模式:帧内编码和帧间编码,相当于MPEG编码的I帧和P帧。,静止图像压缩编码标准(JPEG),在多媒体技术的发展过程中,静止和活动视频图像压缩标准的制定和推广起到了十分重要的作用。国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合成立“联合图像专家组”JPEG(joint photographic experts group),在ITU、ISO和IEC等其他标准组织的支持下,该小组致力于制定适用于连续色调、多极灰度、彩色或单色静止图像数据压缩的国际标准)经过5年细致的工作,于1991年3月提出了JPEG标准“多灰度静止图像的数字压缩编码”,这是一个适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准。,静止图像压缩编码标准(JPEG),它包含两部分:第一部分是无损压缩,即基于空间线性预测技术的无失真压缩算法,这种算法的压缩比很低;第二部分是有损压缩,这是基于离散余弦变换(DCT)和霍夫曼编码的有损压缩,也是目前主要应用的一种算法。这后一种算法进行图像压缩信息虽有损失,但压缩比可以很大,例如压缩比在20:1时,眼睛基本上看不出失真。JPEG标准对于多媒体而言是十分重要的,因为用于压缩运动图像的标准MPEG不过是分别对每一帧进行JPEG编码,再加上某些帧间压缩和运动补偿等额外的特征。JPEG定义在国际标准ISO 10918中,它具有4种模式和许多选项。,静止图像压缩编码标准(JPEG),JPEG确实很复杂,但由于它通常可以获得20:1或更好的压缩效果,所以获得广泛的应用。解码一幅JPEG图像需要反过来运行上述算法。JPEG大体上是对称的:解码一幅图像花费的时间与编码基本相同。,MPEG标准,MPEG(motion picture experts group)标准是ISO/IEC委员会针对全活动视频的压缩标准系列,是用于压缩视频的主要算法,并于1993年成为国际标准。MPEG包含MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21等。该标准包括MPEG视频、MPEG音频和MPEG系统三大部分。MPEG视频是面向位速率约为1.5Mbit/s的全屏幕运动图像的数据压缩;MPEG音频是面向每通道位速率为64、128和192kbit/s的数字音频信号的压缩;MPEG系统则面向解决多道压缩视频、音频码流的同步和合成问题。,MPEG标准,1.数字声像压缩标准(MPEG-1)MPEG标准MPEG-1(ISO 11172)设计用于视频录像机质量的输出(对NTSC制式为352240),它使用的位率为1.2Mbps。MPEG-2(ISO 13818)设计用于将广播质量的视频压缩至4Mbps到6Mbps,这样就可以适应NTSC或PAL制式的广播频道。MPEG的两个版本均利用了在电影中存在的两类冗余:空间冗余和时间冗余。空间冗余可以通过简单地用JPEG分别对每一帧进行编码而得到利用。互相连续的帧常常几乎是完全相同的,这就是时间冗余,利用这一事实可以达到额外的压缩效果。,MPEG标准,数字便携式摄像机使用的数字视频(DV)系统只使用类JPEG的方案,这是因为只单独对每一帧进行编码可以达到更快的速度,从而使编码可以实时完成。对于摄像机和背景绝对静止,而有一两个演员在四周缓慢移动的场景而言,帧与帧之间几乎所有的像素都是相同的。此时,仅仅将每一帧减去前一帧并且在差值图像上运行JPEG就相当不错。然而,对于摇动或缩放摄像机镜头的场景而言,这一技术将变得非常糟糕。此时需要某种方法对这一运动进行补偿,这正是MPEG要做的事情;实际上,这就是MPEG和JPEG之间的主要差别。,MPEG标准,2.通用视频图像压缩编码标准(MPEG-2)MPEG-2是一种既能兼容MPEG-1标准,又能满足高分辨率数字电视和高分辨率数字卫星接收机等方面要求的技术标准,它是由ISO的活动图像专家组和ITU-TS第15研究组于1994年共同制定的,在ITU-TS的协议系列中,被称为H.262。制定MPEG-2的初衷是得到一个针对广播电视质量(CCIR 601格式)视频信号的压缩编码标准,但实际上最后得到了一个通用的标准,它能在很宽的范围内对不同分辨率和不同输出比特率的图像信号有效地进行编码。,MPEG标准,在图像格式方面,有可能对诸如标准清晰度电视、高清晰度、隔行扫描、顺序扫描等各种分辨率和信号形式的影像进行编码。在声音格式方面,它扩充了MPEG-1的功能,是一种多通道/多语言的声音编码,其系统格式所规定的多路复用方式不仅能适应可忽视错误的环境,而且也能适应广播之类不能忽视错误的环境。另外,它还规定了单一节目和多节目的多路复用/同步方式。,MPEG标准,MPEG-2输出由三种不同的帧组成,观看程序必须对它们进行处理,这三种帧为:1)I帧:自包含的JPEG编码静止图像。2)P帧:与上一帧逐块的差。3)B帧:与上一帧和下一帧的差。,MPEG标准,I帧只是用JPEG编码的静止图像,沿着每一轴还使用了全分辨率的亮度和半分辨率的色度。在输出流中使I帧周期性地出现是十分必要的。其原因有三:首先,MPEG可以用于电视广播,而观众收看是随意的。如果所有的帧都依赖于其前驱直到第一帧,那么错过了第一帧的人就再也无法对随后的帧进行解码,这样使观众在电影开始之后就不能再进行收看。第二,如果任何一帧在接收时出现错误,那么进一步的解码就不可能再进行。第三,没有I帧,在进行快进或倒带时,解码器将不得不计算经过的每一帧,只有这样才能知道快进或倒带停止时帧的全部值。有了I帧,就可以向前或向后跳过若干帧直到找到一个I帧并从那里开始观看。由于上述原因,MPEG每秒将I帧插入到输出中一次或两次。,MPEG标准,与此相对照,P帧是对帧间差进行编码。P帧基于宏块的思想,宏块覆盖亮度空间中1616个像素和色度空间中88个像素。通过在前一帧中搜索宏块或者与其只存在轻微差异的宏块实现对一个宏块的编码。P帧的用途是:例如三个连续的帧具有相同的背景,但是在一个人所在的位置上存在差异。对于摄像机固定在三脚架上,而演员在摄像机面前活动的情形中,这种场景是常见的。包含背景的宏块是严格匹配的,但是包含人的宏块在位置上存在某一未知数量的偏移,编码时必须追踪到前一帧中相应的宏块。,MPEG标准,B帧与P帧相类似,不同的是它允许参考宏块既可以在前一帧中,也可以在后续的帧中,既可以在I帧中,也可以在P帧中。这一额外的自由可以改进运动补偿,并且在物体从前面(或后面)经过其他物体时非常有用。例如,在一场垒球比赛中,当三垒手将球掷向一垒时,可能存在某些帧其中垒球遮蔽了在背景中移动的二垒手的头部。在下一帧中,一垒手的头部可能在垒球的左面有一部分可见,头部的下一个近似可以从垒球己经通过了头部的后续的帧中导出。B帧允许一个帧基于未来的帧。,MPEG标准,要进行B帧编码,编码器需要在内存中同时保存三个解码的帧:过去的一帧、当前的一帧和未来的一帧。为了简化解码,各帧必须以依赖的顺序而不是以显示的顺序出现在MPEG流中。因而,当一段视频通过网络被观看时,即使有完美的定时,在用户的机器上也需要进行缓冲,对帧进行记录以便正常地显示。由于这一依赖顺序和显示顺序间的差异,试图反向播放一部电影而没有相当可观的缓冲和复杂的算法是无法工作的。,MPEG标准,有许多动作以及快速剪切(比如战争电影)的电影需要许多I型帧。而那种在导演对准了摄像机之后便出去喝咖啡,只留下演员背台词(比如爱情故事)的电影,就可以使用长段的P帧与B帧,而这两中帧结构与I帧相比使用很少的存储空间。,MPEG标准,3.低比特率音视频压缩编码标准(MPEG-4)运动图像专家组于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版,同年年底推出MPEG-4第二版,并于2000年年初正式成为国际标准。,MPEG标准,MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料收集与分散)等整合及压缩技术的需求而制定的国际标准。,MPEG标准,MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。MPEG-4标准同以前标准的最显著的差别在于它是采用基于对象的编码,即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。这样既方便对不同的对象采用不同的编码方法和表示方法,又有利于不同数据类型间的融合,并且这样也可以方便地实现对于各种对象的操作及编辑。,MPEG标准,与MPEG-1、MPEG-2相比,MPEG-4具有如下优点:1)基于内容的交互性。MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上传、下载、删除等。利用这些工具,用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容,并且这些工具提供了内容的操作和位流编辑功能,可应用于交互式家庭购物、淡入淡出的数字化效果等。2)高效的压缩性。MPEG-4基于更高的编码效率。同已有的或即将形成的其他标准相比,在相同的比特率下,它基于更高的视觉听觉质量,这就使得在低带宽的信道上传送视频、音频成为可能。同时,MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等。,MPEG标准,3)通用的访问性。MPEG-4提供了易出错环境的鲁棒性,来保证其在许多无线和有线网络以及存储介质中的应用。此外,MPEG-4还支持基于内容的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽、不同存储容量的传输信道和接收端。MPEG-4主要应用在因特网视音频广播、无线通信、静止图像压缩、电视电话、计算机图形、动画与仿真和电子游戏等领域。,MPEG标准,4.多媒体内容描述接口标准(MPEG-7)针对现有的国际标准中还没有能够解决多媒体信息定位问题的工具,运动图像专家组决定发展一个新的国际标准MPEG-7,旨在解决对多媒体信息描述的标准问题,并将该描述与所描述的内容相联系,以实现快速有效的搜索。只有首先解决了多媒体信息的规范化描述之后,才能更好地实现信息定位。该标准不包括对描述特征的自动提取。它的正式名称是“多媒体内容描述接口”,该标准于1998年10月提出,于2001年最终完成并公布。,MPEG标准,MPEG-7标准可以独立于其他MPEG标准使用,但MPEG-4中所定义的音频、视频对象的描述适用于MPEG-7。MPEG-7的适用范围广泛,既可应用于存储(在线或离线),也可用于流式应用(如广播、将模型加入互联网等),还可在实时或非实时的环境下应用。实时环境指的是当信息被捕获时是与所描述的内容相联系的。,MPEG标准,MPEG-7的目标是根据信息的抽象层次,提供一种描述多媒体素材的方法,以表示不同层次上用户对信息的需求。以视觉内容为例,较低抽象层将包括形状、尺寸、纹理、颜色、运动(轨道)和位置的描述。对于音频的较低抽象层包括音调、调式、音速及其变化、音响空间位置。最高层将给出语义信息,如“这是一个场景:一个鸭子正躲藏在树后并有一个汽车正在幕后通过。”抽象层与提取特征的方式有关:许多低层特征能以完全自动的方式提取,而高层特征需要更多人的交互作用。MPEG-7还允许依据视觉描述的查询去检索声音数据,反之也一样。,MPEG标准,MPEG-7标准的应用领域十分广泛,包括数字图书馆、多媒体目录服务、广播媒体选择、多媒体编辑、教育、娱乐、医疗应用和地理信息系统等领域都有潜在的应用价值。,MPEG标准,5.多媒体框架(MPEG-21)MPEG-21的正式名称为Multimedia Framework(多媒体框架),其目的是建立一个规范且开放的多媒体传输平台,让所有的多媒体播放装置都能透过此平台接收多媒体资料,使用者可以利用各种装置、透过各种网络环境去取得多媒体内容,而无须知道多媒体资料的压缩方式及使用的网络环境。同样地,多媒体内容提供者或服务业者也不会受限于使用者的装置及网络环境,针对多种不同压缩方法来提供多媒体内容。该标准正是致力于在大范围的网络上实现透明的传输和对多媒体资源的充分利用。,3.5 音频压缩,CD品质的音频需要一个1.411Mbps带宽的传送,在因特网的实际传送中需要进行有效的压缩。已经发展出许多不同的音频压缩算法,最流行的算法是拥有三个层(变体)的MPEG音频,其中MP3(MPEG音频层3)功能最强大也最出名,它属于MPEG视频压缩标准里的音频部分。,音频压缩方法,音频压缩可以用两种方法完成。在波形编码技术中,信号通过傅立叶变换变换成频率分量。另一种方法是感知编码,这种技术是在人类听觉系统中寻找某种细纹,用来对信号编码,这种信号听起来与人的正常收听相同,尽管在示波器上看起来却大相径庭。感知编码是基于心理声学的人们如何感知声音的科学。MP3正是基于感知编码。,音频压缩方法,感知编码的关键特性在于一些声音可以掩盖住其他声音。想象一个进行现场直播的长笛音乐会,突然间,附近的一群工人打开他们的风镐开始挖掘街道。这时没有人可以再听到笛子的声音,因为它已经被风镐的声音给掩盖了。从传送角度看,只编码风镐的频段就足够了,因为听众无论如何都听不到笛子的声音。这种技术就叫做频段屏蔽在一个频段里响亮的声音掩盖住另一频段中较柔和声音的能力,这种较柔和声音只有在没有响亮声音时才可以听到。事实上,即使风镐停止工作,在一个短时同内笛子的声音也很难再被听到,因为耳朵在开始工作时已经调低了增益,并且需要在一段时间之后才会再次调高增益。这种效果称为暂时屏蔽。,音频压缩方法,人们没有必要对那些功率在可听阈值之下的频率编码。通过跟踪那些被附近频段能量更强的信号所屏蔽的信号,可以省略越来越多的编码信号中的频率,以此来节约二进制位。甚至当某个频段中的一个强大信号停止后,出于对暂时屏蔽这一知识的了解,也会让我们在耳朵恢复期的时间段内省略掉那些被屏蔽的频率。MP3编码的实质就是对声音做傅立叶变换从而得到每个频率的能量,之后只传递那些不被屏蔽掉的频率,用尽可能少的二进制位数来编码这些频率。,MPEG音频压缩算法,多媒体应用中常用的压缩标准是MPEG音频压缩算法,它是一个基于心理声学模型进行压缩的算法,也是第一个高保真音频数据压缩的国际标准。它提供三个独立的压缩层次,供用户在复杂性和压缩质量之间权衡选择,这三层都可以在一个芯片上实现实时压缩和解压。1)第一层(Layer1)最为简单,压缩后的数据传输率为384kb/s,主要用于数字录音机(digital compact cassette,DCC)。2)第二层(Layer2)的复杂程度属于中等,压缩后的数据传输率为192kb/s,包括数字广播(digital audio broadcasting)的音频编码、CD-ROM的音频信号以及CD-I(CD-Interactive)和VCD的音频编码。,MPEG音频压缩算法,3)第三层(Layer3)最为复杂,但音质最佳,压缩后的数据传输率为64kb/s,尤其适用于ISDN的音频传输。我们常说的“MP3”就是指在这一层进行压缩的语音或音乐。,3.6 压缩软件WinZip和WinRAR,文件压缩软件的压缩率一般在10%以上,大大方便了文件的传输与保存。下面我们来了解两个常用的压缩软件的操作方法和应用技巧,即WinZip和WinRAR。,WinZip,在Windows环境下,WinZip以其优秀的压缩率、稳定的运行和快速升级获得了广泛的认同,是文件压缩软件的标准。在因特网上,通过搜索引擎可以很方便地找到并下载最新版本的WinZip软件,例如当前官方下载的最新版本是WinZip 17,软件大小29.58MB,更新时间2012-04-17,运行环境可以是Windows的各个版本。安装后,双击WinZip图标,