第五节数字视频压缩基础知识ppt课件.ppt
《第五节数字视频压缩基础知识ppt课件.ppt》由会员分享,可在线阅读,更多相关《第五节数字视频压缩基础知识ppt课件.ppt(71页珍藏版)》请在三一办公上搜索。
1、第五节 数字视频压缩基础知识 当今社会生活中,图像信息和通信起着非常重要的作用。数字视频压缩的实际应用是近10年来超大规模集成电路(VLSI)、比较好的压缩算法、视觉生理研究和标准等方面显著技术发展的结果。数字视频压缩广泛应用于视频传输、计算机多媒体和数值存储等方面。一、数字视频压缩的概念(一)数字视频压缩1数字视频压缩的优势 数字视频有许多优点,但是由于其占用带宽太宽而限制了它的实际应用。数字视频压缩技术的发展,推动了数字视频的实际应用。现以PAL制彩电的卫星传输为例说明压缩的作用和意义。我国PLA制彩电的视频带宽Fc=6.0MHz。根据奈斯特定理,取样频率Fs2Fc.CCIR601建议书规
2、定:亮度信号的取样频率为13.5MHz,色度信号的取样频率为6.75MHz,每个取样8bit,则传输PAL制彩电所需要的传输速率为13.5MHz8bit+6.75MHz8bit=216MB/s(2-28)这样高的传输频率,采用2PSK调制,所需传输带宽大于200MHz,即使采用4PSK,所需传输带宽也要100MHz以上。在现存的传输媒介中,要占用这样宽的带宽来传送视频不仅困难,同时也是不经济的。,使用数字视频压缩技术,可以做到把216MB/s的速率压缩到8MB/s左右,而解压缩后的质量可以达到广播级。这样,在现行传输l路模拟电视信号的1个36MHz卫星转发器中,可以传输46路广播级压缩后的电视
3、信号。2数字视频压缩的过程 压缩基本上是这样一个过程:1个图像序列中前后帧图像之间存在着一定的相关性,这种相关性使得图像中存在大量的冗余信息。一般就利用图像之间的相关性来减少图像或图像组的内容信息,只保留少量非相关信息进行传输,接收机就利用这些非相关信息,按照一定的解码算法,可以在保证一定图像质量的前提下尽可能重现原始图像。一般地,数字视频压缩是从分量视频表达开始的,此时信号是以1个亮度分量、2个色度分量来表达的。最广为接受的数字分量视频格式是CCIR601,该建议使用了共结点模型的4:2:2采样结构。所谓共结点,是指每个彩色像素点由3个采样来描述:1个亮度采样、2个色差形成的色度采样,因为这
4、3个采样在时间上是重合的,所以称为共结点。在525行的系统中,每帧有483个有效行,每行有720个像素点;在625行的系统中,每帧有576个有效行。通过色度、亮度采样的结合,在不损害图像质量的同时,减少所需带宽得以实现。4:2:2中亮度信号的采样频率实际上是13.5 MHz,色差信号Cb.Cr的采样频率刚好是亮度采样频率的一半,6.75 MHz。因为625/50系统行频和525/60系统行频的最小公倍数是2.25MHz,所以将亮度信号和色差信号的取样频率数值取为2.25MHz的整数倍。,信号的主要部分是有一定可预知性的。一个极端的例子是正弦波信号,它有高度的可预知性,因为每个周期都是相同的,且
5、只有1个频率,这样就不需占用带宽:另一个极端的例子是,噪声信号完全不可预测。当然,实际上所有的信号都介于这两者之间。压缩技术总的来说就是要识别并去除这些冗余,从而减少数据量和所需带宽。(二)CCIR 601号建议 自1948年提出视频数字化的概念后,经过40年的探索,国际无线电咨询委员会(CCIR-Consultative Committee of lnternational Radio)于1982年提出了电视演播室数字编码的国际标准CCIR 601号建议,确定以亮度分量Y和两个色差分量R-Y.B-Y为基础进行编码,以作为电视演播室数字编码的国际标准。国际无线电咨询委员会成立于1927年,是国
6、际电信联盟(ITU)的常设机构之一,其主要职责是研究无线电通信和技术业务问题,并对这类问题提出建议书。这些建议书实际上就是标推。1993年,该委员会与国际频率登记委员会(IFRB)合并,成为先进国际电信联盟(ITU)无线电通信部门,简称ITU-R。,1CCIR 601号建议的3个规定。601号建议对彩色电视信号的编码方式、取样频率、取样结构都作了明确的规定。(1)规定彩色电视信号采用分量编码。所谓分量编码,就是彩色全电视信号在转换成数字形式之前,先被分离成亮度信号和色差信号,然后对它们分别进行编码。分量信号(Y、B-Y、R-Y)被分别编码后,再合成数字信号。(2)规定取样频率与取样结构。在4:
7、2:2等级的编码中,规定亮度信号和色差信号的取样频率分别为13.5MHz和6.75MHz,取样结构为正交结构,即按行、场、帧重复,每行中R-Y积B-Y的取样与奇次(I,3,5)Y的取样同位置,即取样结构是固定的,而取样点在电视屏幕上的相对位置不变。(3)规定编码方式。对亮度信号和2个色差信号进行线性PCM编码,每个取样点取8bit量化。同时,规定在数字编码时,不使用A/D转换的整个动态范围,只给亮度信号分配220个量化级,黑电平对应于量化级16,白电平对应于量化级235。为每个色差信号分配224个量化级,色差信号的零电平对应于量化级128。2CCIR 601号的初始建议(1)亮度抽样频率为52
8、5/60和625/50三大制式行频公倍数的2.25MHz的6倍,即Y、R-Y、B-Y三分量的抽样频率分别为13.5、6.75、6.75MHz。现行电视制式亮度信号的最大带宽是6MHz,13.5MHz26MHz=12MHz,满足奈奎斯特定理(抽样频率至少等于视频带宽的2倍)。考虑到抽样的样点结构应满足正交结构的要求,2个色差信号的抽样频率均为亮度信号抽样频率的一半。(2)抽样后采用线性量化,每个样点的量化比特数用于演播室为10bit,用于传输为8bit。,(3)建议2种制式有效行内的取样点数亮度信号取720个,2个色度信号各取360个,这样就统一了数字分量编码标准,使3种不同的制式便于转换和统一
9、。所以,有效行Y、R-Y、B-Y三分量样点之间的比例为4:2:2(720:360:360)。3CCIR 601号的补充建议1983年召开的国际无线电咨询委员会上又作了三点补充:(1)明确规定编码信号是经过预校正的Y、R-Y、B-Y信号。(2)相应于量化级0和255的码字专用于同步,1244的量化级用于视频信号。(3)进一步明确了模拟与数字行的对应关系,并规定了从数字有效行末尾至基准时间样点的间隔,对525/60和625/50两种制式分别为16个和12个样点。不论625行/50场或525行/60场,其数字有效行的亮度样点数均为720,色差信号的样点数均为360,以便于制式转换。若亮度样点数除以2
10、,就得到色差信号的数据。,二、压缩算法与编码(一)压缩算法的概念 压缩算法就是通过一些运算将文件缩小的一系列运算方法,通常把数据经过压缩和解压缩的过程称为编码和解码。视频压缩的目标是在尽可能保证视觉效果的前提下减少视频数据率。视频压缩比一般指压缩后的数据量与压缩前的数据量之比。由于视频是连续的静态图像,因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处,但是,运动的视频还有其自身的特性,因此在压缩时还应考虑其运动特性才能达到高压缩的目标。1有损数据压缩和无损数据压缩 无损数据压缩(Lossless Compression)方法是指数据经过压缩后,信息不受损失,还能完全恢复到压缩前的原样。
11、它和有损数据压缩相对。这种压缩的压缩比通常小于有损数据压缩的压缩比。有损数据压缩(Loss Coml)ression)方法是经过压缩、解压的数据与原始数据不同但非常接近的压缩方法。有损数据压缩又称破坏型压缩,即将次要的信息数据舍弃,牺牲一些质量来减少数据量,使压缩比提高。它是与无损数据压缩对应的压缩方法。根据各种格式设计的不同,有损数据压缩都会有生成损失(Generation Loss),压缩与解压文件都会带来渐进的质量下降。这种方法经常用于因特网,尤其是流媒体及电话领域。,有损数据压缩意味着解压缩后的数据与压缩前的数据不一致,在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢
12、失的信息不可恢复。几乎所有高压缩的算法都采用有损数据压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损数据压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。2帧内和帧间压缩 帧内(Intraframe)压缩也称为空间压缩(Spatial Compression)。当压缩1帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损数据压缩算法,由于帧内压缩时各个帧之间没有相互关系,因此压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩质量。帧间(In
13、terframe)压缩也称为时间压缩(Temporal Compression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或说前后两帧信息变化很小的特点,也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩一般是无损的。帧差值(Frame Differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。,3对称和不对称编码 对称性(Symmetric)是压缩编码的一个关键特征。对称意味着压
14、缩和解压缩占用相同的计算处理能力和时间;对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其他多媒体应用中,一般是把视频预先压缩处理好,而后再播放,因此可以采用不对称(Asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间要多得多。例如,压缩一段3min的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有3min。(二)压缩算法的实现 1压缩算法的层次 压缩算法通常分几个层次完成压缩。对于MPE
15、G算法,是采用3个层次完成压缩,即带宽压缩、匹配主观的有损失压缩和最后一层的无损失压缩。(1)带宽压缩:主要是源分解力和目标比特率匹配及降低色度的分解力,达到主观上满意的程度。(2)匹配主观的有损失压缩:压缩算法本身是利用波形分析和主观适配的量化来去掉空间冗余和时间冗余,在这个层次压缩是有损失的。,(3)最后一次的无损失压缩:通过把固定长度和可变长度编码进行句法组合,而无损失地把信息变换到比特流中去。2压缩的基本算法 压缩算法依赖于以下两种基本方法:(1)运动补偿法。以像块为基础的运动补偿,用于减少时间冗余。运动补偿的时间预测方法用来开拓视频信号很强的时间相关法。时间预测既适用于有因果关系的预
16、测器(即纯预测编码),也适用于无因果关系的预测器(即内插编码)。(2)离散余弦变换法。以变换(离散余弦变换,DCT)为基础的压缩,用于减少空间冗余。减少空间冗余的方法(DCT方法)直接用于信源图像及时间预测后的误差信号上。预测误差信号可利用降低空间冗余(88DCT)进一步压缩与运动有关的信息,以1616的像块为基础,并与空间信息一块传输。目前用于数据压缩的算法有多种,见表2-5。,表2-5 数据压缩方法,(三)图像编码 1图像编码类型 图像类型有时称为帧类型,一般有4种:I图像(I帧)、P图像(P帧)、B图像(B帧)、D图像(D帧)。I图像或称为内图像(内码帧),它们采用帧内编码,不参考任何其
17、他帧而进行编码,是完整的独立编码帧,必须存储或传输。P图像或称为预测图像(预测帧),参照前一个I帧或P帧作运动补偿编码。B图像或称为双向预测图像(双向预测帧),参照前一个或后二个I帧或P帧作双向运动补偿编码,即利用来自前一图像和以后一图像的内插进行编码。D图像或称为直流图像(直流帧),其中,仅低频分量进行编码,只用于快速向前搜索方式,是为快放功能设计的。其中,B和P图像常称为中间图像(Interpictures)。1个典型的编码方案会含有I、P、B图像的混合场,典型方案在每1015个图像会有1个I图像,而在相邻的I和P图像之间会有2个B图像。,2视频编码原理 视频图像数据有极强的相关性,也就是
18、说有大量的冗余信息。其中,冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉(去除数据之间的相关性);压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。(1)去时域冗余信息。使用帧间编码技术可去除时域冗余信息,它包括以下三部分:1)运动补偿。运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。2)运动表示。不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。3)运动估计。运动估计是从视频序列中抽取运动信息的一整套技术。通用的压缩标准都使用基于块的运动估计和运动补偿。(2)去空域冗余
19、信息。主要使用帧间编码技术和熵编码技术去除空域冗余信息:1)变换编码。帧内图像和预测差分信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间,使其相关性下降、数据冗余度减小。2)量化编码。经过变换编码后,产生一批变换系数,对这些系数进行量化,使编码器的输出达到一定的位率。这一过程将导致精度的降低。,3)熵编码。熵编码是无损编码,它对变换、量化后得到的系数和运动信息进行进一步的压缩。3时间和空间压缩编码 如前所述,压缩算法以两项关键技术为基础,即时间压缩和空间压缩。时间压缩依赖于相邻图像之间的相似性,并利用预测和运动补偿;空间压缩依赖于图像各小范围内的冗余,并以DCT变换、量化和
20、熵编码技术为基础。预测出的图像是由运动补偿来改进的前一图像。运动矢量是对每一宏像块计算出来的。运动矢量适用于宏像块中的所有4个亮度像块。用于2个色度像块的运动矢量是从亮度矢量计算出来的。这种算法依赖于如下的设想:在一个宏像块内,相邻图像之间的差异可以简单地表示为矢量变换。内插(或双向预测)产生高度的压缩,因为图像简单地表示为过去与未来I或P图像之间的内插(这又是在宏像块一级上完成的)。图像不是以显示顺序传输的,而是以解码器要求图像将比特流的解码顺序传输的,即该解码器在任何内插或预测的图像可被解码之前必须具有参考图像。空间压缩技术与DCT、量化和熵编码相似。压缩算法利用了每一像块内(88像素)的
21、冗余。所得出的压缩数据流由最适合被压缩图像类型的空间和时间压缩技术的组合构成。解码通过使用MPEG系统的编码来控制,这些编码被插入数据流中,以解释如何重建图像信息。,(四)视频编解码器 1视频编解码器的概念 视频编解码器(Codec)是指能够对1个信号或1个数据流进行变换的设备或程序。这里指的变换既包括将信号或数据流进行编码(通常是为了传输、存储或者加密)或提取得到1个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。历史上,视频信号是以模拟形式存储在磁带上的。随着Compact Disc的出现并进入市场,音频信号以数字化方式进行存储,视频信号也开始使用数字化格
22、式,一些相关技术也开始随之发展起来。编解码器经常应用在视频数据处理的视频监控系统、视频会议系统和流媒体等中。经过编码的音频或视频原始码流经常叫做Essence(本体),以区别于之后加入码流的元信息和其他用以帮助访问码流和增强码流鲁棒性的数据。大多数视频编解码器是有损的,目的是为了得到更大的压缩比和更小的文件大小。当然也有无损的编解码器,但是通常没有必要为了一些几乎注意不到的质量损失大大增加编码后文件的大小。除非该编码的结果还将在以后进行下一步的处理,此时连续的有损编码通常会带来较大的质量损失。,很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据。这
23、3种数据流可能会被不同的程序、进程或硬件处理,但是当它们传输或者存储时,通常是被封装在一起的。通常,这种封装是通过视频文件格式来实现的,如常见的*mpg、*.avi、*.mov、*mp4、*.rm、*.ogg或*.tta。这些格式中有的只能使用某些编解码器,而更多的则可以以容器的方式使用各种编解码器。一个复杂的平衡关系存在于以下因素之间:视频的质量、用来表示视频所需要的数据量(通常称为码率)、编码算法和解码算法的复杂度、针对数据丢失和错误的鲁棒性(Robustness)、编辑的方便性、随机访问、编码算法设计的完美性、端到端的延时及其他一些因素。音频和视频都需要可定制的压缩方法。编解码器对应的英
24、文Codec(Coder和Decoder简化而成的合成词语)和Decode通常指软件;当特指硬件时,通常使用Endec。2视频编解码器的应用 日常生活中,视频编解码器的应用非常广泛,如在DVD(MPEG-2)、VCD(MPEG-1)、各种卫星和陆上电视广播系统中,以及在互联网上。这些视频素材通常是使用很多种不同的编解码器进行压缩的,为了能够正确地浏览这些素材,用户需要下载并安装编解码器包一种为PC准备的编译好的编解码器组件。,由用户自己来进行视频的压缩已经随着DVD刻录机的出现而越来越风行。由于商店中贩卖的DVD通常容量比较大(双层),而目前双层DVD刻录机还不太普及,因此用户有时会对DVD的
25、素材进行二次压缩,使其能够在一张单面DVD上完整地存储。3视频编解码器的设计。一个典型的数字视频编解码器是分4步完成编码的,其解码仅仅是编码的反运算。(1)第一步是将从摄像机输入的视频从RGB色度空间转换到YCbCr色度空间。转换到YCbCr色度空间会带来两点好处;这样做部分解除了色度信号中的相关性,提高了可压缩能力;这样做将亮度信号分离出来,而亮度信号对视觉感觉是最重要的,相对来说色度信号对视觉感觉就不是那么重要,可以抽样到较低的分辨率(4:2:0或4:2:2)而不影响人观看的感觉。(2)第二步是对空域或时域抽样,以有效地降低原始视频数据的数据量。在逐行扫描中,其色度抽样生成4:2:0格式的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五节 数字视频压缩基础知识ppt课件 五节 数字视频 压缩 基础知识 ppt 课件
链接地址:https://www.31ppt.com/p-2133660.html