多媒体数据压缩编码标准.ppt
1,第4讲 多媒体数据压缩编码标准,2,4.1 静态图像压缩标准 JPEG,3,4.1.1 JPEG标准的主要内容,ISO/IEC 10918号标准“多灰度连续色调静态图像压缩编码”即JPEG标准,选定ADCT作为静态图像压缩的标准化算法。该标准为保证通用性,包含以下两种方式:空间方式 可逆编码 空间方式对于基本系统和扩展系统来说,被称为独立功能。DCT方式 非可逆编码,包含基本系统(必须保证的功能)和扩展系统(扩充功能),4,基本系统是实现DCT编码与解码所需的最小功能集,大多数的应用系统只要用此标准,就能基本上满足要求。扩展系统是为了满足更为广阔领域的应用要求而设置的。,5,4.1.2 JPEG静态图像压缩算法 1.基于DPCM的无失真编码,预测器,熵编码器,表说明,无失真编码器,源图像数据,压缩图像数据,图1 无失真编码简化框图,6,基于DPCM的无失真编码优点是硬件易实现,重建图像质量好。缺点是压缩比太低,大约为2:1。,7,工作原理是对X的预测值X,将X-X进行无失真熵编码。对X的求法见图给出的预测方式。,(a)X邻域,(b)预测方式,图2 预测器,8,2.基于DCT的有失真压缩编码,离散余弦变换量化处理DC系数的编码和AC系数的行程编码 熵编码,9,图3 基于DCT编码过程,FDCT,熵编码器,表说明,无失真编码器,源图像数据,压缩图像数据,量化器,表说明,88块,(YUV每个分量),10,图4 解码过程,熵解码器,IDCT,表说明,解码器,逆量化器,表说明,88块,压缩图像数据,恢复的图像数据,11,离散余弦变换,(1)首先把原始图像顺序分割成88子块;(2)采样精度为P位(二进制),把0,2P-1范围的无符号数变换成-2P-1,2P-1范围的有符号数,作为离散余弦正变换(FDCT)的输入;(3)在输出端经离散余弦逆变换(IDCT)后又得到一系列88子块,需将数值范围-2P-1,2P-1变换回0,2P-1来重构图像。,12,这里用的88 FDCT的数学定义为:F(u,v)=(1/4)C(u)C(v)x=07y=07 f(x,y)cos(2x+1)u/16)cos(2y+1)v/16)88 IDCT的数学定义为:f(x,y)=(1/4)u=07v=07 C(u)C(v)F(u,v)cos(2x+1)u/16)cos(2y+1)v/16)其中:C(u),C(v)=1/2 当u,v=0 C(u),C(v)=1 其他下面的编码针对FDCT输出的64个基信号的幅值(F(0,0),F(7,7)称作DCT系数)来进行,13,量化处理,量化是一个“多到一”的过程,失真原因关键是找最小量化失真的量化器,JPEG采用线性均匀量化器,定义为对64个DCT系数除以量化步长,然后四舍五入取整:FQ(u,v)=Integer RoundF(u,v)/Q(u,v)Q(u,v)是量化器步长,它是量化表的元素。量化表元素随DCT系数的位置和彩色分量不同有不同的值,量化表尺寸为88与64个变换系数一一对应。这个量化表应由用户规定(JPEG给出参考值-见后面表格),并作为编码器的一个输入。,14,表1 亮度量化表,15,表2 色度量化表,16,量化的作用是在一定主观保真度图像质量前提下,丢掉那些对视觉影响不大的信息,通过量化可调节数据压缩比。,17,DC系数的编码,64个变换系数经量化后,坐标u=v=0的F(0,0)称DC系数(直流分量),它即64个空域图像采样值的平均值。相邻88块之间DC系数有强相关性。JPEG对量化后的DC系数采用DPCM 编码,即对DIFF=DCi-DCi-1编码。,blocki-1,blocki,DCi-1,DCi,DC系数差分编码,18,AC系数的行程编码,其余63个交流系数(AC)采用行程编码。从左上方AC0,1开始沿对角线方向“Z”字形扫描直到AC7,7扫描结束,这样可增加行程中连续0的个数。AC系数编码的码字用两个字节表示,如图所示:,图5 Z字形扫描,19,图6 AC系数行程编码码字,两个非0值间连续0的个数,表示下一个非0值需要的bit数,下一个非0实际值,7,4,3,0,字节1,字节2,例子:对“,3,0,0,0,0,0,12,0,0,”编码,(5,4),(12),.,20,熵编码,为了进一步压缩数据,需对DC码和AC行程编码的码字再做基于统计特性的熵编码。JPEG建议的熵编码是Huffman编码和自适应二进制算术编码。熵编码可分成两步进行:把DC码和AC行程码转换为中间符号序列给这些符号赋以变长码字,21,AC系数熵编码的中间格式,熵编码的中间格式由两个符号组成:符号1:(行程,尺寸)符号2:(幅值)第一个信息参数“行程”表示前后两个非0的AC系数之间连续0的个数。第二个信息参数“尺寸”是后一个非0的AC系数幅值编码所需比特数。,22,行程取值范围为115,超过15时用扩展符号1(15,0)来扩充,63个AC系数最多增加3个扩展符号1。编码结束时用(0,0)表示。“尺寸”取值范围为010。“幅值”用以表示非0的AC系数的值,范围为-210,210-1(最长10bit),结构形式如下表所示。,23,1-1,12-3.-2,2.33-7.-4,4.74-15.-8,8.1567 89-511.-256,25651110-1023.-512,5121023,表3 符号2结构,24,DC系数的熵编码,对于直流分量DC也有类似于AC系数的编码格式符号1:(尺寸)符号2:(幅值)“尺寸”表示DC差值的幅值编码所需的比特数,而“幅值”表示DC差值的幅值,范围为-211,211-1。可在表3中多加一级,幅值尺寸以1到11比特表示。将63个AC系数表示成为符号1和符号2序列,其中连续0的长度超过15时,有多个符号1;块结束(EOB)时仅有一个符号1(0,0)。,25,“4,0,0,0,0,0,0,0,0,3,0”.4,3之间有31个0.(15,0),(15,0),(1,0),(3)可变长度熵编码就是对上述序列进行变长编码。对DC系数、AC系数中的符号1采用Huffman表中的变长码编码(VLC),这里Huffman变长码表必须作为JPEG编码器输入。符号2用码字长度在表3中给出的变长整数VLI码编码。VLI是变长码,但不是Huffman码。VLI的长度存放在VLC中,JPEG提供VLI码字表供用户使用,26,JPEG提供2套Huffman码表:亮度和色度。每套又有DC表和AC表各1个。共有4个表。表定义(亮度DC系数码表)16B说明码字长度:X00 01 05 01 01 01 01 01 01 00 00 00 00 00 00 00 第i个(1-16)元素值表示长度为i的Huffman码个数。紧跟一组值说明亮度表分类:X00 01 02 03 04 05 06 07 08 09 0A 0B,27,表4 亮度DC系数表,28,表5 色度DC系数表,29,表6 JPEG压缩效果评价,30,3.基于DCT的累进操作方式编码,顺序方式:每个图像分量的编码一次扫描完成的;累进方式:图像分量编码要经过多次扫描才完成。累进方式 第一次扫描只进行一次粗糙图像的扫描压缩,以相对于总的传输时间快得多的时间传输粗糙图像,并重建一帧质量较低的可识别图像;在随后的扫描中再对图像作较细的压缩,这时只传递增加的信息,可重建一幅质量提高一些的图像。这样不断累进,直到满意的图像为止。,31,需在量化器的输出与熵编码的输入之间,增加一个足以存储量化后DCT系数的缓冲区,对缓冲区中存储的DCT系数多次扫描,分批编码。有以下两种累进方式:频谱选择法 扫描中只对64个DCT变换系数中某些频带的系数进行编码、传送,随后对其他频带编码、传送,直到全部系数传送完毕为止。按位逼近法 沿着DCT量化系数有效位(表示系数精度的位数)方向分段累进编码。如第一次扫描只取最高有效位的n位编码、传送,然后对其余位进行编码、传送。,32,4.基于DCT的分层操作方式,分层方式是对一幅原始图像的空间分辨率,分成多个分辨率进行“锥形”的编码方法,水平(垂直)方向分辨率的下降以2的倍数因子改变。,图7 分层操作方式,33,分层操作方式的过程,(1)把原始图像空间分辨率降低。(2)对已降低分辨率的图像采用基于DCT的顺序方式、累进方式或无失真预测编码中的任何一种编码方法进行编码。(3)对低分辨率的图像解码,重建图像,使用插值滤波器,对它插值,恢复图像的水平和垂直分辨率。(4)把分辨率已升高的图像作为原始图像的预测值,对它们的差值采用基于DCT的顺序方式、累进方式或用无失真方式进行编码。(5)重复(3)、(4)直到图像达到完整的分辨率编码。,34,4.1.2 JPEG2000简介,基于Internet网络的多媒体应用,给图像编码提出了新的要求.2000年12月公布的新的JPEG 2000标准(ISO 15444),其目标是在高压缩率的情况下,如何保证图像传输的质量。JPEG中采用DCT变换考察整个时域过程的频域特征或整个频域过程的时域特征。JPEG2000采用以小波变换为主的多分辨率编码方式。JPEG2000统一了面向静态图像和二值图像的编码方式,是既支持低比率压缩又支持高比率压缩的通用编码方式。,35,该算法主要特点如下:(1)高压缩率。与JPEG相比,可修复约30的速率失真特性。JPEG和JPEG2000在压缩率相同时,JPEG2000的信噪比将提高30左右;(2)无损压缩。预测编码作为对图像进行无损编码的成熟方法被集成在JPEG2000中;(3)渐进传输。JPEG2000可实现以空间清晰度和信噪比为首的各种可调节性,从而实现渐进传输,即具有“渐现”特性.(4)感兴趣区域压缩。JPEG2000 支持所谓的“感兴趣区域”。,36,4.2 运动图像压缩标准MPEG,37,4.2.1 MPEG标准简介,MPEG标准是面向运动图像压缩的一个系列标准。最初MPEG专家组的工作项目是3个,即在1.5Mbps,10Mbps,40Mbps传输速率下对图像编码,分别命名为MPEG-1,MPEG-2,MPEG-3。MPEG-3后被取消.为了满足不同的应用要求,MPEG又将陆续增加其他一些标准MPEG-4,MPEG-7,MPEG-21。,38,MPEG算法编码过程和解码过程是一种非镜象对称算法(不对称),解码过程要比编码过程相对简单些。MPEG-1和MPEG-2只规定了解码的方案,重点将解码算法标准化。因而用硬件实现MPEG算法时,人们首先实现MPEG的解码器,如C-Cube公司CL450解码器系列。最近几年,随着MPC性能的提高,软件解压功能也逐渐得到支持。,39,4.2.2 MPEG-1系统,“用于数字存储媒体运动图像及其伴音速率为1.5Mbps的压缩编码”简称MPEG-1,作为ISO/IEC 11172号建议于1992年通过。主要用于在CD-ROM存储运动视频图像,它针对标准分辨率(NTSC制为352240;PAL制为352288)的图像进行压缩,每秒30帧画面,具备CD音质。它还用于数字电话网络上的视频传输,如非对称数字用户线路(ADSL)、视频点播、教育网络等。使用MPEG-1的压缩算法,可将一部120分钟长的电影压缩到1.2GB左右。因此,它被广泛地应用于VCD制作。,40,MPEG-1分为5个部分,(1)MPEG系统(11172-1),定义音频、视频及有关数据的同步;(2)MPEG视频(11172-2),定义视频数据的编码和重建图像所需的解码过程,亮度信号分辨率为360240,色度信号分辨率为180120;(3)MPEG音频(11172-3),定义音频数据的编码和解码;(4)一致性测试(11172-4);(5)软件模拟(11172-5)。,41,图2.15 MPEG-1解码器原型,42,MPEG-1编解码器原型:多路复合而成的码流假设以介质特定格式存储在数字存储介质(DSM)或网络上,标准不规定介质特定格式。系统解码器从输入多路复合流中抽取定时信息,并对输入流进行分流处理,输出两个基本流分别给视频和音频解码器。视频和音频解码器分别解码输出视频和声音信号。,43,系统、视频、音频和介质4个解码器之间用定时信息进行同步。多路复合流构造为2层:系统层和压缩层。系统解码输入的是系统层;而视频、音频解码器输入的是压缩层。,44,系统解码器执行两类操作:一类是作用在整个多路复合流上的操作,称为复合流操作;另一类是作用在单个基本流上的操作,称为特定流操作。系统层分为两个子层:一个子层称为包(pack),是复合流操作对象;另一个子层称为组(packet),它用于特定流操作。,45,MPEG音频标准的特点:音频信号采样率可以是32kHz,44.1kHz或48kHz。压缩后的比特流可以按以下4种模式之一支持单声道或双声道:提供给单音频通道的单声道模式;提供给两个独立的单音频通道的双-单声道模式;提供给立体声通道的立体声模式;联合立体声模式,利用立体声通道之间的关联或通道之间相位差的无关性,或者对两者同时利用。,46,MPEG音频标准提供3个独立的压缩层次,用户可在复杂性和压缩质量之间权衡选择。层1最简单,使用比特率384kbps,主要用于DCC;层2的复杂度中等,使用比特率192kbps左右,主要应用于数字广播的音频编码、CD-ROM上的音频信号以及CD-I和VCD。层3最为复杂,使用比特率64kbps,尤其适用于ISDN上的音频传输,有损压缩但音质保持逼真效果。MP3音乐 是利用 MPEG Audio Layer 3 的技术,声音采用 1:10 甚至 1:12 的压缩率,47,压缩后的比特流具有预定义的比特率之一。MPEG音频标准也支持用户使用预定义的比特率之外的比特率。编码后的比特流支持循环冗余校验(CRC)。MPEG音频标准还支持在比特流中载带附加信息。,48,MPEG视频数据流的结构,图2.16 MPEG-1数据体系结构,运动图像序列,图片组,图片,图片切片,宏块,块,8像素,49,运动序列 图像组 图像信号分3个部分:一个亮度信号Y和两个色度信号U、V。,50,图2.17 色度和亮度的位置关系 4:2:0采样结构亮度信号Y由偶数个行和偶数个列组成,色度信号U、V分别取Y信号在水平、垂直方向的1/2。如图所示,黑点代表色度U、V位置,亮度Y位置用白圈表示。,51,4:2:2采样结构,52,4:2:4采样结构,53,块:一个块由一个88的亮度信息或色度信息组成。宏块一个宏块由四个Y块,一个Cb色差块和一个Cr色差块组成,如图所示。图2.18 宏块的组成图像切片 由一个或多个连续的宏块构成。,Y,U,V,8X8,8X8,0,1,2,3,4,5,54,块:一个块由一个88的亮度信息或色度信息组成。宏块一个宏块由四个Y块,两个Cb色差块和两个Cr色差块组成,如图所示。,Y,U,V,0,1,2,3,4,5,6,7,4:2:2宏块结构,55,Y,U,V,0,1,2,3,块:一个块由一个88的亮度信息或色度信息组成。宏块一个宏块由四个Y块,两个Cb色差块和两个Cr色差块组成,如图所示。,4:4:4宏块结构,56,4.2.4 MPEG-1视频编码技术,主要问题:一方面无法达到很高的压缩比,另一方面用单一的静止帧内编码方法能最好地满足随机存取的要求。解决方法:对这两个方面做了折衷考虑。即为了减少时间上冗余性的基于块的运动补偿技术和基于DCT变换的减少空间上冗余性的ADCT技术,57,在MPEG中将图像分为3种类型:I图像 利用图像自身的相关性压缩,提供压缩数据流中的随机存取的点。P图像 用最近的前一个I图像(或P图像)预测编码得到(前向预测)。B图像 B图像在预测时,既可使用前一个图像作参照,也可使用下一个图像做参照或同时使用前后两个图像作为参照图像(双向预测)。,58,图2.19 帧间预测,1I,2B,3B,4B,5P,6B,7B,8B,1I,前向预测,双向预测,59,运动序列流的组成,图2.20 典型的图像类型的显示次序,1秒,参照帧间有2个B图像,每0.5秒1帧I图像,I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B,60,传输顺序,MPEG编码器需对上述图像重新排序,以便解码器高效工作,因为参照图像必须先于B图像恢复之前恢复。上述17帧图像重排后图像组次序为:,4,2,1,3,7,5,6,I,P,B,B,P,B,B,61,运动补偿技术,运动补偿技术主要用于消除P图像和B图像在时间上的冗余性提高压缩效率。在MPEG方案中,运动补偿技术工作在宏块一级。B图像宏块有4种类型 帧内宏块,简称I块;前向预测宏块,简称F块;后向预测宏块,简称B块;平均宏块,简称A块。对于P图像,其宏块只有I块和F块两种。,62,无论B图像和P图像,I块处理技术都与I图像中采用技术一致即ADCT技术。对于F块、B块和A块,MPEG都采用基于块的运动补偿技术。F块预测时其参照为前一个I图像或P图像B块预测时其参照为后一个I图像或P图像对于A块预测其参照为前后两个I图像或P图像,63,基于块的运动补偿技术,基于块的运动补偿技术,就是在其参照帧中寻找符合一定条件,当前被预测块的最佳匹配块。找到匹配块后,有两种处理方法:一是在恢复被预测块时,用匹配块代替;二是对预测的误差采用ADCT技术编码,在恢复被预测块时,用匹配块加上预测误差。,64,表2.8 宏块的预测方式,65,4.MPEG-1视频系统,图2.21 简化的视频编码框图,66,图2.22 基本的视频解码器框图,67,4.2.5 MPEG-2标准,MPEG-2(ISO/IEC 13818)标准制定于1994年。它利用网络提供的3100Mbps的数据传输率来支持具有更高分辨率图像的压缩和更高的图像质量。MPEG-2可支持交迭图像序列,支持可调节性编码,多种运动估计方式,提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量和带宽的要求。它与MPEG-1兼容的基础上实现了低码率和多声道扩展:MPEG-2可以将一部120分钟长的电影压缩到48GB(DVD质量),其音频编码可提供左右中及两个环绕声道、一个加重低音声道和多达7个伴音声道。,68,除了作为DVD的指定标准外,MPEG-2还可用于为广播、有线电视网、电缆网络等提供广播级的数字视频。不过对普通用户来说,由于现在电视机分辨率的限制,MPEG-2所带来的高清晰度画面质量(如DVD画面)在电视上效果并不明显,倒是其音频特性(如加重低音、多伴音声道等)得到了广泛的应用。MPEG-2 Video 定义了不同的功能档次(Profiles)每个档次又分为几个等级(Levels),一个等级为N的解码器能够对最高为该等级的数码流解码。,69,5个档次,简单型(Simple)基本型(Main)信噪比可调型(SNR Scalable)空间可调型(Spatial Scalable)增强型(High),70,4个等级,低级(Low)35228830,它面向VCR并与MPEG-1兼容;基本级(Main)72046030或72057625,它面向视频广播信号;高1440级(High-1440)1440108030或1440115225,它面向HDTV;高级(High)1920108030或1920115225,它面向HDTV。,71,11种规范,高级的基本型 MPHL高级的增强型 HPHL高-1440级的基本型 MPH1440高-1440级的空间可调型 SSPH1440高-1440级的的增强型 HPH1440基本级的简单型 SPML基本级基本型 MPML基本级的信噪比可调型 SNPML基本级的增强型 HPML低级的基本型 MPLL低级的信噪比可调型 SNPLL,72,MPEG-2音频,基本特性之一是向后与MPEG-1音频兼容。可以是5.1也可以是7.1通道的环绕立体声。5.1也称为“3/2-立体声加LFE”,其含义是播音现场前面可有3个喇叭通道(左、中、右),后面可有2个环绕声喇叭通道。LFE是低频音效的加强通道。7.1通道环绕立体声与5.1类似,它另有中左、中右2个喇叭通道。,73,MPEG-2编码方法,MPEG-2的编码方法和MPEG-1区别主要是在隔行扫描制式下,DCT变换是在场内还是在帧内进行由用户自行选择,亦可自适应选择。一般情况下,对细节多、运动部分少的图像在帧内进行DCT,而细节少、运动分量多的图像在场内进行DCT。MPEG-2采用可调型和非可调型两种编码结构。还可以使用一个基本层加上多个增强型的多层编码结构,这由用户按质量和压缩比要求选择使用.,74,图2.23 MPEG-2亮度宏块结构,75,4.2.6 MPEG-4标准,国际标准MPEG-4“甚低速率视听编码”于1998年11月公布,它针对低速率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。MPEG-4引入了AV对象(AVO),使得更多的交互操作成为可能:“AV对象”可以是一个孤立的人,也可以是这个人的语音或一段背景音乐等。MPEG-4对AV对象的操作主要有:采用AV对象来表示听觉、视觉或者视听组合内容;组合已有AV对象来生成复合的AV对象,并生成AV场景;对AV对象的数据灵活地多路合成与同步,以便选择合适的网络来传输这些AV对象数据;允许接收端用户在AV场景中对AV对象进行交互操作等。,76,MPEG-4标准主要构成部分:(1)传输多媒体集成框架(DMIF)。主要用于解决交互网络中、广播环境下以及光盘应用中多媒体应用的操作问题。它是MPEG-4制订的会话协议,用来管理多媒体数据流。通过传输多路合成比特信息来建立客户端和服务器端的连接与传输。(2)场景描述。场景声音视频对象间的关系的描述体现在两个层次:BIFS描述场景中对象的空间时间安排,观察者可以有与这些对象交互的可能性;在较低的层次上,对象描述子定义针对每个对象的基本流的关系,并提供诸如访问基本流需要的URL地址、译码器的特性、知识产权等其他信息。,77,MPEG-4具备与Web3D X3D和W3C SMIL的互操作性。XMT格式可在SMIL播放器、VRML 和 MPEG-4 播放器间互换。(3)音频编码。MPEG-4不仅支持自然声音,而且支持合成声音。MPEG-4的音频部分将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。支持MIDI和TTS.(4)视频编码。MPEG-4也支持对自然和合成的视觉对象的编码。合成的视觉对象包括2D、3D动画和人面部表情动画等。(5)缓冲区管理和实时解码。MPEG-4定义了一个系统解码模式(SDM),该解码模式描述了一种理想的处理比特流句法语义的解码装置,它要求特殊的缓冲区和实时模式。通过有效地管理,可以更好地利用有限的缓冲区空间。,78,与MPEG-1和2相比,MPEG-4更适于交互AV服务以及远程监控,其设计目标使它具有更广的适应性和可扩展性:MPEG-4传输速率可在4.8-64kbps之间,分辨率为176144,可以利用很窄的带宽通过帧重建技术压缩和传输数据。它将应用在数字电视、动态图像、互联网、实时多媒体监控、移动多媒体通信、Internet/Intranet上的视频流与可视游戏、DVD上的交互多媒体等方面。MPEG-4用MPEG-4压缩算法的ASF(高级流格式)可以将120分钟的电影压缩为300MB左右的视频流;采用MPEG-4压缩算法的DIVX(Digital Video Express)编码技术可以将120分钟的电影压缩600MB左右,也可以将一部 DVD影片压缩到 2 张 CD-ROM上.,79,MPEG-4属于一种高比率有损压缩算法,其图像质量始终无法和DVD的MPEG-2相比,毕竟DVD的存储容量较大。要想保证高速运动的图像画面不失真,必须有足够的码率,目前MPEG-4的码率虽然可以调到和DVD差不多,但总体效果还有不小的差距。因此,对图像质量要求较高的专业视频领域暂时还不能采用。,80,图2.25 MPEG-4视频编码器的算法方框图,81,图2.26 MPEG-4终端的构成(接收端),82,背景全景图+视频对象(VO)=合成图像图2.27 MPEG-4应用实例,83,4.3 视听通信编码解码标准H.26X,84,4.3.1 H.261方案,ITU推荐的H.261方案标题“64kbps视声服务用视象编码方式”,又称为P64kbps视频编码标准。P取值范围为1-30。P=1或2时,仅能支持QCIF(Quarter Common Intermediate Format)(176144)分辨率格式,每秒帧数较低的可视电话;当P6时,则可支持图像分辨率格式为CIF(Common Intermediate Format)(352288)的电视会议。,85,4.3.2 P64kbps视频压缩编码算法,P64kbps压缩算法采用基于DCT的变换编码和带有运动预测的DPCM预测编码的混合方法。P64kbps标准的压缩算法与MPEG-1标准有许多共同之处,只是传输速率P64kbps覆盖较宽的信道频带,而MPEG-1是基于较窄的频带上传输。,86,图2.28 H.261编码器,87,图2.29 利用CIF的优点,88,4.3.3 视频层次数据结构,P64kbps标准采用层次块的视频数据结构形式,使高压缩视频编码算法得以实现。P64kbps标准的视频编码定义一个视频数据结构CIF保证解码器对接收到的比特流进行没有二义性的正确解码。利用CIF格式,可使不同制式的各国电视信号变换为统一的中间格式,然后输入给编码器,从而使编码器本身不必意识信号是来自哪种制式的。H.261标准适合各种各样实时视觉应用,如位率不同(P不同),运动效果和图像质量不同,位率提高、画面质量改善。,89,图2.30 视频数据结构图,图像头,QCIF帧图,块组1,块组2,块组3,块组1头,宏块1,宏块2,宏块33,宏块1头,亮度块1,亮度块4,色度块1,色度块2,DCT系数,DCT系数,块结束,90,图2.31 图像数据层次结构,帧,QCIF,块组,1,2,3,4,5,6,宏块,8,CIF,块,8,91,为了适应B-ISDN的ATM传输需要,ITU与MPEG联合发布ISO/IEC 13818,分别称为H.262和MPEG-2标准,它与H.261和MPEG-1兼容。H.263是ITU-T制定的适合于低速视频信号的压缩标准。大多数用户相当一段时间内最方便的是公用电话线,以V.34为标准的调制解调器支持在电话线中传输速率可达28.8kbps或33.6kbps,甚至56kbps。H.263是在H.261基础上扩展形成的,支持的图像格式包括Sub-QCIF(12896),QCIF,CIF,4CIF,16CIF(14081152)等。其中主要采用的改进技术有:,视听业务视频压缩标准发展,92,(1)半像素精度的运动补偿 在H.261中,运动矢量的精度为1个像素,H.263运动矢量的估值精度达到半个像素。精度的提高使运动补偿后的帧间误差减少,从而降低了码率。(2)不受限的运动矢量 当运动跨越图像边界时,由运动矢量所确定的宏块位置可能有一部分落在边界之外,此时可以用边界上的像素值表示界外的像素值,从而降低预测误差。(3)用基于句法的算术编码代替Huffman编码(可选项)这是一种效率较高的自适应算术编码。,93,(4)先进的预测模式(可选项)对宏块中的4个亮度块分别进行运动估值获得4个运动矢量。虽然此时传输运动矢量的比特数增加一些,但由于预测误差的大幅度降低,仍然使总码率降低。(5)PB帧模式(可选项)虽然使用双向预测的B帧可以降低码率,但是却要引入附加的编码延时和解码延时。为了降低延时,H.263采用了P帧和B帧作为一个单元来处理的方式,即将P帧和由该帧与上一个P帧所共同预测的B帧一起进行编码。,94,4.4 H.264视频编码标准,H.264是由ITU-T的视频编码专家组(VCEG)与ISO/IEC的MPEG组成的联合视频工作组(JVT)共同制定的新一代视频压缩编码标准。该标准于2003年3月正式获得批准。,95,4.4 H.264视频编码标准,视频的各种应用必须通过各种网络传送,这要求一个好的视频方案能处理各种应用和网络接口。H.264为了解决这个问题,提供了很多灵活性和客户定制化特性。H.264的设计方案包含两个层次:视频编码层(VCL)和网络抽象层(NAL)。视频编码层主要致力于有效地表示视频内容,包括VCL编码器与VCL解码器,主要功能是视频数据压缩编码和解码。VCL的设计和以前的标准一样,也是采用运动补偿预测、变换编码、量化、熵编码的混合编码模式。但它采用了“回归基本”的简洁设计,不用众多的选项,获得了比H.263好得多的性能。,96,H.264主要有以下特点,编码效率高。在相同的重建图像质量下,H.264与H.263+、MPEG-4基本“档次”相比,最多可节省50%的码率。对信道时延的适应性较强。H.264既可工作于低时延模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合,如视频存储等。在编/解码器中采用复杂度可分级设计,支持不同网络资源下的分级编码传输。网络抽象层格式化VCL视频表示,为VCL提供一个与网络无关的统一接口,它负责对视频码流进行封装打包后使其在网络中传送。它采用了面向IP包的编码机制,有利于网络中的分组传输,支持网络中视频的流媒体传输。容错能力强:H.264加强了对误码和丢包的处理,提高解码器的差错恢复能力,可适应丢包率高、干扰严重的无线信道中的视频传输,能提供连续、流畅的高质量图像回放。网络的适应性强。H.264的码流能容易地在不同网络上传输。,97,H.264的主要特性,(1)运动补偿预测H.264的运动补偿支持以往的视频编码标准中大部分关键特性,而且灵活地添加了更多的功能,除了支持P帧、帧外,H.264还支持一种新的流间传送帧SP帧。码流中包含SP帧后,能在类似内容但有不同码率的码流之间快速切换,同时支持随机接入和快速回放模式。,98,H.264的主要特性,(2)4*4整数变换以前的标准,如H.263或MPEG-4,都是采用8*8的DCT。H.264使用了基于4*4像素块类似于DCT的变换,但使用的是以整数为基础的变换,不存在反变换因取舍而存在误差的问题。与浮点数相比,整数DCT会引起一些额外的误差,但因为DCT后的量化也存在量化误差,与之相比,整数DCT引起的量化误差影响并不大。此外,整数DCT还具有减少运算量和复杂度,有利于向定点DSP移植的优点。,99,H.264的主要特性,(3)基于空间预测的帧内编码视频编码是通过去除图像的空间与时间相关性来达到压缩的目的。空间相关性通过有效的变换来去除,如DCT、H.264的整数变换;时间相关性则通过帧间预测来去除。H.264在空域中将相邻块边沿的像素值直接进行外推,作为对当前块帧内编码图像的预测值,更有效地去除相邻块之间的相关性,极大地提高了帧内编码的效率。,100,H.264的主要特性,(4)量化 H.264中可选32种不同的量化步长,这与H.263中有31个量化步长很相似,但是在H.264中,步长是以12.5%的复合率递进的,而不是一个固定常数。,101,H.264的主要特性,(5)基于上下文的熵编码 视频编码处理的最后一步就是熵编码,H.264标准采用了两种基于上下文的熵编码:一种是上下文自适应的可变长编码(CAVLC);另一种是上下文自适应二进制算术编码(CABAC)。H.264除了具有编码效率高的特性外,还具有很强的容错能力和网络适应性。,102,4.5 声音压缩标准,103,4.5.1 声音编码,声音包括语音和音乐,是多媒体系统中两类重要数据。声音数据表征是一个一维时变系统,特别对于语音数据,人们已经找到了较合理的声道模型,因此声音数据的压缩要比图像数据的压缩容易。,104,统计表明,语音过程是一个近似的短时平稳随机过程.短时是指在1030ms的范围。由于语音信号的这一性质,使得我们有可能将语音信号划分为一帧一帧进行处理,每一帧内的信号近似地满足同一模型这是本方法假设的基本前提。在实用中,一般一帧的宽度为20ms。,105,语音的基本参数包括基音周期共振峰语音谱声强。,106,语音生成机构的模型,语音生成机构的模型由3部分组成 声源共鸣机构 放射机构 声源共有3类:元音、摩擦音、爆破音。共鸣机构 也称声道,由鼻腔、口腔与舌头组成。放射机构 由嘴唇和鼻孔组成,功能是发出声音并传播出去。,107,图2.32 语音生成机构的数字模型,108,模型的描述,与此语音生成机构模型相对应的声源由基音周期参数描述,声道由共振峰参数描述,放射机构则由语音谱和声强描述。DPCM,ADPCM等波形预测技术是音乐和实时语音数据压缩技术的主要方法。虽然该方法与基于语音识别的方法和基于参数分析合成的方法相比有压缩能力差的缺点,但算法简单,容易实现,以及能够较好地保持原有声音的特点等优点,因而在语音数据压缩的标准化推荐方案中最先被考虑。,109,参数编码的压缩率很大,但计算量大,保真度不高,适合语音信号的编码。混合编码介于波形编码和参数编码之间,集中了两者优点。,110,ITU语音标准化方案,16kbps ITU语音标准化方案G.728 32kbps ITU语音标准化方案G.721 64kbps ITU语音标准化方案G.722,111,1.16kbps语音标准化方案G.728,使用领域统一在包括可视电话、数字移动通信、无绳电话、卫星通信、DCME、ISDN等范围内。对于以上所提到的应用范围,约束条件是语音质量在32kbps ADPCM的同等或以上,且编码延迟时间在5ms以下。,112,1992年,CCITT制定了基于短延时码本激励线性预测编码(LD-CELP)的G.728标准,这是一种基于AbS原理并考虑了听觉特性的编码方法,它具有以下特征:以块为单位的后向自适应高次线性预测:后向自适应型增益量化;以向量为单位的激励信号量化。G.728用在64kbps的ISDN线路的可视电话,带宽分配为语音16kbps,图像48kbps。语音的多重化传送装置和个人计算机用的编码也是有希望的应用领域。,113,图2.33 LD-CELP分析器构成,114,图2.34 LD-CELP合成器构成,115,2.32kbps标准化方案G.721,1984年10月CCITT公布了使用ADPCM的标准G.721,速率为32kbps.目的是最终取代现有的PCM电路传送方式。作为对象的信号包括在电话线中流通的所有的信号,如语音、个人计算机通信的调制解码信号,按键电话的信号等等。本方案针对PCM(8kHz采样,8比特样点)规定G.721用PCM的一半速率(8kHz采样,每样点4比特)完成。G.721方案采用算法是编码符号延迟为0的且对传送通道的误码率要求不高的ADPCM方式。,116,图2.35 G.721 ADPCM块图,117,ADPCM方式在算法上的特征(1)为了提高预测精度(特别对于性质相差很大的语音信号和调制解调器对的信号),采用了动态对数量化器。(2)ADPCM本身采用了按每个采样点进行自适应控制的鲁棒自适应预测器。(3)追加了PCM和ADPCM间不论进行多少次转换都不会引起特性降低的同步功能。,118,G.721方案的应用 最初是面向卫星通信,长距离通信以及信道价格很高的语音传输。目前的应用领域除了最初的目标外,还被使用在包括电视会议的语音编码,为提高线路利用率的多媒体多路复用装置,数字录音电话的数字记录部件,以及高质量的语音合成器等等。,119,3.64kbps标准化方案G.722,1983年开始,CCITT开始了7kHz带宽以语音和音乐为对象的标准化音响编码方案,1988年公布为G.722标准。G.722方案编码方法是使用在64kbps位速率以内工作的SB-ADPCM方法音频编码,它将50Hz到7kHz间的频带从4kHz处分割为高频区和低频区,各频带利用ADPCM算法进行分别编码。为了与速率相对应,算法分为3种基本工作模式,即64kbps,56kbps和48kbps模式。56kbps和48kbps两工作模式可以分别在总