《多媒体技术》讲稿第6章.ppt
第六章 多媒体数据压缩标准,主要内容,失真度量音频压缩标准图象压缩压缩视频压缩标准,6.2几种典型的音频压缩标准,声音压缩标准 按质量,音频信号可分为电话质量的语音、调幅广播质量的音频信号和高保真立体声信号。三种音质压缩标准对比。如下表所示。,三种音质的压缩标准表,名称,对比项,几种典型的音频压缩标准,G.711 PCM,采样8KHz,-64KbpsG.721 ADPCM,64kbps-32kbpdG.722 高质量,SB-ADPCM,量化比特14bitG.728 参数编码,矢量量化G.729 低码率的音频压缩标准-8kbpsG.723.1-5.3kbps,6.3kbps,用在电话网、移动网、Intenet 的语音通信MPEG1AC-3用于音响,HDTV.对6个声道压缩-320kbps。采样48KHz 返回,6.3 典型的图像(视频)压缩标准,几种典型的图像(视频)压缩标准(1)JPEG静态图像压缩标准(2)JBIG标准(二值图像标准)(3)MPEG动态图像压缩标准(4)P64标准的视频编码标准(5)AVS标准 返回,6.3典型图像的压缩标准,JPEG静态图像压缩标准(Joint Picture Experts Group-联合图象专家组)1992年正式被采纳成为国际标准,JPEG标准,有损图像压缩方法在图像区域内,相邻图像的内容变化较缓慢,即存在大量的空间冗余心理学实验证明,人眼对高频分量的感知能力远低于对低频分量的感知能力人眼对灰度分量的感知能力远高于对彩色分量的感知能力,两种基本压缩算法(混合)1。基于DPCM的无失真算法(无量化器)图2。基于 DCT的有失真算法,JPEG标准,下面介绍JPEG标准的基于 DCT的有失真算法压缩原理:JPEG算法 基本步骤:JPEG算法操作可分成以下三个步骤:通过离散余弦变换(DCT)去除数据冗余;使用量化表对以DCT系数进行量化;对量化后的DCT系数进行编码使其熵达到最小。基于离散余弦变换(DCT)的有失真压缩编码的编码过程如下图所示,JPEG标准,JPEG标准,A.离散余弦变换 JPEG采用88子块的二维离散余弦变换算法。1)DCT的实质与特点:利用正交变换实现图象数据压缩的实质,是通过图象取样信息从空间域转到变换域,其能量集中,保持且近似于不相关,从而保留能量集中部分即可使频带压缩。DCT的均方误差编码性能在理论上最接近于在马尔科夫模型假定下的最佳统计匹配正交变换(KLT)。DCT可用快速算法来实现。,基于DCT的JPEG算法离散余弦变换示意图,88的子图像块的变换示意图,基于DCT的JPEG算法DCT的可分离性图示,JPEG标准,FDCT输出64个基信号的幅值称作“DCT系数”,即DCT变换系数值。64个变换系数中包括一个代表直流分量的“DC系数”和63个代表交流分量的“AC”系数。IDCT是FDCT的逆过程,它把64个DCT变换系数经逆变换运算,重建一个64点的输出图象。在所用设备的计算精足够高的前提下,且系数未经过量化,原始的64点信号就能够精确地恢复。,3)量化 基于DCT编、解码框图为了压缩数据,对DCT系数要作量化处理,量化的作用是在保持一定质量前提下,丢弃图像中对视觉效果影响不入的信息。量化处理是一个多到1的映射,是造成DCT编解码信息丢失的根源之一。JPEG中采用线性非均匀量化器,量化定义为对64个DCT系数除以量化步长,四舍五入取整.,JPEG标准,量化表的尺寸与64个变换系数一一对应(64个),量化表元素随DCT系数的位置和彩色分量的不同有不同值。它可由用户规定(JPEG给出参考值),并作为编码器的一个输入。量化表中每个元素值为1到255间任意整数,其值规定了它所对应的DCT系数的量化器步长。,JPEG标准,量化的作用是在一定的主观保真度图象质量前提下,丢掉那些对视觉影响不大的信息,不同频率的余弦函数对视觉影响不同,可以根据不同频率的视觉阈值来选择量化表中的元素值的大小。这样通过心理视觉实验,去确定对应于不同频率的视觉阈值,以确定不同频率的量化器步长。,JPEG标准,JPEG给出量化特性表(示范),根据心理视觉加数函数而得到亮度分量量化矩阵。同时还给出根据心理视觉加权函数而得出的色度分量量化矩阵。这是JPEG给出的参考值。,基于DCT的JPEG算法亮度量化表和色度量化表,亮度分量量化矩阵、色度分量量化矩阵(JPEG中给出的参考值),JPEG标准,每一个 量化表右下角的值较大,目的在于更多的减少高频分量色度量化表的值较亮度分量表大,目的在于更多的减少色度分量,可以给量化矩阵乘以比例值来改变压缩率JPEG给用户提供质量因子(quality factor),本质上和比例因子联系在一起100%的质量因子对应无损压缩JPEG允许定制量化表,并存储在压缩码流头部,JPEG标准,4)系数编码 64个变换系数经量化后,坐标U:V=0的DC系数是直流分量,即64个空域图象采样值的平均值。相邻块(88)之间的DC系数相关性强,JPEG对DC系数采用DPCM(差分编码)方法,即DIFF=DCJ-DCj-1。即对相邻像素块之间的L系数的差值进行编码。,基于DCT的JPEG算法对DC系数的编码,根据DC系数的特点,JPEG算法使用了差分脉冲调制编码(DPCM)技术,即对相邻块之间的DC系数的差值:DIFF=DCi-DCi-1进行编码。,JPEG标准,其余63个交流系数(AC系数)采用行程编码从左上方Aco1开始,沿对角线方向,以“Z”字形(Zig-Zag)行程扫描,直至AC77扫描结束。量化后的AC系数通常会有许多零值,以“Z”字形路经进行行程编码,可增加行程中连续零的个数,63个AC系数行程编码的码字甚至可用两个字节表示.,JPEG标准,5)熵编码 为了进一步压缩数据,可对DC和AC行程编码的码字再作基于统计特性的熵编码,JPEG建议用哈夫曼(Huffman)或自适应二进制算术编码。熵编码步骤:熵编码中的中间格式表示 可变长度熵编码,压缩比与恢复图像质量的关系,返回,针对基于DCT的JPEG压缩算法,在原始图像每像素采用8比特编码条件下,定量描述压缩比与恢复图像质量的关系,如下表所示。,工作模式,JPEG图像压缩的四种工作模式:a.基于DPCM的无失真压缩:从左到右、从上到下扫描信号,为每个图像元素编码。DPCM,Huffman,无量化。b.基于DCT顺序工作方式:对变换时间长的扫描器,以复合扫描顺序进行图像编码。c.累进(渐进)工作方式:保证准确恢复图像所有样本值的图像编码。由粗到细,多次扫描,先传低频,再传高频分量(细节)。d.分层(分级)工作方式:以多种分辨率进行图像编码,可直接获得低分辨率图像,重建复原全图。,JPEG标准,顺序模式默认的JPEG模式,对灰度图或彩色图像分量进行从左往右,从上往下的扫描并编码渐进模式首先快速传送低质量的图像,接着传送高质量的图像所需要增加的部分信息类似于GIF图像格式适合于网络带宽不高的应用,JPEG标准,渐进模式主要的步骤(变换、量化)和顺序模式相同通过两种方式实现渐进1.频谱选择利用DCT系数的频谱特性,频率高的AC系数提供的是细节信息第一次扫描:DC系数和前几个AC分量第二次扫描:下几个AC分量,JPEG标准,2.连续近似对于所用的DCT系数同时编码,按照重要性的高低在不同的扫描中编码不同的比特位第一次扫描:前几个比特位编码,如比特7,6第二次扫描:对重要性稍低的比特编码,如比特5,JPEG标准,分级模式分级JPEG对处于不同分辨率层次中的图像进行编码基本层,增强层低分辨率的编码图像通过低通滤波器得到更高分辨率的图像提供更多的细节信息和渐进JPEG类似,分级JPEG也可以通过多次扫描,渐进改善图像质量,多媒体数据压缩的标准,JPEG2000小波Motion JPEG只进行帧内编码 返回,MPEG动态图像压缩标准(Motion Picture Experts Group)MPEG-1、2、4、7 MPEG-1 是一个面向家庭电视质量级的视频、音频压缩标准;如VCD。MPEG-2 是面向演播级的视频、音频压缩标准。该类数据要求的清晰度较高。如DVD、HDTV。MPEG-4 是基于内容的数据压缩标准。MPEG-7 是基于内容的描述语言和格式的标准。返回,MPEG运动图像编解码标准,标准的内涵 MPEG的国际标准分为三个部分,即Systems,Video,audio。Systems将分别的audio与Video合成为单一数据流。Video和Audio的技术指标给出了两者编码位流的句法与语义。,MPEG流 MPEG1流结构 MPEG1的流具有两层:System层包含定时与其它信息,去解复用audio和Video流,并在回放时同步audio与Video。压缩层包括压缩audio和Video流。,下图表示了MPEG1的解码系统,系统解复用抽取定时信息,并传到系统的有关单元去。,系统层支持以下五个基本功能:1)解码时多条压缩流的同步;2)多条压缩流交织为一个单一流;3)为启动解码而对缓冲区进行初始化;4)连续的缓冲区管理;5)时间标识。,MPEG-2流结构 MPEG-2定义了两类系统流:Program(节目流)和transport(传输流)。两者的复用流组成了Video与audio的基本的流,两者均被分别捆包传送。,一个传输流包括一或多个节目。视频与音频基本流由访问单元组成。节目流编码层允许将具有一个或多个基本流的一个节目组合成一个单一流。来自于各基本流的数据与那些允许节目中的基本流同步播放的信息复用一起。一个节目流包含来自于一个节目的复用在一起的一个或多个基本流。基本流数据携带于PES分组包中,PES分组包由分组头及其后的分组包数据组成。,视频流数据层次 MPEG-1与MPEG-2标准定义了视频流数据结构的层次如下图所示。,比特流的语法层及其功能,其中包括:VIDEO Sequence它由一系列的头,一个或多个图片组,和一个序列结束码组成,它是前面所定义的视频数据流的另一个术语。Group of pictures它是一个或多个图片系列。允许随机访问其序列。Picture一个视频序列的基本编码单元,图片由三个正交的本色组成,包括亮度Y,两个色度CbCr的值,,Slice一个或多个结构宏块、在Slice里宏块的顺序是从左到右,从上到下。在差错处理时Slice是很重要。如果位流有一个错误、解码器可以是下一个Slice的起点,这有利于改善图像质量。Mocroblock一个16-pixel X 16-line的亮度成分区和相应的色度分量的8-pixel X 8-line区。Block,帧间图像编码(Inter-Picture Coding)图片类型 MPEG标准专门定义3种图片类型:intra,predicted和Bidirectional。,Intra-Pictures即称图,编码时仅使用本图信息,图提供所有可能的随机访问点进入压缩的视频数据,图仅使用变换编码,因此它提供适度的压缩倍数,典型的约每象素2位为宜。,Predicted Pictures称为P图,它被编码时考虑最接近的前面的或P图,这种技术称之为朝前预测,如下图,Bidirectional Pictures称为B图,它使用过去的或前面的图为参考,这种技术称为双向预测,如下面图所示,B类图提供最大的压缩并不会产生误差,因为它从不用为参考图,双向预测还减少了噪声的影响,由于它对两帧起了平均作用。,视频流典型布局MPEG算法允许编码时选择频率并定位图,这种选择基于对随机访问性在应用时的需要,并定位在视频序列里场景的剪切。在应用中随机访问是重要的,I图典型地用于每秒两次。,编码器还选择任意一对(或P)图片间的双向图片数、这一选择是基于某种因素,比如在编码器里的存储量、以及被编码对象的特性,对于大的一类场景,工作的参数必须有双向图片分别作为连续的参考图。下图 表示一个典型的I、P和B图的安排,按显示顺序布局。,MPEG编码器在视频流里重排图片顺序,提交给解码器,以最有效的序列方式来表示图片。实际上,在组合B图之前图需要重构B图来传送。,下图表示了C-Cube公司的编码的例子,Motion Compensation运动补偿 运动补偿是用来消除时域冗余,增强P图与B图的压缩效果的一种技术.运动补偿算法在宏块内进行。当一个宏块由运动补偿来压缩时,压缩文件包含以下信息:a)在基准和被编码的宏块之间存在的空间差异。b)在基准和被编码的宏块之间存在的内容差异。,不是在图片里的所有的信息都可以由前面的图片来预测的。例如考虑一个场景打开一扇门:在门后房间里的细节是不可能由前面的帧来预测的,因为在此之前门是关着的。当在某种情况下宏块用P图不能用运动补偿来有效的表示。这时要用图并使用变换编码技术。B和P图运动补偿之间的差别在于:在P图里宏块仅使用前面的参考(I或P-图),而在B图里宏块编码使用过去的或将来的图的任意结合。,帧内图片(变换)编码MPEG变换编码算法包括下列步骤;a)离散余弦变换(DCT)b)量化Quantizationc)游程码RLE编码,图象块与预测误差块有高的空域冗余度,为了减少冗余,MPEG算法用DCT变换88象元块或88的误差块到频域。下一步算法量化频率系数,量化是估计每个频率系数为一个允许值的有限数之一的过程。编码器选择一个量化矩阵来决定如何量化8X8块里的每个频率系数。人类对于高频的量化误差感觉是低的,因此高频比低频量化得更粗糙些。,DCT与量化的结合引起很多频率系数为零,特别对高频更是如此。为了发挥其长处,这些系数被组织为Z顺序,用来产生较长的零过程。某些象素块需要此其它的编码更精确,例如,较平缓的密度梯度的块需要精确编码以避免可看到块边缘,为了处理块之间的这种不均匀性,MPEG算法允许对每个1616象元块做一定的量化修正。这一机制还可被用来对特殊的位流提供平滑自适应。,同步MPEG标准提供时间同步机制去保证音频与视频的同步。MPEG-1标准定义两个参数用来解码:System clock reference(SCR)与Presentation timestamp(PTS)。MPER-2标准增加了program clock reference(PCR),同时也提供SCR与PCR去解决27MHz的扩展问题。返回,MPEG4Coding of audio&Visual objects.,1)基于内容(Based-contents)的编码。2)Integration:考虑单、立体与多通道的音频,二维、三维单色、立体或多视点的视频。3)flexibility and extensibility.,视频编码标准MPEG4,MPEG4的初衷是针对视频会议、视频电话的超低比特率编码,但后来基于两项变化对需求进行了修改:1.物质基础的变化:高性能通用芯片性价比的提高使得基于软件平台的压缩编码方法具有实用的可能2.对多媒体信息,特别是视频信息的应用要求由播放型转向基于内容的访问、操作型,视频编码标准MPEG4,因此,需要将基于内容的检索与编码结合起来考虑,即在压缩数据中应有描述视频内容的信息,从而使多媒体信息内容的访问可以直接针对压缩数据进行基于内容的压缩编码方法MPEG4新的目标定为:支持多种多媒体应用,主要侧重于对多媒体信息内容的访问,可根据应用要求不同来配置解码器,编码系统是开放的,可随时加入新的有效的算法模块,视频编码标准MPEG4,MPEG4支持的应用包括:传统的数字电视广播,视频会议,视频存储基于对象的视频应用视频场景由不同的视频对象组成,每个单独编码利用2D或3D几何网格的计算机图形渲染/合成基于Internet和移动信道的视频流应用针对演播室环境的高质量视频编辑和内容分发,视频编码标准MPEG4,部分1:系统场景描述,音视频数据复用,同步,buffer管理部分2:视频部分3:音频部分4:一致性测试测试条件,测试步骤,测试码流部分8:基于IP的MPEG4传输部分10:先进视频编码H.264,视频编码标准MPEG4,MPEG4的第二部分描述了视觉信息如何描述和表达的相关技术,可以处理的数据类型包括:运动视频(矩形帧)视频对象(运动视频中任意形状的区域)2D和3D对象(表示可变形的对象)静态纹理(静止图像),视频编码标准MPEG4,MPEG4-p2包含许多先进的编码技术,提高了压缩效率和灵活性通常某一特定应用不会需要MPEG4-p2中所提供的所有技术工具标准定义了一系列档次(profiles),对特定种类的应用推荐某些技术工具的集合,视频编码标准MPEG4,在某个时间点上VO的实例称作视频对象平面(VOP)VOP相当于视频中的一帧,一个VOP序列构成了一个VOVOP可以是任意形状,MPEG-4编码器软件模型框图,返回,MPEG-7,多媒体内容描述接口,规定一套可用于描述各种多媒体信息的描述符的标准,它与多媒体信息内容一起,支持用户对其感兴趣的资源快速,有效检索。应用领域:1)数字化图书馆(包括图象分类图象、音乐字典等)2)多媒体目录服务 3)广播式媒体选择(包括个人电子新闻服务,媒体著作等)4)旅游、文化、地理信息系统。返回,P64标准的视频编码标准,电话与会议电视业务的需要视听业务视频编解码CODEC,H.261建议,俗称p64Kbit/s(P=130).支持实时动态图像的压缩编解码。标准中P是一个可变参数,取值为130。P=1或2时,仅能支持桌面上的面对面直观通信(即64Kbps或128Kbps);当P6时,支持通用中间格式每秒帧数较高活动图像的电视会议。返回,H.261建议,实际上是H.261标准CIFQCIF;352*288帧间预测-DCT-Huffman、I帧/P帧;对称数据流四个层次:块层、宏块层、块组、图象层为了适应宽带传输需要H.262建议(ISO/IEC13818标准)发展新的预测法和变换编码法H.263建议。,H.261主要技术参数 1)传输速率 视频信号编码传输速率为p64Kbit/s(P=130)建议使用的视频比特率介于40Kbit/s2Mbit/s之间。,2)图像尺寸 H.261的图像尺寸格式如下表(1)H.261建议的图像尺寸为,一帧电视信号就是一幅图像、视频编码图像格式可归纳如下表:,视频复用编码器1)视频复用按4层结构如下图像层组块宏块块,(1)帧图像层(PICTURE LAYER)每幅图像的数据由图像头构成,GOB的数据紧随其后,结构如下图,丢弃的图像的图像头不发送。,(2)块组层GOB每一幅图像都被划分成若干块组(GOB)。一个块组由1/12个CIF或1/3个QCIF的图像区组成如下图。一个GOB由176个像素乘4行构成。,(3)宏块层每个GOB被划分成33个宏块,如下图,一个宏块为1616,而Cb,Cr为88。,宏块的数据由MB头组成,其后是块数据,如下图。MQUANT,MVD和CBP的存在与否由MYTPE指示。,(4)块层宏块由4个亮度块和2个色差块组成如下图,块数据由变换系数码字和跟随其后的块终止标号组成。,ITU-T H.263建议,H263是ITU-I标准,于1995年公布,设计来为低比特率通信用,早先的草案指定数据率小于64Kbits/s,后来取消了这一限制,希望能适用于宽范围的比特率,不仅仅是低比特率应用,在许多应用中H.263取代了H.261。返回,H.263低比特率标准 30Kbps用于电信部门,电话线、Modem28.8kbps/33.6Kbps/56Kbps支持多种格式 Sub-CIFQCIFCIF4CIF16CIF效率不高,仍会有马赛克,H.263的编码算法类似于H.261,但有某些改进与变化,以利于提高性能和错误恢复。H.261与H.263编码算法的区别在于:半象素精度(Half pixel precision)用于运动补偿,而H.261使用全象素精度和循环滤波。数据的层次结构某些部分是供选择的,所以Codec能被构成为低数据率或较好的错误恢复。有4种选择的编码方法用于改善性能,H.263支持五种分辨率,它在H.261支持的QCIF和CIF的基础上增加了SQCIF,4CIF,16CIF。SQCIF是QCIF的半精度,而4CIF与16CIF是CIF的4倍与16倍分辨率。,H.324标准,ITU从1993年开始着手制造一套新的多媒体通信技术标准。概括如下表:,H.324多媒体系统总体结构,(1)首要区别是增加了数据接口(2)它把数据调制解调器也包括了进去。它的复接和解复接部分H.223比H.221复杂(H.221只是视频和音信号的复接)。(3)音频编解码器G.723主要用来作为语音信号的压缩和解压缩。本来采用G.723代号但发现它已被采用为ADPCM标准。所以改为G.723.1。,(4)标准的数据通信应用包括了应用于实时语音图形会议的T.120,用于简单的点对点静止传输的T.84,用于简单的点对点文件传输的T.434,用于远维离摄像机控制的H.224/H.281以及ISO/IECIR9577包括PPP和IP在内的网络协议,用户数据缓存的V.14或LAPM/V.42也包括在内。,实测表明,当用28.8kbpsMODEM连接时,其电视画面不够连续,只有在48kbps时,才能得到满意的图象。,MPEG系列,MPEG-2(1994):第一代音视频编解码标准,技术上已经过时,但是仍旧是市场主流MPEG-2向每个终端收2.5美元 MPEG-4(1999):编码效率是MPEG-2的1.4倍专利许可政策过于苛刻,向运营商按每个用户每小时2美分收取,H.264(2003),编码效率是MPEG-2的2倍专利问题死结每点播一个节目2美分仅是一个视频编码标准,AVS标准化工作组,数字音视频编解码技术标准工作组由国家信息产业部科学技术司于2002年6月批准成立。工作组的任务是:面向我国的信息产业需求,联合国内企业和科研机构,制(修)定数字音视频的压缩、解压缩、处理和表示等共性技术标准,为数字音视频设备于系统提供高效经济的解码芯片,服务于高分辨率的数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯,互联网宽带流媒体等重大信息产业应用,AVS视频标准,AVS视频标准的制定过程方案的讨论与确定(02年8月到12月)两种可能与H.264的基本层兼容完全独立的方案技术的征集和评估(02年12月至今),AVS(2006),包括系统,视频,音频,媒体版权管理等几个主要技术标准和一致性测试等支撑标准。编码效率与AVC相当,技术方案简洁,芯片实现复杂度低。一站式许可政策,开放式国家标准,易于推广。每个终端象征性地收取人民币1元。,AVS的市场前景,直播卫星地面广播标准今年出台2008奥运会中的高清电视IPTV高清光盘,手机电视,AVS发展历程,AVS第7次会议上,工作组完成了AVS标准的第一部分(系统)和第二部分(视频)的草案最终稿(FCD),报批稿配套的验证软件也已完成。2004年12月29日,全国信息技术标准化技术委员会组织评审通过了AVS标准视频草案。2005年,草案报送至信产部。2005年3月30日,标准草案视频部分进入公示期。12次会议完成了音频草案。DRM的制定已接近尾声。,技术征集,AVS视频标准,AVS视频标准,技术的评估方案的描述工作草案委员会草案最终的委员会草案标准草案评估条件测试条件评估软件参考软件评估准则编码效率实现的复杂度专利,AVS视频标准,采纳的技术提案(32个)DCT变换和量化(5个)技术 8x8整数变换8点均匀量化提案8x8整数变换及量化10 9 6 2(浙大)Integer DCT and Quantization(计算所)8x8整数变换及量化(浙大)8x8整数变换量化的改进(浙大)量化的改进(浙大),AVS视频标准,特点高效比MPEG-2编码效率高2倍与H.264编码效率相当复杂度低2个参考图像最小的运动补偿块为8x8没有许多在HD-TV和HD-VD应用中不需要的编码工具兼容现有MPEG-2系统现有的电视台的基于MPEG-2编辑和传输系统不需要改变许可费低20元 MPEG-21元 AVS 返回,