视音频编码技术.ppt
视频编码技术,运动图象的三要素,帧分辨率(DVD图象:704X576像素/帧)像素(颜色的位深,真彩24位)三原色(红绿篮RGB)亮度Y、色度Cb,Cr帧率(PAL:25帧/秒;NTSC:30帧/秒),像素的数字化:色彩模型,RGB模型(红绿兰)红:8bit 绿:8bit 兰:8bit RGB模型计算机上常用 YCrCb 模型(亮度加色差)亮度:8bit红色差:2bit(色差压缩)兰色差:2bit(色差压缩)YCrCb 模型更适合图形压缩,数字图象格式:帧分辨率,像素、帧率两要素在数字视频图像格式中为隐含要素。,运动数字图象采集数码量,1帧4CIF(DVD)图象像素:704X57640万/帧 1像素(红绿蓝):3X8位编码=24bit码率 PAL制DVD图象帧率:25帧/秒 每秒图象采集数码量:40万/帧X 24bit X 25帧/秒=240000000bit/秒 DVD图象原始数码量:240Mbit/秒(RGB模型)VCD图象原始数码量:60Mbit/秒即使是VCD图象如不压缩编码也无法在2M专线(E1专线)上传输,关键技术,视频压缩(视频编码)音频压缩(音频编码)交换方式与控制方式,视频压缩(视频编码),图象固有的统计规律空间的相关性(空间冗余)时间的相关性(时间冗余)视觉、心理录入和显示设备,8,国际标准组织ITU(VCEG)更悠久、更专注于传统的视频编码目标(例如,更好的压缩和包丢失/误码恢复)ISO/IEC(MPEG)更大、更具有雄心勃勃的目标(例如,“面向对象视频编码”、“自然分析合成混合编码”和数字电影)两者有时合作制定标准(例如,ISO、IEC and ITU 协作制定了 MPEG-2/H.261 和 MPEG AVC/H.264)活跃的产业联盟和协会DVD、3GPP、3GPP2、SMPTE、IETF,etc.中国的 AVS游离于正式标准之外的厂商,事实上的工业标准:MicrosoftReal NetworksQuicktime,视频编码标准:视频编码标准组织,9,H.264/MPEG4 AVC,H.263+,H.263+,MPEG1,MPEG4,视频编码标准:历史,JPEG,JPEG200,10,视频编码算法,运动矢量,量化的变换系数,运动矢量,内嵌解码器,预测图像,量化参数,T,Q,IQ,IT,运动估计,+,过去、当前、未来图像帧,运动补偿,块大小可变预测,增强的熵编码,4x4 整数“DCT”,VLC&比特流打包,头信息,H.264视频流,多参考帧预测,;,去块效应滤波,帧内预测,4x4 整数“IDCT”,当前帧,原始图像,变换&量化去除空间冗余预测(运动补偿)去除时间冗余熵编码去除变换系数的冗余,11,运动补偿:去除时间冗余,例:序列图象,视频编码技术:运动补偿,动机:运动/固定目标的大小是可变的许多小块也可能需要花费许多比特来编码不同块大小和形状的运动补偿,12,运动估计匹配块的尺寸不断缩小H.261:1616H.263:88H.264:7 种可变块大小,最小 44AVS:4 种可变块大小,最小 88节省了15%以上的比特率,Foreman 30fps QCIF,运动补偿:发展趋势,13,运动估计参考帧的数量不断增加I 帧(帧内编码)、P 帧、B 帧多参考帧预测:假设为5个参考帧预测,相对于一个参考帧来说,可节省 5%到 10%比特率。H.264 P 帧、B 帧前后最多 16 帧AVS P 帧前后 2 帧、B 前后 1 帧,运动补偿:发展趋势,14,变换编码:去除空间冗余。变换后,在变换域中,低频系数的能量远大于高频系数的能量,变换系数的相关性将大大去除。,视频编码技术:变换编码,15,变换编码:DCT(离散余弦变换),DCT 快速算法是中国人陈文雄(1977)提出,LLM 快速 DCT 算法(Loeffler,Ligtenberg and Moschytz,1989)此算法需要 11 次乘法和 29 次加法,16,变换编码:DCT 变换的尺寸,DCT 编码效率和尺寸之间的关系是单调曲线,其拐点在44、88、1616 区段需要根据图像分辨率(QCIF、CIF、SDTV、HDTV或数字电影)选择 DCT 变换块的大小。44 更适宜于小尺寸图像,相应的块效应主观感觉也会减弱 44 更好的运动补偿,意味着更小的空间相关性H.264 有 44、88 变换块AVS 有 88 变换块,17,变换编码:DCT 变换的复杂度,传统的 DCT 变换DCT 需要实数运算,反变换中引起了精度的损失。H.264、AVS 等使用了非常简单的44或88 整数变换:对传统 DCT 非常精巧的逼近变换矩阵只包含+/-1 和+/-2计算只需要加法、减法和移位结果显示仅有可以忽略不计的质量损失(0.02dB),差值图像基于 4x4 整数变换:主类:自适应块大小变换(8x4,4x8,8x8)对于 8x8 色度和 16x16 帧内亮度块DC 系数再次变换(Repeated Transform),18,获得好的性能,源于:通过上下文选择模型基于本地统计的自适应估计算术编码减少计算复杂度,视频编码技术:熵编码,H.264 CABAC 熵编码,19,视频编码技术:帧内预测,动机:I 帧是自然图像,具有很强的空间相关H.261、MPEG2 没有帧内预测,只有帧间预测H.263+和 MPEG4 中,在变换域中根据相邻块对当前块的某些系数做预测H.264 在空域内,依据与当前块相邻的象素,对当前块进行预测。宏块或块基于先前编码的块进行预测:先前编码的块位于当前块的上面和/或左面的块亮度块有两类帧内预测方式:9 种 44 帧内预测模式,用于纹理区域4 种 1616 帧内预测模式,用于平滑区域色度样值只有 4 种 88 帧内预测模式,类似于亮度样值的 1616帧内预测模式AVS 同样思想:5 种 88 帧内预测模式,用于纹理区域4 种 88 帧内预测模式,用于平滑区域,20,H.264 去块效应环路滤波器高压缩解码的帧间图像显著地减小预测残留图像,视频编码技术:去块效应环路滤波器,21,视频编码技术:主要视频编码标准的技术比较,22,H.264 编解码器的实现意味着放宽通常的复杂度(存储和计算)限制,相对于 MPEG2编解码器,粗略估计:解码能力需要增加 4-5x编码能力需要增加 10 x折中:最好的质量和最小的带宽消耗,高度复杂计算使得 ASIC 昂贵,实现复杂。,视频编码实现:H.264,MD:模式判决TQ:变换和量化MC:运动补偿ME:运动估计VLC:变字长码,23,IP 视频电话、会议,DTV H.264,ISTB,VOD,H.264 视频应用环境,IP 视频流,DTV,MPEG2 over IP,STB,3GPP,VOD,SIP/H.264over IP,转码,视频监控,HFC,转码,转码,视频编码应用:领域,24,小结,现代视频编码体系结构没有革命性的改变,基于混合视频编码方案,但不断改进,越来越精巧和完善,使得压缩率和图像质量不断提高,复杂度也大大增加:新的关键技术特征:增强的运动补偿小尺寸的整数变换增强的熵编码 CAVLC 和 CABAC其它:增强的去块效应滤波器等在相同质量下,节省比特率 50 以上,主观质量感觉比客观 PSNR 指标更好。复杂度增加,编码器 3-10 x,解码器 2-5x最新发展的标准有 H.264/MPEG AVC、SMPTE VC1/MS WMV9和我国的 AVS。研究方向是可伸缩的视频编码(Scalable Video Code,SVC),不同的应用可以由一个共同的码流来实现,目前已经公布的视频编码标准都没有这个功能。,数字音频压缩技术Digital Audio Compression,26,引言数字音频的数据量,数字化是趋势信息量非常大,高传输带宽或存储容量5.1 声道环绕立体声:648KHz18bits.184Mbit/s,减少代表原始声音信号的信息量更好利用现有频率资源便于计算机处理和存储宽带网中高质量传输,27,波形编码 将波形直接变换成数字码流。特点:比特率较高、解码后质量较高、延时较小。可以分为:时域波形编码,如PCM、ADPCM、M等;频域波形编码,如:子带编码(SBC)、自适应变换编码(ATC)等。PCM原理(1937年,法Alec Reeres)电子管 PCM(46年,Bell实验室)晶体管 PCM(62年,市话扩容,64kb/s)单片IC PCM(70年代,微波、卫星、光纤)增量编码原理(1946年,法 De Loraine)自适应增量 CVSD(60年代末,军用,32、16kb/s)CVSD(Continuously Variable Slope Delta Modulator)(连续变化斜率增量调制器)其他编码(70年代,ADPCM、SubBand、ATC、APC等)在16kb/s以上得到较好的话音质量。特点:话音质量好,但编码速率高。,音频编码历史:数字语音(1),28,参数编码 从信源信号的某个域中提取特征参数,并变换成数字码流。如:各种声码器。波形编码通道声码器(39年,Dudly,二次大战保密电话)LPC声码器(67年,Atal、Schroeder)同态声码器(69年,Oppenheim)共振峰声码器(71年,Rabiner、Schafer、Elanagan)MBE声码器(88年,Griffin、Lim)波形插值(91年,W.B.Kleijn)2.4kb/s、1.2kb/s、较好;600-800b/s可懂。特点:编码速率低,自然度差、解码后质量较低、延时较大。,音频编码历史:数字语音(2),29,混合编码器 将以上二种方法混合,利用线性预测、VQ、A-B-S、感觉加权、后滤波等技术。如:G723.1,G728,G729,GSM的语音编码,IS-95的语音编码等。多脉冲激励线性预测(MPELP 1982 Atal、Remde)规则脉冲激励线性预测(RPELP 1985 Deprettere、Kroon)码本激励线性预测(CELP 1985 Manfred、Schroeder、Atal)8-16kb/s,高质量。特点:话音质量高、编码速率低,但算法复杂。,音频编码历史:数字语音(3),30,主要应用于娱乐与鉴赏,对于重建信号的音质有很高的要求,目前采用比特率较高的波形编码技术进行压缩。可以直接在时域进行,也可以转到频域或其他变换域进行。1982年激光唱盘(CD:Compact Disk)上市。MD:Mini-Disk,日本索尼公司采用ATRACAdaptive Transform Acoustic Coder压缩技术。1987数字音频磁带录音(DAT:Digital Audio Tape)问世。DAB(Digital Audio Broadcasting)源于欧洲。AC3 来自 Dolby 公司.,音频编码历史:宽带音频,31,音频编码性能评价(1),编码速率(Kbps、Kb/s)信号带宽:可懂度、自然度、透明度。2003400Hz、507000Hz、2015000Hz、1020000HZ。采样速率:8KHz、16KHz、32KHz、44.1/48KHz。样值比特数(b/样点),总速率 R(kb/s)。固定码率及可变码率。重建语音质量客观评价:信噪比分段信噪比(一般15dB以上较好,20dB以上相当好),32,音频编码性能评价(2),编解码延时(ms)公众网(25ms)、点对点、广播、存储回声控制或回声抵消正常通话秩序与重建质量关系算法复杂度硬件、成本浮点、定点MIPS、RAM、ROM其他抗随机误码和突发误码能力抗丢包和丢帧能力对不同信号编码能力级联或转接能力,语音压缩(音频编码),ITU-TG.711(1988)语音PCM编码标准,64kbit/sG.722(1988)7kHz音频编码标准,64kbit/sG.728(1992)LD-CELP语音编码标准,16kbit/sG.723.1低速率语音编码建议,具有两种速率6.3kbit/s和5.3kbit/s。,MPEGMP3:MPEG1 Audio Layer-3的简称从MPEG-1标准衍生的、开放的编码方案50K-100Kbit/sACCMPEG2音频压缩MP4,34,声音压缩编码理论基础,冗余(Redundance)信号一部分可由另一部分重建或另外表达形式简单说明,称为信号有冗余去除冗余实现压缩编码 信号冗余是变化的,故不能产生恒定码流输出不相关(Irrelevance)听觉不能感觉的那部分信号,它对声音信号的确定或音色和发音位置没有贡献不相关信号部分不传输利用掩蔽效应来掩盖量化失真人耳听觉特性人耳分辨能力人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感人耳对语音信号的相位不敏感人耳掩蔽效应 Masking Effect,35,现有标准:语音编码标准(1),36,PCM:脉冲编码调制ADPCM:自适应差分脉冲编码调制LD-CELP:低延时码本激励线性预测编码CS-ACELP:共轭结构代数码本激励线性预测编码ACELP:代数码本激励线性预测编码MP-MLQ:多脉冲激励最大似然量化SB-ADPCM:子带自适应差分脉冲编码调制LPC-10:线性预测编码-10MELP:混合激励线性预测编码CELP:码本激励线性预测编码RPE-LT:长时间预测规则脉冲激励线性预测编码VSELP:矢量和激励线性预测编码IMBE:Inmarsat多带激励语音编码QCELP:Qualcomm码本激励线性预测编码EVRC:增强型变速率编码,现有标准:语音编码标准(2),37,MP3MPEG-1 layer 3 最多用户对于苛刻素材,192kbps 时接近 CD质量Ogg Vorbis开发源码免费 IPR free质量与 MP3 相近,但不同素材之间变化很大AACMPEG2 和 MPEG4对于 CD 质量的要求,它具有最低的码率对于苛刻素材,约128kpbs 时接近 CD 质量对于高码率,Quicktime and RealAudio 采用 AACWindows Media微软专有 通过 Window OS,具有巨大用户量好于 MP3,WMA9 质量上接近 AAC包括无失真和多声道编码,现有标准:Internet Codecs(3),视频会议中音频编解码比较,谢谢!,