《第3章多媒体数据压缩编码技术课件.ppt》由会员分享,可在线阅读,更多相关《第3章多媒体数据压缩编码技术课件.ppt(91页珍藏版)》请在三一办公上搜索。
1、2022/12/3,陈文华,1,多 媒 体 技 术,电子教学课件,第3章,2022/12/3,陈文华,2,第3章 多媒体数据压缩编码技术,3.1 多媒体数据压缩编码的重要性3.2 预测编码技术3.3 哈夫曼编码技术3.4 行程(游程)RLE编码技术3.5 静态图像压缩编码国际标准JPEG3.6 运动图像压缩编码国际标准MPEG,2022/12/3,陈文华,3,第3章 多媒体数据压缩编码技术,3.1 多媒体数据压缩编码的重要性 3.1.1 数据冗余类型 3.1.2 数据压缩技术的分类,2022/12/3,陈文华,4,第3章 多媒体数据压缩编码技术,3.1 媒体数据压缩编码的重要性 信息时代的重要
2、特征是信息的数字化。 早期的计算机系统采用模拟方式表示信息,但存在着明显的缺点: 经常会产生噪音和信号丢失,并且在复制过程中逐步积累噪音和误差。 模拟信号不适合数字计算机加工处理。,2022/12/3,陈文华,5,3.1 媒体数据压缩编码的重要性,数字化后未经压缩的视频和音频等媒体信息的数据量是非常大的 1. 图像数据量的大小可用下面的公式来计算: 图像数据量图像的总像素色彩深度8 (单位为Byte,简写为B) 例如,一幅640480、24位(bit)真彩色的图像,其文件大小为:64048024 8 921.6KB,2022/12/3,陈文华,6,3.1 媒体数据压缩编码的重要性,2. 双通道
3、立体声激光唱盘,采用脉冲码调制采样,采样频率为44.1KHz,采样精度16位,其一秒钟时间内的采样数据量为: 44.110001628176.4 KB 一个650MB的CDROM,大约可存1小时的音乐。,2022/12/3,陈文华,7,3.1 媒体数据压缩编码的重要性,3. 对动态图形和视频图像。例如对于彩色电视信号,设代表光强Y的带宽为4.2MHz、色彩I为1.5MHz和色饱和度Q为0.5MHz,采样频率2倍原始信号频率,各分量均被数字量化为8位,从而1秒钟电视信号的数据量为: (4.21.50.5)281000000812.4 MB,2022/12/3,陈文华,8,3.1 媒体数据压缩编码
4、的重要性,容量为650MB的CDROM仅能存1分钟的原始电视数据。若为高清晰度电视(HDTV)其1秒钟数据量约为150MB(1.2Gbps8),一张CDROM还存不下5秒钟的HDTV图像。 巨大数字化信息的数据量对计算机存储资源和网络带宽有很高的要求,解决的办法就是要对视、音频的数据进行大量的压缩。播放时,传输少量被压缩的数据,接收后再对数据进行解压缩并复原。,2022/12/3,陈文华,9,3.1.1 数据冗余类型,1. 空间冗余 基于离散像素采样来表示物体颜色的方式通常没有利用景物表面颜色的这种空间相关性,这些相关性的光成像结构在数字化图像中就表现为空间冗余。我们可以通过改变物体表面颜色的
5、像素存储方式来利用空间相关性,达到减少数据量的目的。,2022/12/3,陈文华,10,3.1.1 数据冗余类型,2. 时间冗余 时间冗余反映在图像序列中的相邻帧图像(电视图像、动画)之间有较大的相关性,一组连续画面中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,把一帧图像中的某物体或场景可以由其他帧图像中的物体或场景进行处理后重构出来,可以大大减少时间冗余。,2022/12/3,陈文华,11,3.1.1 数据冗余类型,3. 结构冗余 有些图像具有较强的相似性的纹理结构,例如布纹图像和草席图像,方格状的地板图案等,我们称此为结构冗余。 4. 知识冗余 有许多图像的
6、理解与某些基础知识有相当大的相关性,这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。根据已有的知识,我们可以构造图像物体的基本模型,并创建图像库。,2022/12/3,陈文华,12,3.1.1 数据冗余类型,5. 视觉冗余 人的接收系统如视觉系统和听觉系统是有一定限度的,人眼并不能察觉图像场的所有变化,如人类视觉系统分辨能力约为64灰度等级,而一般图像量化采用256灰度等级,这类冗余我们称为视觉冗余。 6. 听觉冗余 人耳的敏感性不能察觉所有频率的变化,存在听觉冗余。,2022/12/3,陈文华,13,3.1.2 数据压缩技术 的分类,根据多媒体数据冗余类型的不同,解码后
7、数据与原始数据是否完全一致、质量有无损失来进行分类,压缩方法可被分为有失真编码和无失真编码两大类。 无失真压缩法也称无损压缩,无失真压缩的特点是压缩比较小,大约在2l至5l之间,主要用于文本数据、程序代码和某些要求严格不丢失信息的环境中,常用的无失真压缩编码有如哈夫曼编码等。,2022/12/3,陈文华,14,3.1.2 数据压缩技术 的分类,有失真压缩法也称有损压缩,有失真压缩法的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内容等,压缩比可以从几到几百倍,常用的有失真压缩编码技术有预测编码、变换编码、模型编码、混合编码方法等。主要用于压缩图像、声音等信息。,2022/12/3,陈文
8、华,15,常用的图像和视频压缩方法如图3-1所示:,图像和视频压缩方法,哈夫曼编码行程编码算术编码LZW编码,DCT编码小波变换子带编码,无失真压缩,有失真压缩,预测编码,变换编码,模型编码,运动补偿,混合编码,分形编码,JPEGMPEGH. 261,3.1.2 数据压缩技术 的分类,2022/12/3,陈文华,16,3.2 预测编码技术,根据离散信号之间存在着一定的相关性的特点,利用图像像素的以往样本值(前面一个或几个点的数据)对于新样本值(下一个点的数据)进行预测,然后将样本的实际值与其预测值相减得到一个误差值(较小),这样可以用比较少的数码进行编码得到较大的数据压缩结果,达到压缩数据的目
9、的,因此预测编码技术是一种有失真编码方法。,2022/12/3,陈文华,17,最常用的是差值脉冲编码调制法,简称为DPCM。图3-2所示的是DPCM编、解码系统原理图,3.2 预测编码技术,2022/12/3,陈文华,18,3.2 预测编码技术,设xn为tn时刻的亮度取样值,预测器根据tn时刻之前的样本值x1,x2,xn-1对xn作预测,得到预测值xn,xn 与xn之间的误差为: enxnxn (31) 接收端恢复的输出信号为xn是xn的近似值,两者的误差是:xnxnxnxn十en(xn十en)enen (32),2022/12/3,陈文华,19,3.2 预测编码技术,在预测编码中,量化器的量
10、化对像是预测误差 enen分布在零值附近,正负两边的分布一般是对称的,图3-3 预测误差分布特性示意图。,图3-3 预测误差分布示意图,2022/12/3,陈文华,20,量化输出,输入电平,非均匀量化间隔,非均匀量化器,2022/12/3,陈文华,21,3.2 预测编码技术,非均匀量化器对于具有相同的输入信号动态范围、相同的图像主观评价质量下,输出的比特数较低。 预测编码系统的缺点: 预测误差的量化是造成图像质量下降的主要原因,比如在图像边界斜率过载,表现为图像轮廓变模糊;因最小量化电平不够小(量化位数不够高),使图像灰度缓变区产生颗粒噪声。,2022/12/3,陈文华,22,3.3 哈夫曼编
11、码技术,假设一个信息源能产生的事件序列中的事件取自一个有限事件集,事件集S中的任一事件Si发生的概率为P(Si)都相等,即P(Si) 1/S,则其所能携带的信息量I(Si)定义为: I(Si)log2 1/S log2 P(Si) (33) 这里P(Si)是信息源产生的事件为Si的概率。等式右边加一负号的目的是保证I(Si)的数值不为负值。定义中用2为底的对数,并规定信息量I(Si)的计量单位为比特(bit)。,2022/12/3,陈文华,23,3.3 哈夫曼编码技术,如果一个信息源发出的是由8个二值数(0,1)表示的组合信息。如果这种组合是等概率的,即P(Si) 1/256,(i0,1,2,
12、255),则此8个数字提供的信息量按(33)式计算: I(Si)log2 1/256 log2 1 十 log2256 8(bit) (34) 组合的总数是256种可能,每一种可能的组合为8比特。如果上述256种可能组合中是非等概率的,可以证明信息量I(Si)将小于8(bit)的。,2022/12/3,陈文华,24,3.3 哈夫曼编码技术,离散无记忆(不受其前面事件出现与否的影响)信息源中一个事件所携带的平均信息量H(S)定义为: (35) 平均信息量又称为信息熵,熵实际上是信源事件集中各事件所携带的信息量的数学期望。熵值的单位是比特。 数据压缩的另一个基本途径则是去清除联合信源中各信源间的相
13、关性。,2022/12/3,陈文华,25,3.3 哈夫曼编码技术,哈夫曼编码利用了以上原理,属于一种变字长码,把信息源事件按概率大小顺序排列,对出现概率大的信息源事件赋予短码字,而对于概率小的信息源事件赋予长码,只要码字长度按照信息出现的概率大小逆顺序排列,可通过数学证明这一结论:平均码字长度一定小于其它任何事件顺序的排列方式。,2022/12/3,陈文华,26,3.3 哈夫曼编码技术,哈夫曼编码一般过程如下: 1. 把事件(消息)按出现的概率由大到小排成一个序列。如P(1)P(2)P(3)P(Sm-1)P(Sm) ,即将信息源事件按概率递减顺序排列。 2. 把其中两个最小的概率P(Sm-1)
14、 ,P(Sm)挑出来,且将事件“1”赋给其中最小的,即P(Sm)1;事件“0”赋给另一稍大的即P(Sm-1) 0。,2022/12/3,陈文华,27,3.3 哈夫曼编码技术,3. 把两个最小概率相加作为新事件的概率,即求出P(Sm-1) ,P(Sm)之和P(Si): P(Si) = P(Sm-1) 十P(Sm)设P(Si)是对应于一个新的消息的概率。 4. 将P(Si)与上面未处理的(m2)个消息P(Sm-2)的概率重新由大到小再排列,构成一个新的概率序列。 5. 重复步骤2),3),4),在每次合并信息源时,将被合并的信源分别赋“0”和“1”直到所有m个事件的概率均已全部合并处理为止。,20
15、22/12/3,陈文华,28,3.3 哈夫曼编码技术,6. 寻找从每一个信息源事件到概率总和为1处的路径,对每一信息源事件写出“1”、“0”序列(从树根到信息源事件节点)作为码字。Huffman编码的平均码字长度可以用下列公式求出: (36) 这里的ni ,为第i个消息事件的码字长度,P(Si)为第i个消息出现的概率。举一例子来说明这一编码过程。 表3-1 信息源消息事件及其对应的概率,2022/12/3,陈文华,29,3.3 哈夫曼编码技术,图3-5 哈夫曼编码全过程:,F,2022/12/3,陈文华,30,3.3 哈夫曼编码技术,根据哈夫曼的编码规则,我们得到如表3-2所示: 由于8个消息
16、事件A,B,C,H的每个概率为已知,则哈夫曼码的平均长度L可按公式(3-6) 计算为:L10.4十3(0.180.10)4(0.10十0.06十0.07)十5(0.05十0.04)2.61比特,2022/12/3,陈文华,31,3.3 哈夫曼编码技术,图像的熵H(S)可按公式(3-5) 计算为: 定义编码效率为熵值H(S)与平均码长L的比值,即: 编码效率 (3-7) =2.55/2.61 97.8 % 哈夫曼编码有它的不足之处: 必须先得到信息源码元(消息)的统计概率,才能进行编码。折中的方法是根据经验值人为地给出Huffman码表,但这样的编码无法达到最佳。,2022/12/3,陈文华,3
17、2,3.4 行程(游程)RLE 编码技术,行程编码主要思路是用编码器不断比较信息源符号相邻元素值的变化幅度,一旦发现有明显的变化,就开始一个行程。编码器检测每一个行程起点位置开始的多次重复的比特或者字符序列,然后将一个相同值的连续串出现次数作为行程长度,并将行程长度转换成代码,再取用信息源符号的一个代表值作为代码,这种编码称为行程编码,或称游程编码,常用RLE表示。,2022/12/3,陈文华,33,对一幅两维图像F(i,j)作水平扫描后得到的部分像素的像素值,2022/12/3,陈文华,34,3.4 行程(游程)RLE 编码技术,用RLE对这一行数据编码后得到的码字表: RLE编码压缩编码技
18、术尤其适用于: 计算机生成的图形图像和黑白二值图像的编码,解压缩速度很快。RLE的压缩率的大小取决于图像本身的特点,可以得到较大的压缩比。对复杂的图像不适宜用RLE进行编码。,2022/12/3,陈文华,35,3.5 静态图像压缩编码的国际标准-JPEG,静态图像压缩编码JPEG概况 3.5.1 JPEG压缩编码的基本系统(1) 数据块准备(2) 离散余弦正变换DCT(3) 量化(4) DCT系数Z形扫描(5) DC系数编码(6) AC系数编码 3.5.2 JPEG压缩编码的扩展系统,2022/12/3,陈文华,36,3.5 静态图像压缩编码的国际标准-JPEG,JPEG是国际上彩色、灰度、静
19、止图像的第一个国际标准。用来在低分辨率到高分辨率的较宽范围内支持较高的图像分辨率和量化精度。它不仅适用于黑白、彩色照片和印刷图片等静止图像的压缩,而且扩大到了彩色传真、电话会议、新闻图片的传送上,以及电视图像序列的帧内图像的压缩编码也常采用JPEG压缩标准。,2022/12/3,陈文华,37,3.5 静态图像压缩编码的国际标准-JPEG,变换编码的基本思路: 1编码时略去某些能量很小的高频分量以降低码率。 2变换编码还可以根据人眼对不同频率分量的敏感程度而对不同系数采用不同的量化台阶,以进一步提高压缩比。 JPEG开发的压缩编码算法有三种工作方式: 1基本系统(单次扫描)。 2扩展系统(常采用
20、累进编码或分层编码方式)。 3无损压缩编码。,2022/12/3,陈文华,38,3.5.1 JPEG 压缩编码的基本系统,下面我们讨论一个基于离散余弦正变换DCT的有失真JPEG编解码的工作原理,图3-7是基于DCT的JPEG编码的过程框图。,2022/12/3,陈文华,39,1. 数据块准备,块准备将一帧(幅)图像分成88的数据块。对于彩色图像,可以看作多分量(Y亮度信号分量和U和V色度信号分量)进行压缩处理。 假设图像的大小为480行,每一行有640个像素。并假设按4ll取样格式,即四个亮度分量,一个色差分量U,一个色差分量V,则亮度分量就是一个640480的数值矩阵,色差分量是一个320
21、240的数值矩阵。 块准备必须划分出4800个(6404808)亮度块和两份1200个(3202408)色差块,共计7200个数据块。,2022/12/3,陈文华,40,2. 离散余弦正变换 DCT,若采样精度为P位,采样数据在范围(0,2P1),则变成在范围(2P1,2P1l)内,以此作为DCT正变换的输入。在解码器的输出端经IDCT反变换后,得到一系列 88的图像数据块,需将其数值范围由(2P1,2P1l)再变回到(0,2P 1 )范围内的无符号整数,才能重构图像。 2. 离散余弦正变换DCT 离散变换可以用矩阵表示。假设信源序列为一个n行k列的矩阵X,变换矩阵为T,经过某种变换后得到输出
22、序列Y为: YTX,2022/12/3,陈文华,41,2. 离散余弦正变换 DCT,如果所采用的变换是正交变换,则T为正交矩阵,即有: T-1TI 其中I是单位矩阵。在接收端,进行变换: XT-1Y 则可以恢复源信号序列X。 JPEG将88大小的子块图像进行离散余弦DCT变换。,2022/12/3,陈文华,42,2. 离散余弦正变换 DCT,下面是离散余弦正变换DCT和它的IDCT逆变换的数学表达式。 DCT变换为,2022/12/3,陈文华,43,2. 离散余弦正变换 DCT,将每个数据块的数据从空间域变换到频率域,输出64个DCT变换系数。如图3-8所示,64个像素变换为64个系数。 (a
23、)像素块 (b)DCT系数阵列,2022/12/3,陈文华,44,2. 离散余弦正变换 DCT,图3-9为二维离散余弦变换的示意图。,2022/12/3,陈文华,45,3. 量化,量化是一种不可逆的、有失真的过程,在基于DCT的编码器中,量化是引起信息丢失的主要原因。 对DCT系数进行量化有两个作用: 降低系数的幅值。 增加系数中值为0的项数。,2022/12/3,陈文华,46,3. 量化,表3-4缺省的亮度Y分量量化表,2022/12/3,陈文华,47,3. 量化,表3-5缺省的色度U、V分量量化表。,2022/12/3,陈文华,48,3. 量化,JPEG的量化器的公式可定义为: 其中:DC
24、T变换系数C(u,v) ; Q(u,v)是量化器步长,它是量化表的元素。,2022/12/3,陈文华,49,4. DCT 系数Z形扫描,图3-10 Z形扫描顺序 其一维数组元素的位置顺序如图3-10。 ZZ(0)C(0,0),ZZ(1)C(0,l),ZZ(2)C(l,0),ZZ(63)C(7,7)。编码顺序依据 ZZ的序号。,0 1 5 6 14 15 27 28 2 4 7 13 16 26 29 42 3 8 12 17 25 30 41 43 9 11 18 24 31 40 44 53 10 19 23 32 39 45 52 54 20 22 33 38 46 51 55 60 21
25、 34 37 47 50 56 59 61 35 36 48 49 57 58 62 63,2022/12/3,陈文华,50,5. DC 系数编码,对相邻块之间的DC系数的差值DIFFDiDi1进行编码。 DIFFZZ(0)PRED进行无失真编码。 因输入数据已偏移到零电平,已先行减去了2P1,在扫描起点初始化时刻,规定PRED0。,2022/12/3,陈文华,51,5. DC 系数编码,若后面的ZZ(0)的动态范围为10231023,则DIFF的动态范围可达20472047,这样每个值赋予一个码字则码表过于庞大。 因此,JPEG对码表进行简化,采用“前缀码(SSSS) 尾码”。 前缀码表示尾
26、码的有效位数(设为B位),尾码则直接采用B位自然二进制码。 8位精度的SSSS值的范围为011(12项),其码表可参见 表3-6 原始图像分量为8位精度时DC系数差值的典型哈夫曼编码表 所示。,2022/12/3,陈文华,52,5. DC 系数编码,对于尾码为DIFF的B位:当DIFF0,用原码,尾码的最高位是“l”;当DIFF0,用反码,尾码的最高位是“0”;如设DIFF12,SSSS4,其前缀码字为“101”,4位尾码为 “1100”,从而DIFF12的编码为“1011100”。 如果DIFF12,4位尾码为12反码“0011”,从而DIFF12的编码为“1010011”。解码时,由前缀码
27、“101”知尾码有4位;若码字是“1100”,因其最高位为“1”,立即可得DIFF12;若码字是“0011”,则因其最高位为“0”,知DIFF应为负数,尾码是个反码,取反后可得实际值DIFF12。,2022/12/3,陈文华,53,6. AC 系数的编码,Z形扫描将二维量化系数矩阵转换成一维数组ZZ中的“零游程/非零值”。 若最后一个“零游程/非零值”中只有零游程(ZRL),则直接传块结束码字“EOB” 结束本块。 “零游程/非零值” 编码表示为“NNNN/SSSS尾码”。 其中:4位“NNNN”为相对于前一个非零值的零游程计数,表示ZRL015; 如果ZRL15,则用“NNNN/SSSS”“
28、1111/0000”表示ZRL16,再对ZRLZRL16继续编码。,2022/12/3,陈文华,54,6. AC 系数的编码,对于基本系统,SSSS将不超过10,可参见 表3-7 AC系数的尾码位数赋值表。 前缀码的二维哈夫曼码表的大小为 NNNNSSSS2162;亮度和色差各有自己的码表(分别见 表3-8 亮度AC系数码表 和 表3-9 色差AC系数码表)。,2022/12/3,陈文华,55,6. AC 系数的编码,若ZZ(k)为非零AC系数,则其编码步骤与DC系数的类似: 根据ZZ(k)的幅度范围由表3-7查出尾码的位数SSSSB。 由ZRL计数值NNNN以及SSSS从表3-8或表3-9中
29、查出前缀码字。 按以下规则直接写出尾码的码字,当ZZ(k)0,用原码,当ZZ(k)0,用反码。,2022/12/3,陈文华,56,6. AC 系数的编码,现以一实例说明其编码过程。设某亮度图像块的量化系数矩阵按Z形扫描得到: k 0 1 2 3 4 5 6 7 ZZ(k) 12 5 2 0 2 0 0 0 k 8 930 31 3263 ZZ(k) 1 0 1 0 假如其前一亮度块的量化DC系数为12。,2022/12/3,陈文华,57,6. AC 系数的编码,则编码过程如下: 第一步,DC系数编码,因为DIFFZZ(0)PRED12120,由表3-6直接查得其前缀码“00”。 第二步,AC系
30、数编码。第1个非零值ZZ(1)5,它与ZZ(0)之间无零系数,故NNNN0,因“5”落入表3-7中的第3组,故 SSSS3,而NNNN/SSSS0/3,由表3-8查得为“100”,从而 ZZ(1)5的编码为“100101”。 第2个非零值ZZ(2)2,它与ZZ(1)之间无零系数,故NNNN0,因“2”落入表3-7中的第2组,故 SSSS2,而NNNN/SSSS0/2,由表3-8查得为“01”,而2的反码为“01”。从而ZZ(2)2的编码为“0101”。,2022/12/3,陈文华,58,6. AC 系数的编码,第3个ZZ(4)2,NNNN/SSSS1/2,查表3-8得码字“ 11011”,而2
31、的原码为10,所以取ZZ(3)ZZ(4)的编码为“1101110”。 第4个ZZ(8)1,NNNN/SSSS3/1,查表3-8得码字“111010”,而1的原码为1,所以取ZZ(5)ZZ(8)的编码为“1110101”。 第5个ZZ(31)1,由于 NNNN30912215,故先编码ZRL16,由表 3-8查得F/0(16进制表示)的码字为“11111111001”;此后有NNNN2216615,故再编码NNNN/SSSS6/1,查出其码字为“1111011”,而1的反码为0,从而ZZ(9)ZZ(31)的编码为“1111111100111110110”。,2022/12/3,陈文华,59,6.
32、 AC 系数的编码,此后无非零值,直接用一个“EOB(0/0)”结柬本块,查表3-7得其码字为“1010”。 综合以上两个步骤,可知该图像块的编码位流为: “00 100101 0101 1101110 1110101 11111111001 11110110 1010”共用了49位,而原始图像块要用 888512位表示,故压缩比为5124910.451。,2022/12/3,陈文华,60,3.5.1 JPEG 压缩编码的基本系统,对于中等复杂程度的彩色图像,其压缩比与恢复图像的质量大致如表3-10所示。 表3-10压缩效果与恢复图像质量的关系,2022/12/3,陈文华,61,3.5.1 J
33、PEG 压缩编码的基本系统,顺序编码运行方式,2022/12/3,陈文华,62,3.5.2 JPEG 压缩编码的扩展系统,1. 基于DCT的累进编码运行方式累进编码方式要扫描多次。,2022/12/3,陈文华,63,3.5.2 JPEG 压缩编码的扩展系统,2. 分层编码运行方式 水平方向和垂直方向分辨率以2的倍数因子下降(降低原始图像的空间分辨率),导出若干低分辨率的原图像,分层后再采用JPEG的压缩编码方法进行编码,随后以上重复步骤,直到图像达到完整的分辨率编码为止。,2022/12/3,陈文华,64,3.5.2 JPEG 压缩编码的扩展系统,3. 无损压缩预测编码运行方式,2022/12
34、/3,陈文华,65,无损压缩预测编码运行方式,DPCM编码简单,易于用硬件实现。由于是无失真编码,解码后的图像质量很高。,Px,2022/12/3,陈文华,66,3.6 运动图像压缩编码的国际标准MPEG,运动图像压缩编码MPEG概况 3.6.1 MPEG 标准简介 3.6.2 帧间编码技术 3.6.3 运动补偿技术 3.6.4 MPEG视频压缩数据流结构 3.6.5 MPEG音频,2022/12/3,陈文华,67,3.6 运动图像压缩编码的国际标准MPEG,MPEG专家组工作将整个过程分为三步: 要求 提出要求有双重的目的:目标, 竞争的原则。 竟争 提出了14个不同的方案。 集中 测试和评
35、价,并综合出一个最佳方案。,2022/12/3,陈文华,68,3.6.1 MPEG 标准简介,1. MPEG1标准 MPEG1的标准名称为“动态图像和伴音的编码”用于速率小于每秒约1.5Mbps的数字存储媒体。 MPEG1的最大压缩比可达约1200。 MPEG1标准有3个部分组成: MPEG1视频(Video) MPEG1音频(Audio) MPEG1系统(System),2022/12/3,陈文华,69,1. MPEG1 标准,设计目标是把每秒30帧、亮度信号的分辨率为360240,色度信号分辨率为180120,传送压缩成数据率为1.2Mbps的编码图像。 MPEG1电视图像的压缩算法采用两
36、种基本压缩技术: 为减少时间冗余度,采用1616个像素组成的图像块的运动补偿技术。 为了减少空间冗余度,采用88图像化的DCT变换技术。,2022/12/3,陈文华,70,1. MPEG1 标准,声音压缩编码技术支持高压缩的音频数据流,其采样率为48,44.l或22KHz,量化精度为16位的声音压缩。 支持两个声道,可设置成单声道(mono)、双声道(dual)或立体声(stereo)。采用MPEG1算法可以把位速率降到 0.192 Mbps。 MPEG1系统采用多路复合技术,把数字电视图像和声音复合成单一数据位流,MPEG1的数据位流分成内外两层,外层为系统层,内层为压缩层。,2022/12
37、/3,陈文华,71,2. MPEG2 标准,MPEG2标准称为“活动图像及有关声音信息的通用编码”标准。 设计目标是把以10Mbps速度传送每秒30帧、分辨率为720572高分辨率的广播级视频图像,压缩后的传送数据率为315Mbps。 MPEG2标准是HDTV、DVD以及新型数字式交互有线网所采用的数字视频压缩标准。 MPEG2标准是MPEG1标准的扩充、丰富和完善,并与MPEG1标准相兼容。,2022/12/3,陈文华,72,2. MPEG2 标准,MPEG2标准主要分为四部分: 第一部分:系统。 第二部分:视频。 第三部分:音频。 第四部分:一致性测试。 MPEG2标准使计算机处理全彩色、
38、全屏幕、全动态的视频图像,同时也能使有线、无线、CDROM等传输和存储介质有效地传送视频图像,并且具有CD的音质,使多媒体技术与通信和广播等技术结合起来。,2022/12/3,陈文华,73,3. MPEG4 标准,用来支持低比特率下的多媒体通信,还支持用于通信、访问和数字视听数据处理的新方法。注重多媒体系统的交互性和灵活性,以最少量的数据、极低的音频/视频压缩码率来显示建立精确的画面,达到具有高效编码、高效存储与传播以及可交互操作的特性。,2022/12/3,陈文华,74,4. MPEG7 标准,正式名称为多媒体内容描述接口。 MPEG7标准只规定信息内容描述格式,而不规定如何从原始的多媒体资
39、料中抽取内容描述和查询、检索方法。MPEG7标准不针对特定的应用领域,而是尽可能支持广泛的应用领域。 主要用途:在数字图书馆、多媒体目录服务、图像分析、音乐词典、教育、多媒体编辑、多媒体业务引导等多个领域。,2022/12/3,陈文华,75,4. MPEG7 标准,视频压缩算法用到了三项基本技术: 帧间编码技术和基于块的运动补偿技术。 空间压缩(也称为帧内压缩)技术。 熵编码,使用Huffman编码技术。 MPEG标准所用的编码模型与JPEG的编码模型类似,分为5个阶段: 帧间编码和运动补偿、变换编码、量化、直流分量DC及交流分量AC的编码和熵编码。,2022/12/3,陈文华,76,3.6.
40、2 帧间编码技术,利用的时间相关性可进一步消除视频其相邻帧之间具有冗余信息,提高压缩比。 将图像分成三种类型: 1. 参考帧(I)以自身图像的相关性进行压缩处理,必须要传送。 2. 预测帧(P) 用前面的参考帧或预测帧作为参照图像信息进行预测编码,并可作为下一个预测帧(B帧图像或P帧图像)的参照图像信息。但因此可能引起预测误差。,2022/12/3,陈文华,77,3.6.2 帧间编码技术,3. 双向预测帧(B) 又称插补帧,在预测时,既可以使用前面或后面的视频帧(I参考帧,P预测帧)进行双向预测,也可以同时使用前后两个视频帧进行预测编码,但本身不能作为下一个预测帧的参照图像信息。在编码时,先对
41、参考帧进行变换编码,然后对预测帧进行编码,再对两者之间的双向预测帧进行编码,这个过程对随后的下一个预测帧和双向预测帧重复,直到完成所有帧的编码为止。,2022/12/3,陈文华,78,3.6.2 帧间编码技术,采用下述四种预测技术: 帧内编码 前向预测 后向预测 双向预测 图3-12显示一个典型的视频图像序列次序。,I B B P B B P B B P B B P B B I B B 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18,I帧和P帧间有两个B帧,每十五帧有一幅I帧图像(0.5秒),2022/12/3,陈文华,79,3.6.2 帧间编码技术,
42、编码器的输出视频图像序列排列顺序。1 4 2 3 7 5 6 10 8I P B B P B B P B9 13 11 12 16 14 15 B P B B I B B 发送端编码器的输出到接收端解码器的输入端,经解码器的输出,又恢复为图3-12编码器输入顺序显示。,2022/12/3,陈文华,80,3.6.3 运动补偿技术,运动矢量选择二维1616像素块作为一个的运动矢量处理。 运动矢量又称为宏块,它有不同的类型: 可以是I帧内型,F前向预测型、B后向预测型A平均值(双向预测)型。 概念: 当前图像可看作是前一帧图像位移后的结果,其位移的内容包括运动方向和运动幅度。运动补偿方法是跟踪画面内
43、的运动情况并对其加以补偿后,与当前的图像宏块值相减得到预测误差,再进行编码、传送。,2022/12/3,陈文华,81,3.6.3 运动补偿技术,讨论预测器计算表达式,设前一参照帧为I0,后一参照帧为I2,当前帧为I1的示意图。,2022/12/3,陈文华,82,3.6.3 运动补偿技术,表3-13给出了I帧内块、F前向预测块、B后向预测块和A平均值块的预测器的计算表达式。,2022/12/3,陈文华,83,MPEG2 视频数据流的六层结构图,2022/12/3,陈文华,84,视频数据流之间的关系图,2022/12/3,陈文华,85,3.6.4 MPEG视频压缩数据流结构,1. 视频序列层: 图
44、像序列头包含了图像宽度、高度、像素长宽比、帧率、位率、缓冲区尺寸、量化矩阵等信息。 2. 图像组层: 图像组头包含时间代码等信息,图像组中的第一个图像总是I图像帧。 3. 图像层: 由图像头及多个宏块片构成的。图像头包含该图像的编码类型及码表选择等信息。,2022/12/3,陈文华,86,3.6.4 MPEG视频压缩数据流结构,4. 宏块片层: 宏块片由宏块片头和多个连续的宏块以及附加数据组成。 5. 宏块层: MPEG算法中的基本编码单元。它是图像帧内的一个1616像素的亮度信息和两个88像素色差信号块组成,附加数据包括宏块的编号、宏块的编码类型、量化参数、运动矢量等信息。,2022/12/
45、3,陈文华,87,宏块结构有三种格式,411格式: 422格式:,2022/12/3,陈文华,88,宏块结构有三种格式,444格式:,Y Cb Cr,2022/12/3,陈文华,89,6. 块 层,MPEG算法中最小的编码单元,它包含88像素,有三类图像信息之一,亮度信号(Y)、色差信号(U/V)。,2022/12/3,陈文华,90,3.6.5 MPEG 音频,MPEG音频标准有以下特点: 1. 音频信号采样率可以是22KHz,44.1 KHz或48KHz。 2. 压缩后的比特流可以按以下3种模式之一支持单声道或双声道:(1)提供给单音频通道的单声道模式。(2)提供给两个独立的单音频通道的双单声道模式。(3)提供给立体声通道的立体声模式。,2022/12/3,陈文华,91,3.6.5 MPEG 音频,3. 3个独立的压缩层次:(1)层1最简单,使用比特率384Kbps。(2)层2的复杂度中等,使用比特率192Kbps左右,主要应用于数字广播的音频编码。(3)层3最复杂,使用比特率64Kbps,音质好,适用于ISDN上的音频传输。 4. 编码后的比特流支持循环冗余校验CRC。 5. 还支持在比特流中携带附加信息。,
链接地址:https://www.31ppt.com/p-1525346.html