欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    图像通信课件第五章.ppt

    • 资源ID:6222948       资源大小:5.08MB        全文页数:88页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    图像通信课件第五章.ppt

    序列图像编码及运动估计第五章,李春雷电子信息学院,目录,5.1 序列图像编码系统5.2 二维运动估计5.3 采用时间预测和变换编码的视频编码5.4 MPEG-1视频编码和解码5.5 视频图像编码标准,中原工学院电子信息学院,2,概述,数字电视、VCD、DVD、VOD、会议电视、流媒体、多媒体数据库和计算机网络等技术的日益融合和广泛应用,已经遍及国民经济和社会生活的各个方面。语音、图形、图像和数据等信息的传输、处理、存储及检索技术成为这些技术中重要的组成部分。为了能够有效地传输和存储这些信息,人们广泛采用了数字压缩编码技术。新概念、新算法、新标准、新协议正在不断涌现,这门技术已经成为当今信息与通信工程学科的主要研究热点之一。,中原工学院电子信息学院,3,5.1 序列图像编码系统,视频看作一个沿时间轴分布的图像序列,统称为序列图像,其编码称为序列图像编码。如图5.1所示。对视频图像的压缩编码称为视频编码,即对构成视频的图像序列中的图像进行压缩编码。,中原工学院电子信息学院,4,5.1 序列图像编码系统,视频编码的主要目的就是在保证一定重建质量的前提下,以尽量少的数据量来表征视频信息,以减少视频序列的码率,便于能够在给定的通信信道上实时传输视频信号。传统压缩编码:以香农信息论为出发点,用统计概率模型来描述信源,这种基于数据统计的、以消除视频数据相关冗余为目的的第一代视频编码技术获得了巨大成功。JPEG、MPEG-1,MPEG-2、H.261、H.263 等压缩编码国际标准,以及它们对多媒体产业的巨大影响就是有力的证明。,中原工学院电子信息学院,5,5.1 序列图像编码系统,第二代编码:第一代视频编码技术并未考虑信息接收者的主观特性、视频信息的具体含义和重要程度等,只是力图去消除数据冗余。基于内容的第二代视频编码技术,它所关心的是如何去消除视频内容的冗余,它认为人眼是视频信号的最终接收者,视频编码时应充分考虑人眼视觉特性这个因素,这是目前视频编码中最为活跃的一个领域。,中原工学院电子信息学院,6,5.1 序列图像编码系统,5.1.1 视频图像压缩的必要性 对一帧NTSC 制式的彩色视频图像进行数字化传输(图像数字化成720480,颜色分量中的每个像素用8 bit 表示,每秒传输30 帧),信道的传输能力要达到约248 Mb/s。一帧HDTV 的彩色电视图像,其分辨率为1920 1080,每种颜色分量中的每个像素用8 bit 表示,每秒传输30 帧,那么信道的传输速率为1.4 Gb/s。因此,不进行视频图像的压缩将对存储器的存储容量、传输信道的传输率(带宽)及计算机的处理速度等方面造成极大的压力。为了解决这些问题,对视频图像进行压缩编码就显得十分必要和迫切了。,中原工学院电子信息学院,7,5.1 序列图像编码系统,5.1.2 视频图像编码系统的一般结构 图5.2给出了一个视频编码系统的基本组成。在编码器中,首先用信源模型的参数描述数字化的视频序列。信源模型参数被量化成有限的符号集,量化参数取决于比特率与失真之间所期望的折衷。最后,用无损编码技术把量化参数映射成二进制码字。最终产生的比特流在通信信道上传输。解码器反向进行编码器的二进制编码和量化过程,重新得到信源模型的量化参数。然后,解码器用信源模型的量化参数利用图像合成算法恢复解码后的视频帧。,中原工学院电子信息学院,8,5.1 序列图像编码系统,中原工学院电子信息学院,9,5.1 序列图像编码系统,5.1.3 视频编码方案分类 几种视频编码算法,它们相应的信源模型中(见表5.1)。信源模型可做出图像序列的像素之间在时间和空间上相关性的假设,也可考虑物体的形状和运动或照度的影响,一个编码算法的信源模型要根据其编码参数集和图像合成算法确定,中原工学院电子信息学院,10,5.1 序列图像编码系统,1.基于波形的编码 把像素假设为统计上独立的,得到的模型是最简单的信源模型(见表5.1)。相关的编码技术就称为脉冲编码调制(PCM)。图像信号的PCM 表示通常不用于视频编码,因为它与其它信源模型相比效率较低。大多数图像邻近像素的颜色、色度存在较高的相关性.为了减少编码比特率,使用K-L 变换、DCT 变换或小波变换等去除原图像像索点间的相关性,并把原始信号的能量集中到少数的几个系数上。需要量化和编码的参数是变换系数.利用相邻样点间相关性的另一种方法是预测编码,先由前面编码的样点预测要编码的样点值,然后对预测误差进行量化和编码。,中原工学院电子信息学院,11,5.1 序列图像编码系统,现在使用的视频编码标准如H.261、H.263、MPEG-l、MPEG-2 和MPEG-4等都采用了基于块的混合编码的编码方法,它综合了预测编码和变换编码。2.基于内容的编码 基于块编码的缺点:采用固定大小的方块来近似场景中物体的形状,如果这些边界块中包含了具有不同运动的两种物体,那么用一个运动矢量就不能说明两个不同的运动,存在误差。基于内容的编码器企图把视频帧分成对应于不同物体的区域,并分别编码这些物体,对于每个物体,除了运动和纹理信息外,还必须传送形状信息。,中原工学院电子信息学院,12,5.1 序列图像编码系统,二维轮廓描述物体的形状:采用分割算法运动矢量场描述物体的运动:采用运动估计颜色波形描述物体的纹理:采用纹理提取算法 在视频序列中的物体已知的情况下,可采用基于知识的编码,该编码使用特别设计的线框来描述已识别出的物体类型。因为它自适应于物体的形状,有时也把这种技术称为基于模型的编码。已知可能的物体类型和它们的行为时,可以用语义基编码。,中原工学院电子信息学院,13,5.2 二维运动估计,为什么需要二维运动估计?在视频压缩的应用中,根据估计出的运动矢量和前一个已编码的参考帧,可以得到当前帧的运动补偿预测。运动估计最终要达到的目的是使编码运动矢量和预测误差所用的总的比特数最少。我们可以在运动估计的准确性与表示运动参数所用的比特数之间做出折衷的选择。在某些情况下,虽然估计的运动并不是精确的实际物体运动,但仍可以产生好的运动预测。,中原工学院电子信息学院,14,5.2 二维运动估计,5.2.1 二维运动估计的基本概念 二维运动估计既是迈向三维运动分析的第一步,也是运动补偿滤波和压缩的主要部分。运动估计算法都是基于图像亮度的时间变化,把观测到的或表现出来的二维运动矢量的速度称为光流。1.二维运动相关概念 二维运动(也称为投影运动)指的是三维运动在图像平面上的透视或正交投影。三维运动的特征可依据物体像素的三维瞬时速度或三维位移来表征,二维位移和速度场分别是三维场在图像平面上的投影。,中原工学院电子信息学院,15,5.2 二维运动估计,“视在二维位移场”和“视在二维速度场”不同于投影产生的二维位移(速度)场,因为:(1)实际视频信号缺乏足够的空间图像梯度。在实际运动能被观察到的运动范围内要有足够的灰皮等级(颜色变化,才能产生光流,否则光流就不可观测.(2)外部光照的变化。一个可观测到的光流,可能由于光照引起,即使没有运动,光流亦可观察到。二维位移和速度场分别是三维场在图像平面上的投影。而对应场和光流场是由时变亮度图像特性得到的位移和速度函数。实际应用中,由于只能观察到光流场和对应场,所以在本章中假设它们等同于二维运动场。,中原工学院电子信息学院,16,5.2 二维运动估计,中原工学院电子信息学院,17,5.2 二维运动估计,中原工学院电子信息学院,18,5.2 二维运动估计,中原工学院电子信息学院,19,5.2 二维运动估计,人类视觉对图像中的静止部分有较高的分辨率,必须给予充分的空间分辨率。在传输静止图像或序列图像的静止部分时,要保证较高的水平和垂直分辨率,但此时可以减少传输帧数。在接收端依靠帧存储器把未传输的帧补充出来。人类视觉对序列图像中运动物体的分辨率将随着运动物体速率的增大而显著降低。物体的运动速度越高,就可用更低的清晰度进行传输。例如,可以对序列图像中的静止部分每两帧传输一次,而对运动部分采用2:1的亚抽样,这样就降低了空间分辨率,而且对视觉来说,不易觉察出收端的复原图像的质量有较明显的降低。,中原工学院电子信息学院,20,5.2 二维运动估计,中原工学院电子信息学院,21,5.2 二维运动估计,中原工学院电子信息学院,22,5.2 二维运动估计,5.2.3 运动估计与补偿的基本概念 采用帧间预测编码可以减少时间域上的冗余度,提高压缩比。静止图像:效果较好;运动图像:效果较差。对当前帧某像素(或像素块)进行预测时知道这个像素(或像素块)是从前一帧的哪个位置移动过来的,则在做预测时以真实对应位置上的像素值作为预测值,这样预测的准确性将大大提高。采用运动补偿帧间预测技术,可以更好地利用序列图像的时间冗余度,使预测差值的方差大大减小,从而降低误码率,提高压缩比。获得好的运动补偿的关键是运动估计。,中原工学院电子信息学院,23,5.2 二维运动估计,1.运动估计 将图像分成若干个块,并检测出当前帧中的每个块在前一帧(参考帧)图像中的对应位置,这个过程叫做运动估计。运动估计常以宏块为单位进行,计算被压缩图像与参考图像在对应位置上的宏块间的位置偏移。这种由运动估计得到的位置偏移是以运动矢量来描述的,水平和垂直位移。,中原工学院电子信息学院,24,5.2 二维运动估计,2.运动补偿运动估计及补偿的基本原理:利用帧间运动估计得到待编码图像块的一个(或多个)参考块,然后用这个参考块进行运动补偿,将补偿后的残差进行DCT 变换和可变长编码。从原理上讲,运动补偿帧间预测编码包括以下4 个部分:(1)物体划分。静止区域和运动区域,运动补偿预测编码主要是针对运动区域进行编码。(2)运动估计。对运动物体进行位移估计,找出运动矢量。(3)运动补偿。建立同一物体在不同帧的空间对应关系。(4)预测编码。对补偿后的物体的位移帧差信号进行DCT 变换、量化、编码。,中原工学院电子信息学院,25,5.2 二维运动估计,图5.9表示了帧间运动估计与补偿预测的基本过程:,中原工学院电子信息学院,26,5.2 二维运动估计,5.2.4 基于块的运动估计-匹配算法 1.基本思想及研究现状 将图像序列的每一帧分成固定大小的宏块,然后对于当前帧中的每一块根据一定的匹配准则在参考帧某一给定搜索范围内找出与当前块最相似的块,即匹配块,由匹配块与当前块的相对位置计算出运动位移,所得运动位移即为当前块的运动矢量。运动估计越准确,补偿的残差就越小,编码的效率也就越高,解码出的图像质量越好。但这种运动估计在整个系统中的计算复杂度很大,往往占整个系统的50%以上。,中原工学院电子信息学院,27,5.2 二维运动估计,全搜索法:搜索精度最高,然而计算复杂度太高。改进快速运动估计算法:三步法、二维对数法、交叉法等,通过限制搜索位置的数目来减少计算量;动态搜索窗调整法是根据当前结果动态调整下一步搜索步长的大小,算法性能在一定程度上有了改进 预测搜索法、自适应运动跟踪法等利用相邻块的运动相关性选择一个反映当前运动块趋势的预测点作为初始搜索点,以提高搜索速度和预测的准确性;1999年10月,菱形法被MPEG-4国际标准采纳并收入验证模型,并相继出现了正方形菱形法、线性菱形并行搜索法。,中原工学院电子信息学院,28,5.2 二维运动估计,2.提高搜索效率的主要技术 块匹配的基本思想是依据一定的匹配法则,通过在两帧之间的像素域利用搜索程序找到最佳的运动矢量估计。,中原工学院电子信息学院,29,5.2 二维运动估计,运动估计算法的整体效率主要体现在图像质量、压缩码率和搜索速度(复杂度)三个方面。运动估计越准确,预测补偿的图像质量越高;补偿的残差就越小,编码所需位数也就越少;运动估计速度越快,越有利于实时应用。提高图像质量,加快估计速度,减小比特率等都是运动估计算法的研究目标。通常是通过研究初始搜索点的选择、匹配准则和运动搜索策略等来提高算法效率。1)初始搜索点的选择(1)直接选择参考帧对应块的中心位置。(2)选择预测的起点。,中原工学院电子信息学院,30,5.2 二维运动估计,2)块匹配准则 运动估计算法中常用的匹配准则有三种:最小绝对值差(MAD)、最小均方误差(MSE)和归一化互相关函数(NCCF)。3)搜索策略 搜索策略选择恰当与否对运动估计的准确性、运动估计的速度都有很大的影响。有关搜索策略的研究主要是解决运动估计中存在的计算复杂度和搜索精度这一矛盾。,中原工学院电子信息学院,31,5.2 二维运动估计,3 典型的块匹配算法1)全搜索法(FS,Full Search method)(1)算法思想:全搜索法也称为穷尽搜索法,是对搜索范围内所有可能的候选位置计算其SAD(i,j)值,从中找出最小SAD,其对应偏移量即为所求运动矢量。此算法计算量虽大,但最简单、可靠,找到的一定是全局的最优点。(2)算法描述:Step1 从原点出发,按顺时针方向由近及远,在每个像素处计算SAD 值,直到遍历搜索范围内的所有点。Step2 在所有的SAD中找到最小块误差(MBD)点,该点所在位置即对应最佳运动矢量。,中原工学院电子信息学院,32,5.2 二维运动估计,2)二维对数法(TDL,Two-Dimensional Logarithmic)二维对数搜索法由J.R.Jai n 和A.K.Jain 提出,它开创了快速算法的先例,分多个阶段搜索,逐次减小搜索范围直到不能再小时才结束。(1)基本思想:二维对数法是从原点开始,以“十”字形分布的五个点构成每次搜索的点群,通过快速搜索跟踪MBD 点。(2)算法描述:Step1 从原点开始,选取一定的步长,在以十字形分布的五个点处进行块匹配计算并比较。,中原工学院电子信息学院,33,5.2 二维运动估计,中原工学院电子信息学院,34,5.3 采用时间预测和变换编码的视频编码,5.3.1 三种常用的视频帧 典型的视频压缩技术是将第一帧图像按照静态图像编码,接着确定出前一帧与当前帧的差值,通过对这些差值进行编码来得到后续帧图像的编码。如果当前帧图像与前一帧图像区别很大,应该独立于其它帧图像对其迸行单独编码。在视频压缩中,常使用三种视频帧,其关系见图5.23 所示.,中原工学院电子信息学院,35,5.3 采用时间预测和变换编码的视频编码,l.帧内图像 帧内图像(Intra Frame 或Intra)也称I帧图像,是不考虑与其它图像帧的关系而单独进行编码的图像,它不需要任何其它的帧图像来进行预测编码。帧内视频图像的编码是通过减少视频空间冗余度来完成压缩的,它们也提供了数据流的起始解码数据指针.2.前向预测图像 前向预测图像(Predicted Pictures)也称P帧图像,是根据前面已编码的I图像或P图像进行编码的图像,它利用运动补偿技术完成编码,并且还可以为下一非I帧图像提供运动预测,通过降低空间和时间上的冗余度。,中原工学院电子信息学院,36,5.3 采用时间预测和变换编码的视频编码,3.双向预测图像 双向预测图像(Bidirectional Prediction Pictures)也称B 帧图像,是同时根据前面的I图像和后面的P 图像(或前后两个P 图像)进行编码的图像。它也是利用运动补偿技术完成编码,其压缩效率最佳。为了能实现利用下一帧图像进行后向预测,编码器要对视频帧重新排序,视频帧的顺序编排将由原来的播放画面顺序改变成视频传送顺序。利用前一帧对当前帧进行编码将引入失真,导致直到下一帧内图像出现前的所有图像解码都不准确,要求除对第一帧进行帧内编码,还须在图像序列中间不时采用帧内编码。,中原工学院电子信息学院,37,5.3 采用时间预测和变换编码的视频编码,图5.24(a)是这三种图像构成的一个图像序列,以编码器输入的顺序排列。图5.24(b)是以解码器的输出和显示的顺序排序的同一图像序列。每一帧图像都要有两个时间标记,一个表示编码顺序,一个表示显示顺序。,中原工学院电子信息学院,38,5.3 采用时间预测和变换编码的视频编码,5.3.2 基于块的混合视频编码 每个视频帧被分成固定大小的块,对每个块独立地进行处理,称为基于块的。混合意味着每个块是联合运用运动补偿时间预测和变换编码进行编码的。图5.25 给出了这种编码范例中的关键步骤。首先,利用基于块的运动估计由前面已编码的参考帧对块进行预测,运动矢量确定当前块和最佳匹配块之间的位移,得到预测误差。然后,用DCT 对预测误差块进行变换,量化DCT 系数,并用可变长编码把它们转换成二进制码字。,中原工学院电子信息学院,39,5.3 采用时间预测和变换编码的视频编码,实际用于运动估计的块大小可能与用于变换编码块的大小不一样。运动估计是在一个较大的块,称为宏块(MB.Macro Block)上进行的,宏块被进一步分成几个块,对这些块求DCT 的值.例如,在大多数视频编码标准中,宏块的大小是1616个像素,而每个块的大小是8 8 个像素。在MPEG-1和MPEG-2标准中,把帧划分成图像组(GOP.group of pictures)。而每个图像组以I 帧开始,后跟交织的P 帧和B帧。这使随机访问成为可能,可以访问任何图像组而不需要对前面的图像组进行解码。图像组结构也允许快进和快倒,仅解码I帧或解码I帧和P帧就可以实现快进。以后的顺序仅解码I 帧就可以实现快倒。,中原工学院电子信息学院,40,5.4 MPEG-l 视频编码和解码,5.4.1 MPEG-1介绍 MPEG 是活动图像专家组(Moving Picture Expert Group)的缩写。MPEG 是一种视频压缩方法,包括对数字图像、声音以及两者同步信号的压缩。MPEG-1是针对数据率大约为1.5 Mb/s 的中等数据率情况的标准。MPEG-2主要针对的是10 Mb/s 的高数据率的标准。MPEG-3起初为HDTV 压缩而设计,但后来发现是多余的,于是将其归并到MPEG-2中去。MPEG-4主要针对的是码率低于64 kb/s 的甚低数据率的情况。本节主要针对MPEG-1的图像压缩方法进行讨论。,中原工学院电子信息学院,41,5.4 MPEG-l 视频编码和解码,中等数据率的视频:视频分辨率360288 像素,每像素24位,刷新率24 帧/秒,需3602882424=59719680 b/s的数据率;音频为双声道,每声道44kHz,16 位量化,数据率为244 00016=1408000b/s。总的数据率为61.1Mb/s。假设此数据率通过MPEG-1 压缩到大约1.5Mb/s 中等数据率,则压缩率将超过40。MPEG的视频序列,由许多幅图像组成,每幅图像有3 个分量:一个亮度分量(Y)和两个色度分量(Cb 和Cr)。每个分量为一矩形的采样数组,数组的每行称为光栅行。每个像素为3个采样的集合。MPEG-1的采样率为4:2:2。,中原工学院电子信息学院,42,5.4 MPEG-l 视频编码和解码,MPEG编码器的输入称为源数据,解码器的输出称为重建数据。源数据被组织成若干数据包(如图5.26(b)所示)。每个数据包的开头为一个32 位的开始码,接着为一个头(header),结尾为一结束码。在数据包的头和尾之间包含有许多数据组,数据组中包含着压缩数据。,中原工学院电子信息学院,43,5.4 MPEG-l 视频编码和解码,MPEG解码器有3个部分,对视频、音频和系统数据进行解码。系统层读取并解释源数据中的各个码字和头,将数据组发往音频层或者视频层(如图5.26(a)所示)进行缓冲存储并解码。,中原工学院电子信息学院,44,5.4 MPEG-l 视频编码和解码,5.4.2 输入图像格式与图像类型 MPEG图像基本组成单元为宏块(1块1616 的亮度采样和2块88 的色度采样)。MPEG 采用离散余弦变换将6个宏块变换成不相关的值,对结果进行量化编码。MPEG采用不同的量化表和不同的码表来进行帧内和帧间编码。MPEG中图像以“条带”(slice)的形式组织起来,每一条带由一组相邻的宏块组成,使得很多相邻宏块可能有相同的灰度值。图5.27(b)显示了一幅假定的MPEG 图像是如何分成条带的,图像中的每一个正方形小块为宏块。,中原工学院电子信息学院,45,5.4 MPEG-l 视频编码和解码,1.输入图像的格式 MPEG-1采用源输入格式(SIF,Source Input Format),有35228825 或35224030两种选择,总数据量相同,通过表5.2进行图像分辨率参数设置,编码更大的图像。,中原工学院电子信息学院,46,5.4 MPEG-l 视频编码和解码,2.图像类型 MPEG-l视频算法为了追求更高的压缩效率,更注重去除图像序列的时间冗余度,同时又必须满足多媒体播放等随机存取要求,但对编/解码的时间延迟则可以放宽些。为折衷这些相互矛盾的要求。MPEG-l 将图像组中的图像划分为I 图像(帧内编码图像)、P图像(预测编码图像)、B 图像(双向预测编码图像)和D 图像(直流编码图像)。这些图像被分为很多组,可以是开放或封闭的。图像在编码前以编码顺序排列,经解码的输出图像以显示顺序显示。在封闭组中,P图像和B图像仅能通过本组的其它图像来解码得到。而对开放组,可以通过本组外的图像来解码得到。,中原工学院电子信息学院,47,5.4 MPEG-l 视频编码和解码,为了满足不同的使用要求,MPEG-l 采用了更为灵活的开放性视频流:(1)为可随机存取和编辑并兼顾压缩比,允许编码端自行选择独立的I图像的使用频率和在视频流中的位置。建议随机存取点间隔为0.2 s。通过搜索并解码显示各GOP中的I图像,可实现快进/快退功能;以GOP为单位,还可实现倒放。(2)由于I、P 之间插入的B 图像越多,压缩比往往就越高,所需帧存储器也越大,成本也随之上升;对于大多数景物,参考图像之间插入两帧B 图像较为适宜。(3)编码端的视频流记录格式并不要求与图像的显示顺序相一致,在编码前要将输入图像帧的序列按编码顺序重排。,中原工学院电子信息学院,48,5.4 MPEG-l 视频编码和解码,MPEG 中对于P 帧和B 帧的使用没有做任何要求。下而是一个典型的测试序列:对SIF分辨率,采用IPBBPBBPBBPBBPBB 的GOP结构,在码率为1.15Mb/s 的MPEG 视频序列中,I帧、P 帧和B 帧的平均图像码率分别为156 kb/s、62 kb/s、15 kb/s。可以看出,B 帧远远小于I 帧和P 帧。但是如果单纯增加I、P 帧之间B 帧的数量,并不能获得更好的压缩比,因为这样会增加B 帧与相应的I 帧和P 帧间的时间距离,降低了它们之间的时间相关性,从而降低了运动补偿预测的性能。,中原工学院电子信息学院,49,5.4 MPEG-l 视频编码和解码,5.4.3 视频编码与解码的具体过程 MPEG-l视频压缩编码与图像重建的原理框图如图5.28所示。视频压缩编码技术是以基于1616子块的运动补偿和DCT 为基础的,基于16 X 16 子块的运动补偿技术可以减少序列的时间冗余度。DCT 技术用于减少空域冗余度。,中原工学院电子信息学院,50,5.4 MPEG-l 视频编码和解码,1.预处理过程 包括RGB到YCbCr的色彩空间变换、格式转换、预滤波和亚采样等,这些操作在MPEG-1中没有给出。例如对CCIR601的预处理,在信源输入格式为SIF时,预处理的过程如图5.29 所示。对于PAL制式,SIF格式为35228825 帧,而对于NTSC 制式,SIF格式为352 24030 帧。,中原工学院电子信息学院,51,5.4 MPEG-l 视频编码和解码,2.编码过程 MPEG 标准并没有定义特定的编码过程,只是定义了编码比特流的语法和解码过程。通过图5.30给出一个MPEG-1编码器的功能。,中原工学院电子信息学院,52,5.4 MPEG-l 视频编码和解码,1)帧序重排 将显示顺序重排为编码顺序。2)运动估计和补偿 I 帧为帧内编码,对宏块DCT,量化DCT 系数,再对量化结果进行VLC;对于P帧和B帧图像,对其预测误差进行编码,即帧间预测编码。3)比特流缓冲器 比特流缓冲器中数据量的多少,反映出当前宏块的复杂程度,编码器可据此通过调节器调整量化器的加权因子q。4)其它部分 DCT 系数、运动矢量、宏块类型等,复用为MPEG-1比特流后传输。,中原工学院电子信息学院,53,5.4 MPEG-l 视频编码和解码,3.宏块的编码 MPEG-1定义三种图像类型:I 帧、P 帧和B 帧。1)帧的编码 对块进行DCT 变换后,每个DCT系数都要与帧内编码量化矩阵的相应元素相除来进行量化。对于DC 系数,量化步长通常固定为8。直流DC系数除以8并舍入到最近的整数,即得到DC系数的量化数。量化后,DC系数与前一块的量化DC系数相减,将差值编码为(size,amp)。amp 为差值的大小,若此数为正值则是其二进制表示,若为负值则采用反码表示size表示amp 所需的二进制位数。,中原工学院电子信息学院,54,5.4 MPEG-l 视频编码和解码,对于AC 系数的量化数,首先按照Zig-zag顺序进行排序,输出中元素代表的频率分量由低频到高频排序。之后每个非零的AC 系数被表示为行程/幅度偶,MPEG 中定义了行程/幅度偶的霍夫曼码表,对其进行霍夫曼编码,而表中未定义的行程/幅度偶则编码为ESC 码,后跟它们的单独码字。2)P 帧的编码决定是否使用运动补偿:运动矢量位数更多决定宏块使用帧间编码还是帧内编码:运动剧烈决定宏块是否要被编码:全零决定是否需要改变MQUANT:不使缓冲区上溢或下溢,中原工学院电子信息学院,55,5.4 MPEG-l 视频编码和解码,3)B 帧的编码决定使用前向运动、后向运动、内插运动补偿;决定采用帧内编码的方式还是帧间编码方式;决定宏块是否可以被跳过;决定量化尺度因子是否可以被改变。4.DCT 系数的编码细节 帧内编码中MPEG采样为8位无符号数,而帧间采用9位有符号数。二维DCT的两次求和至多将采样值扩大26倍,可能产生8+6=14 位的整数。在两次求和过程中,采样值要乘以余弦函数,会产生负数,求和结果是一个15 位有符号数,这个数再乘以1/81/4 的因子,可用12 位的有符号整数表示。,中原工学院电子信息学院,56,5.4 MPEG-l 视频编码和解码,12位整数通过除以从量化表得到的一个量化系数而被量化并取整。正是在量化和取整过程中信息出现了不可恢复的丢失。帧内编码中取整通常是取最近的整数,而帧间编码是截断非整数到接近的小于其值的整数。图5.31给出了图示。注意在帧间编码中零值附近有较宽的间隔,即所谓的死区。,中原工学院电子信息学院,57,5.4 MPEG-l 视频编码和解码,中原工学院电子信息学院,58,5.4 MPEG-l 视频编码和解码,中原工学院电子信息学院,59,5.4 MPEG-l 视频编码和解码,在MPEG中没有明确定义计算IDCT的方法。若一幅图像的编码采用一种实现方式而在解码时采用另一种实现方式,将会导致失真。而在帧间编码的图像链中,每幅图像采用相邻的其它图像解码,这将导致累积误差,称为IDCT失配现象。这是MPEG需要对图像的每一部分进行周期性的帧内编码的原因。量化后的QDCT要进行霍夫曼编码,要用到非自适应霍夫曼方法和霍夫曼码表,此码表是通过汇集来自许多训练图像序列的统计数据而算出的。具体用何种码表取决于待编码的图像类型,为避免出现零概率问题,在汇集任何统计数据之前所有的码表项都被初始化为1。,中原工学院电子信息学院,60,5.4 MPEG-l 视频编码和解码,在I图像中,宏块的DC系数和AC系数是分别编码的,这与JPEG 编码类似。图5.32表示出了I 图像的Y 分量、Cb分量和Cr分量所提供的3种类型的DC系数是如何在一个数据流中分别编码的。,中原工学院电子信息学院,61,5.4 MPEG-l 视频编码和解码,某一DC系数DCi首先被用来计算差值DC=DCi-P(P为前一块同一类型的DC系数),然后对这个差值进行编码,码字前一部分表示量值等级,接着的若干位表示差值的幅值和符号。量值等级就是对差值DC的符号和幅值编码所需要的位数,每个量值等级都赋予一个码字。对DC系数的差值DC的编码需要下述3个步骤:(1)首先确定量值等级,将它的码字发出;(2)若DC为负值,将它的补码减去1;(3)发出表示差值最低有效位的二进制数,其位数等于量值等级。表5.5 概括性地列出了量值等级、量值等级的码字和每一个量值等级所对应的差值DC的范围。,中原工学院电子信息学院,62,5.4 MPEG-l 视频编码和解码,(例5.1)设亮度差值DC 为5。因为数字5可以用3 位二进制表示,所以量值等级为3,首先发码字101,接着发出表示5 的3 位二进制数的最低有效位101。若设色度差DC值为3,因为数字3 可以用2位二进制数表示,所以量值等级为2。首先发出码字10,而差值-3可以表示为2 的补码11 11 110 1(假设为8 位),将其减去1 后得到的2位最低有效位二进制数为00,将其发出。,中原工学院电子信息学院,63,5.4 MPEG-l 视频编码和解码,I图像(帧内编码)的AC系数通过Zig-zag顺序扫描进行编码。对每个非零系数C输出一个游程-等级码,此处游程指的是在C之前的0的个数,等级指的是C的绝对大小。每一个非零系数C的游程-等级码的后面跟一位C的符号位(1表示负数,0表示正数)。最后的非零系数的游程等级码字后面跟一个特定的两位“块尾”(EOB)码。表5.6与表5.7 列出了EOB 码、常见的游程值和等级值的游程-等级码,其中s 表示符号位。对于表中没有列出的游程值和等级值的组合,编码方法是采用ESC码后面跟一个6位的表示游程长度的码和一个8 位或16 位的表示等级值的码。,中原工学院电子信息学院,64,5.4 MPEG-l 视频编码和解码,例5.2.图5.33 给出了一个88 的量化系数块的例子。这些系数的Zig-zag 形扫描序列是127,0,0,-1,0,2,0,0,0,1。127 为DC 系数,因此AC系数的编码为3 个游程-等级码(2,-1),(1,2),(3,1),后面跟着EOB 码字。根据表5.6,编码结果为01011 0001100 00111 0 10 0(注意符号位跟在游程等级码字后)。,中原工学院电子信息学院,65,5.4 MPEG-l 视频编码和解码,上面的讨论为帧内编码(对于I 图像)的DCT量化系数的编码。对于帧间编码(P 图像和B 图像则情况有所不同。通过其它帧图像预测某帧图像的过程已经将采样值去相关了。DCT 在帧间编码中的优势主要体现在量化上。对DCT 系数的深度量化提高了压缩率。在这种情况下,甚至一个所有值都无差别的默认量化表都可能相当有效。DCT 在帧间编码中的另一个特点是DC 系数和AC 系数没有实质上的区别,因为它们都是差值的DCT。因此没有必要对DC系数和AC系数分开编码。,中原工学院电子信息学院,66,5.4 MPEG-l 视频编码和解码,5.运动矢量的编码细节 宏块的运动矢量与前一宏块的矢量有密切联系。例如,在景物平行移动的情况下,所有矢量差不多都一样。因此,运动矢量编码使用DCPM 技术.6.解码过程 解码器输入的视频比特流码速率是固定的,但画面的数量差别很大,必须要设缓冲器以保证数据量的平滑,防止画面波动和固定帧频显示。,中原工学院电子信息学院,67,5.4 MPEG-l 视频编码和解码,分路器负责语法和语义检查,对宏块进行解码,解码出运动矢量和宏块类型等。IDCT输出的是I画面以及P画面和B 画面的预测画面,并保存I及P画面,生成预测画面(P、B)。这样重建画面等于预测画面与差分画面之和。画面重新排序后再输出帧速度固定的视频图像。解码过程如图5.34 所示,中原工学院电子信息学院,68,5.4 MPEG-l 视频编码和解码,以编码序列T1,T4,T2,T3,T7,T5,T6,T8(见图5.35)为例,假设P 帧中所有宏块都采用预测编码。B 帧中所有宏块都采用双向预测编码,解码过程如下:(1)输入图像T1(I帧)。由于没有进行运动补偿,可直接进行IDCT 变换,然后把解码出的图像进行显示并存入“过去帧缓存器”中。(2)输入图像T4(P帧)。对每个宏块进行IDCT 变换并进行运动补偿,即把在过去帧(T1)中由运动矢量指出的相应宏块与IDCT 变换的结果相加,重建图像存入“将来帧缓存器”中。,中原工学院电子信息学院,69,5.4 MPEG-l 视频编码和解码,(3)输入图像T2(B帧)。IDCT 变换后进行双向运动补偿,利用T2 的两个运动矢量指出的过去帧(T1)和将来帧(T4)中的相应宏块,形成对T2的预测值,将这个预测值与IDCT 变换的结果相加,得到重建图像,并显示。B 帧不参与其它帧的运动估计,不用被保存在任何帧缓存器中。(4)输入图像T3(B帧)。重复T2的解码过程,解码后立即显示T3.(5)输入图像T7(P 帧)。重复T4的解码过程,将“将来帧缓存器”中的图像放入“过去帧缓存器”中,同时重建的图像T7 要放入“将来帧缓存器”中(覆盖Tl),并显示图像T4.(6)输入图像T5、T6(B 帧)。重复T2 的解码过程,使用T4和T7 进行运动补偿,解码后的显示顺序为T5,T6,T7.下一组图像从T8 开始,重复上述的解码过程。每个时刻最多有三幅图像需要存储(过去帧、当前帧和将来帧)。对于SIF 格式的图像序列来说。MPEG-l 解码器最少需要500 KB 的缓存区。,中原工学院电子信息学院,70,5.4 MPEG-l 视频编码和解码,5.4.4 视频语法 MPEG-l的视频语法主要是用于确定和控制视频序列压缩的一些参数。图5.36 表示出了MPEG 压缩流的格式和压缩流是如何在6 层中组织的。用点划线围绕的是可选部分。,中原工学院电子信息学院,71,5.4 MPEG-l 视频编码和解码,5.4.5 系统层简介1.系统层功能 系统层主要实现下述功能:(1)将多个基本流(视频流、音频流、数据流复合成单一的串行比特流;(2)保证基本流之间的时间同步;(3)保证信源与信宿之间的时间同步;(4)可随机存取,便于编辑加工;(5)速率可控.,中原工学院电子信息学院,72,5.4 MPEG-l 视频编码和解码,2.系统层解决的问题(1)A/V(audio/video)同步。编码时以STC 为基准,对每一帧画面、每一帧声音均附加一个PTS 值,解码时即按比指定时间播放,从而达到A/V同步的目的。(2)编码器/解码器同步。解码器的本地STC值受控于音频FTS 值,不断进行更新与校正。(3)复合流速率控制。解码器通过把SCR 值与本地STC 值比较,发出反馈信号,可能的话,控制输入流的速度。MPEG 复合比特流如图5.37 示.,中原工学院电子信息学院,73,5.4 MPEG-l 视频编码和解码,3.系统层编码器 MPEG-1 系统层编码器框图如图5.38 所示.系统层编码器中系统时钟STC 是频率为90 kHz 的计时器,TS(Presentation Time Stamp),SCR(System Clock Reference)是系统的绝对时间。,中原工学院电子信息学院,74,5.5 视频图像编码标准,中原工学院电子信息学院,75,5.5 视频图像编码标准,中原工学院电子信息学院,76,5.5 视频图像编码标准,中原工学院电子信息学院,77,5.5 视频图像编码标准,中原工学院电子信息学院,78,5.5 视频图像编码标准,中原工学院电子信息学院,79,5.5 视频图像编码标准,中原工学院电子信息学院,80,5.5 视频图像编码标准,中原工学院电子信息学院,81,5.5 视频图像编码标准,中原工学院电子信息学院,82,5.5 视频图像编码标准,中原工学院电子信息学院,83,5.5 视频图像编码标准,中原工学院电子信息学院,84,5.5 视频图像编码标准,中原工学院电子信息学院,85,5.5 视频图像编码标准,中原工学院电子信息学院,86,5.5 视频图像编码标准,中原工学院电子信息学院,87,5.5 视频图像编码标准,作业(P

    注意事项

    本文(图像通信课件第五章.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开