视频处理技术.ppt
第4章 视频处理技术(一),计算机教学实验中心2007,多媒体技术及应用基础,第2/80页,问题的提出,电视如何成像(原理)?什么是视频?视频和动画的关系视频表现的特点视频处理涉及哪些技术问题除了音频和图像处理技术外还有什么?,第3/80页,作品欣赏,学生作品1、2、3、4动画作品1、2、3、4视频作品1、2、3、4其他作品1、2、3、4、5,第4/80页,什么是动画,动画由多幅画面组成,当画面快速、连续地播放时,由于人类眼睛 存在“视觉滞留效应”而产生动感。,动画的本质,Frame1 Frame2 Frame3 Frame4 Frame5 Frame6 Frame7,第5/80页,视频,视频和动画没有本质区别,只是表现内容和使用场合稍有不同,视频处理功能,视频剪辑根据需要剪除不需要的视频片段,连接多段视频信息 视频叠加根据需要把多个视频影像叠加在一起 视频和声音同步在单纯的视频信息上添加声音,并精确定位 添加特殊效果使用滤镜加工视频影像,使影像具有各种特殊效果,第6/80页,视频处理技术,视频是运动的图像既可提供高速信息传送,也可显示瞬间的相互关系。视频是由相继拍摄并存储的图像组成的 除了有图像的高速信息传送特性外,由于加入了随同图像的时间因素,因而有视频更多的信息 视频也是动态的 视频可以完整再现事件的全过程,第7/80页,4.1 电视技术基础,电视广播在我国开始于1958年7月1日。当时及以后的约20年时间内,播出的是黑白电视,采用的都是直播方式。70年代有了磁带录像机,于是,电视广播出现了录播方式。随着技术的发展,相继出现了卫星广播方式和有线电视网广播方式。今后,星网结合的电视广播方式会成为供用户接收的基本手段。,第8/80页,一.电视信号,电视信号主要由图像信号(视频信号)和伴音信号(音频信号)两大部分组成。图像信号的频带为 06 MHz伴音信号的频带一般为 20 Hz20 kHz 发射台将图像信号和伴音信号分别采用调幅和调频方式调制在射频载波上,形成射频电视信号从电视发射天线发射出去,供各电视机接收。,第9/80页,三基色原理,人眼的彩色视觉有这样一种特性,即某一单色光的彩色视觉可以由不同光谱的光组合而获得,并与该单色光产生相同的彩色感觉。彩色电视就是基于三基色原理,对自然景物及其色彩进行录入、处理、传输并重现彩色图像的。彩色显像管选择R、G、B三基色显示彩色信号。,第10/80页,彩色电视显像原理,第11/80页,电视基本概念,活动图像是利用人的眼睛有视觉暂留特性;我国电视每秒放送25幅图像(帧),有闪烁效果;把每幅图分先后两次来放送,这样,光亮度变化的次数就增加到50次秒;具体的做法就是隔行扫描;即一幅图像分两次扫描来完成,第一次先扫描1、3、5等奇数行,第二次扫描2、4、6等偶数行。传送电视图像是将每幅图像分解为像素,按一个一个像素、一行一行的方式顺序传送或接收称为扫描。分行扫描(水平)和场扫描(垂直)。,第12/80页,扫描方式,扫描有隔行扫描(interlaced scanning)和逐行扫描。在逐行扫描中,电子束从显示屏的左上角一行接一行地扫到右下角,在显示屏上扫一遍就显示一幅完整的图像。每秒钟扫描多少行称为行频fH;每秒钟扫描多少场称为场频ff;每秒扫描多少帧称帧频fF。,隔行扫描,逐行扫描,第13/80页,不同扫描方式的特点,逐行扫描简单、可靠、图像清晰,但需要传输通道有很宽的频带。计算机中采用逐行扫描方式。,隔行扫描要两次扫描才成完整图像。在广播电视系统中采用这种方式。,我国电视制式规定水平扫描行数为625。扫描行数也称为垂直分辨率(Vertical Resolution)。,第14/80页,电视扫描方式示意图,第15/80页,基本概念,场(Field)垂直扫描。帧(Frame)从上到下扫描一幅完整的画面,称为帧。奇数场(Odd Field)第一遍扫描。偶数场(Even Field)第二遍扫描。扫描行数 电视图像的扫描行数通常指水平行的数目。扫描行数越多,电视清晰度越高。,第16/80页,基本概念(续一),同步 在传送电视节目的过程中,接收端与发送端按照相同的步调(顺序)扫描像素时,才能重显完整而稳定的图像,这叫做收、发两端同步。接收与发送两端同步包含水平和垂直两个方向的扫描同步。当扫描时,在每一行使收发两端同步称为水平同步或叫做行同步,在每一场使其同步称为垂直同步也叫做场同步。,第17/80页,基本概念(续二),光栅 在电视机显像管的荧光屏上涂有荧光物质,高速运动的电子束轰击荧光屏时,就能发出光来。当电子束受水平和垂直两个方向的综合控制而迅速扫描荧光屏时,即可出现由一行一行的亮线组成的矩形发光图案,通常称为光栅。帧频 每秒钟传送的电视图像帧数称为帧频。场频 场频是帧频的二倍,对应于25Hz帧频时的场频为50Hz。,第18/80页,什么是白平衡?,用彩色电视机收看黑白电视节目时将色彩饱和度减低为0,要求不出现彩色,称为白平衡,否则就是白平衡失调。白平调整就是指对在不同光线下的白色基准物进行校准。因为在不同的光线下,物体会发生颜色的偏差,如在白炽灯光照射下物体成微红色,而在日光灯下的物体偏蓝色,这就是色温问题。白色是拍摄与制作照片时必须校准的基色,因此只要对白色的物体进行校准,其余颜色都会自动校准。普通的数码照相机都设有自动白平衡功能,它能根据不同的色温情况,自动调节色彩,以得到更接近自然的色彩。但在一些光照很复杂的情况下,往往会使自动白平衡产生偏差,这时需要手动设定白色平衡。,第19/80页,信号类型,分量信号 电视中使用亮度(Y)和色差(C1/C2)表示彩色图象,每个基色分量作为独立的电视信号。用Y/C1/C2表示的彩色视频信号称为分量信号(Component signal)。分量信号可以获得非常好的图像质量,但它需要三个分量信号很好地同步,而且需要3倍的带宽。,第20/80页,YC1C2表示色彩的优点,1.Y和C1C2是独立的,即色差信号C1、C2仅包含色度信息,不包含亮度信息;亮度信息Y信号仅包含亮度信息,而不含色度信息。这样,彩色电视和黑白电视可以同时接收彩色电视信号,在黑白电视接收机中Y信号可以直接使用。2.利用人眼对亮度敏感,而对色度相对不够敏感的视觉特性,降低C1C2信号的采样频率,使C1C2的带宽低于Y的带宽,不明显影响重现彩色图像的观看。,第21/80页,不同系统中C1C2的定义,在NTSC彩色电视中,C1C2分别表示I、Q两个色差信号。I=0.60R+0.28G+0.32B Q=0.21R+0.52G+0.31B Y=0.30R+0.59G+0.11B,在PAL彩色电视中,C1C2分别表示U、V两个色差信号。U=B-Y V=R-Y Y=0.30R+0.59G+0.11B,第22/80页,复合视频信号,将色差信号在亮度信号之上进行编码,作为单个信号与亮度信号拥有相同的带宽。由于亮度信号和色差信号是穿插在一起的,在信号重放时很难完全恢复出原来的色彩。其信号带宽较窄,一般只有水平240线左右的分辨率。不包含伴音,一般与视频输入、输出端口配套的还有音频输入、输出端口(AudioIn、AudioOut)。复合视频接口也称为AV(Audio Video)接口。,第23/80页,分离电视信号S-Video,是一种两分量的视频信号,它把亮度和色度信号分成两路独立的模拟信号,一条用于亮度信号,另一条用于色差信号,这两个信号称为Y/C信号。亮度和色度都具有较宽的带宽。由于亮度和色度分开传输,可以减少其互相干扰。水平分解率可达420线。S-Video使用4针连接器,通常称为S端子。,第24/80页,S端子,第25/80页,全电视信号,将视频的亮度信号、色度信号、同步信号和伴音信号复合在一起,称为全电视信号。为了在空中传播,需将它们调制成高频信号,也叫射频(RFRadio Frequency)信号。每个信号占用一个频道。(6MHz)电视接收机能够将所接收到的高频电视信号还原成视频信号和低频伴音信号,并能够在荧光屏上重现图像,在其扬声器上重现伴音。射频信号的接口形式就是常见的天线接口或有线电视接口。,第26/80页,二.电视制式,实现电视的特定方式,称为电视的制式。制式的区分主要在于其帧频(场频)、分解率、信号带宽以及载频、色彩空间的转换关系不同等。NTSC(National Television System Committee)制PAL(Phase Alternation Line)制SECAM(法文:Sequential Coleur Avec Memoire)制,第27/80页,NTSC(National Television System Committee),1952年由美国国家电视标准委员会制定的彩色电视广播标准。采用正交平衡调幅的技术方式,故也称为正交平衡调幅制。美国、加拿大等大部分西半球国家以及中国的台湾、日本、韩国、菲律宾等均采用这种制式。,第28/80页,PAL(Phase Alternation Line),西德在1962年制订的彩色电视广播标准。采用逐行倒相正交平衡调幅的技术方法,克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家,新加坡、中国大陆及香港,澳大利亚、新西兰等国家采用这种制式。,第29/80页,SECAM(法文:Sequential Coleur Avec Memoire),法文的缩写,意为顺序传送彩色信号与存储恢复彩色信号制。由法国在1956年提出,1966年制定的一种新的彩色电视制式。它也克服了NTSC制式相位失真的缺点,但采用时间分隔法来传送两个色差信号。使用SECAM制的国家主要集中在法国、前苏联及东欧和中东一带。,第30/80页,PAL制电视的扫描特性,(1)625行(扫描线)/帧,25帧/秒(40 ms/帧)(2)高宽比(aspect ratio):4:3(3)隔行扫描,2场/帧,312.5行/场(4)颜色模型:YUV,第31/80页,PAL制电视的扫描特性(续),行扫描频率是15 625 Hz(625*25),(行扫描)周期为64s(1,000,000/15625);场扫描频率是50 Hz(25*2),周期为20 ms(50/1000);帧频是25 Hz,是场频的一半,周期为40 ms。在发送电视信号时,每一行中传送图像的时间是52.2s,其余的11.8s不传送图像,是行扫描的逆程时间,同时用作行同步及消隐用。每一场的扫描行数为625/2=312.5行,其中25行作场回扫,不传送图像,传送图像的行数每场只有287.5行,因此每帧只有575行有图像显示。,第32/80页,不同电视制式的技术指标,第33/80页,三.电视信号数字化,数字化方法(a)先从复合彩色电视图像中分离出彩色分量,然后数字化。对彩色全电视信号,通常是首先把模拟的全彩色电视信号分离成YCbCr,YUV,RGB彩色空间中的分量信号,然后用三个A/D(模/数Analog Digital)转换器分别对它们数字化。(b)首先用一个高速A/D转换器对彩色全电视信号进行数字化,然后在数字域中进行分离,以获得所希望的YCbCr,YUV或RGB分量数据 国际无线电咨询委员会CCIR制定了彩色电视图像数字化标准ITU-R BT.601。,第34/80页,采样频率,对PAL制、SECAM制,采样频率fs为fs=62525N=15625N=13.5 MHz,N=864 其中,N为每一扫描行上的采样数目。有效显示分辨率对PAL制和SECAM制的亮度信号,每一条扫描行采样864个样本。每一扫描行的有效样本数均为720个。,第35/80页,ITU-R BT.601标准,推荐使用422的彩色电视图像采样格式。Y用13.5 MHz的采样频率,Cr,Cb用6.75 MHz的采样频率。,彩色电视数字化参数摘要,第36/80页,图像子采样,对彩色电视图像进行采样时,可以采用两种方法。一种是使用相同的采样频率对图像的亮度信号和色差信号进行采样。另一种是对亮度信号和色差信号分别采用不同的采样频率进行采样。如果对色差信号使用的采样频率比对亮度信号使用的采样频率低,这种采样就称为图像子采样(subsampling)。,第37/80页,图像子采样格式,4:4:4 指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本,这就相当于每个像素用3个样本表示。4:2:2 在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本,平均每个像素用2个样本表示。4:1:1 在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。4:2:0 在水平和垂直方向上每4个连续的采样点上取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。,第38/80页,彩色图像YCbCr样本空间位置,第39/80页,4.2 数字视频,数字视频的内容是被计算机捕捉并数字化了的摄像机或电影的胶片。通过把图形图像放在一起创建动画也可以获得数字视频。数字视频结合了图形和音频的特征,为数字媒体产品创建了动态的内容。,第40/80页,1.视频数字化,视频采集 视频采集卡接收模拟视频信号,然后把它转化成数字视频数据,从摄像机传输数字视频到硬盘上,使用采集软件的控制功能找到需要传输的片段,然后点击“record”按钮。通过DV编码器,视频数据以整幅图片大小、25fps的速度传送到硬盘上。,第41/80页,空间和时间采样,视频的数字化不仅要在空间上采样,还要在时间上采样,即每隔一定的时间进行一次空间上的采样。PAL制式的采样帧速率是25帧/秒NTSC制式的文件采样帧速率是29.97帧/秒 数字视频中,帧速率是可以更改的 一般动画的帧速是12帧/秒或更低 通常用时间码动画和电视工程师协会SMPTE时间码标准:小时:分钟:秒:帧一段PAL制式时间码标记为00:02:31:15的视频片段的播放时间为2分钟31秒15帧,如果以每秒25帧的速率播放,则播放时间为2分钟31.5秒。,第42/80页,2.数字视频的文件格式,(1)AVI(2)Windows Media 视频(3)RealMedia文件格式(4)QuickTime电影(Movie)(5)Mpeg文件(6)DV格式,第43/80页,AVI格式,AVI(Audio Video Interleave)音频视频交错是一种音频和视频交叉记录的数字视频文件格式。1992年初Microsoft公司推出。在AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。它可以在任何Windows环境下工作,而且还具有扩展环境的功能。用户可以开发自己的AVI视频文件,在Windows环境下可随时调用。根据AVI格式的参数,其窗口、分辨率和帧速率可以根据播放环境的硬件能力和处理速度进行调整。,第44/80页,Windows Media 视频,主要有2种不同的扩展名,asf文件和wmv文件。ASF(Advanced Streaming Format)是微软所制订的一种媒体播放格式,也是一个可以在Internet上实现实时播放的标准,使用MPEG-4的压缩算法。ASF包括音频、视频、图像以及控制命令脚本等多媒体信息。通过这种格式,以网络数据包的形式传输,实现流式多媒体内容发布。优点是体积小,适合网络传输。wmv使用Windows Media 音频和视频解码、编码器压缩的音频、视频文件。,第45/80页,RealMedia文件格式,RM格式 RM格式是RealNetworks公司开发的一种流媒体视频文件格式。可以根据网络数据传输的不同速率制定不同的压缩比率,从而实现在低速率的Internet上进行视频文件的实时传送和播放。在数据传输过程中可以边下载边播放,而不必完全下载后再播放。也可以利用RealVideo对重大事件进行实时转播。,第46/80页,QuickTime电影(Movie),Apple公司的QuickTime电影文件现已成为是数字媒体领域的工业标准。QuickTime文件格式中媒体描述和媒体数据是分开存储的,媒体描述或元数据(meta-data)叫做电影(movie),包含轨道数目、视频压缩格式和时间信息。媒体数据是所有的采样数据,如视频帧和音频采样,媒体数据可以与QuickTime movie存储在同一个文件中,也可以在一个单独的文件或者在几个文件中。MOV视频影像,采用有损压缩方法,使用QuickTime播放,比AVI画面质量要好。,第47/80页,Mpeg文件,MPEG是压缩视频的基本格式。以这种压缩算法记录的视频称为MPEG文件,通常取.mpg作为文件的后缀名。MPG还有两个变种MPV和MPA。MPV只有视频不含音频,MPA是则只记录了音频没有视频。VCD中的DAT文件,实际上是在MPG文件头部加上了一些运行参数形成的变体。可以使用软件将其转换成标准的Mpg文件。,第48/80页,DV格式,DV(Digital Video)格式是一种国际通用的数字视频标准,是由10余家公司共同开发的,可以在一盘1/4英寸的金属蒸镀带(MiniDV格式)上记录高质量的数字视音频信号。DV格式是数字摄像机在MiniDV磁带上的记录方式。要传输到电脑中,通常使用IEEEl394接口。它起源于Apple开发的一个名为FireWire(火线)的高速、实时串行接口标准,数据传输率高达400Mb/s。1995年被国际电子电气工程师协会采纳为IEEE1394标准。DV/1394采集:720*576,25frames/second,第49/80页,4.3 数字视频标准,国际标准化协会ISO(International Standardization Organization-ISO),国际电子学委员会IEC(International Electronics Committee-IEC),国际电信协会ITU(International Telecommunication Union-ITU)20世纪90年代制定了三个重要的多媒体国际标准。JPEG标准、MPEG标准和H261标准,第50/80页,1.MPEG-1 标准,于1992年底正式被ISO/IEC采纳 其视频是面向比特率大约为1.5Mb/s的视频信号的压缩其音频是面向每通道速率为64Kb/s、28Kb/s和192Kb/s的数字音频信号的压缩其最终目标要解决数字视频和数字音频等多样压缩数据流的复合和同步的问题。所以,MPEG-1是将数字视频信号和与其相伴随的音频信号在一个可以接受的质量下,能被压缩到比特率约1.5Mb/s的一个MPEG单一比特流。,第51/80页,2.MPEG视频压缩算法,动态图像由一序列静态图像构成,对静态图像的压缩方法同样适用于动态图像的压缩。动态图像在帧与帧之间表现出的特点:动态图像以每秒25 帧播放,在如此短的时间内,画面通常不会有大的变化;在画面中变化的只是运动的部分,静止的部分往往占有较大的面积;即使是运动的部分,也多为简单的平移。处理办法:帧间压缩若干帧之后记录一幅原始的帧,第52/80页,处理方法简介,采用JPEG的方式记录第一帧。在随后的帧中,只记录该帧与前一帧不同的地方,相同的则不记录。播放时,根据前一帧的画面和这两帧之间的不同构造出当前的画面。为解决在实际压缩中存在的有损压缩带来的失真和因故障无法恢复后面帧(因前面帧丢失而造成)的问题,可采用每隔若干帧之后就记录一个原始帧的方法加以解决。,第53/80页,MPEG方法的特点,一、在空间方向上,图像数据压缩采用JPEG压缩算法去掉冗余信息。二、在时间方向上,图像数据压缩采用运动补偿算法去掉冗余信息。,第54/80页,MPEG的3种图像类型,I帧也称帧内图像,采用JPEG压缩算法,不参照任何过去的或者将来的其他图像帧;每个图像平面分为88的图块,对每个图像块进行离散余弦变换;变换后用差分脉冲编码,最后用霍夫曼编码进一步压缩。P为预测帧,利用相邻I帧或P帧的统计信息进行预测,画面分成1616的子图像块,再分别向前或向后预测。B图像称为双向预测帧,利用前后的I、P帧图像之间的差异进行压缩。,第55/80页,3.其它MPEG标准,(1)MPEG-2标准 MPEG组织于1994年推出MPEG-2压缩标准,以实现视/音频服务与应用互操作的可能性。MPEG-2标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定,编码码率从每秒3兆比特100兆比特。MPEG-2特别适用于广播级的数字电视的编码和传送,被认定为SDTV和HDTV的编码标准。MPEG-2还专门规定了多路节目的复分接方式。,第56/80页,MPEG-2标准的主要应用,视音频资料的保存非线性编辑系统及非线性编辑网络卫星传输电视节目的播出,第57/80页,(2)MPEG-4 标准,MPEG 于1999年2月正式公布MPEG-4的第一版本。同年年底MPEG-4第二版亦告底定,且于2000年年初正式成为国际标准。MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。,第58/80页,MPEG-4的优点,基于内容的交互性 提供了基于内容的多媒体数据访问工具,如索引、超级链接、上下载、删除等。高效的压缩性 能对同时发生的数据流进行编码 一个场景的多视角或多声道数据流可以同步地合成为最终数据流。可用于虚拟三维游戏、电影、飞行仿真练习等。通用的访问性 提供易出错环境的鲁棒性,保证其在网络及存储介质中的应用。支持基于内容的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽,不同存储容量的传输信道和接收端。,第59/80页,MPEG-4主要应用,因特网视音频广播、无线通信、静止图像压缩、电视电话、计算机图形、动画与仿真电子游戏等,第60/80页,(3)MPEG-7,正式名称是“多媒体内容描述接口”于1998年10月提出,于2001年最终完成并公布。旨在解决对多媒体信息描述的标准问题,并将该描述与所描述的内容相联系,以实现快速有效的搜索。该标准不包括对描述特征的自动提取。MPEG-7的目标是根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次上的用户对信息的需求。,第61/80页,独特的抽象功能,以视觉内容为例,较低抽象层将包括形状、尺寸、纹理、颜色、运动(轨道)和位置的描述。对于音频的较低抽象层包括音调、调式、音速、音速变化、音响空间位置。最高层将给出语义信息:如“这是一个场景:一个鸭子正躲藏在树后并有一个汽车正在幕后通过。”抽象层与提取特征的方式有关:许多低层特征能以完全自动的方式提取,而高层特征需要更多人的交互作用。,第62/80页,MPEG-7标准的应用,数字图书馆、多媒体目录服务、广播媒体选择、多媒体编辑、教育、娱乐、医疗应用地理信息系统等领域都有潜在的应用价值 既可应用于存储(在线或离线),也可以用于流式应用还可在实时或非实时的环境下应用,第63/80页,(4)MPEG-21,正式名称为 Multimedia Framework。其目的是建立一个规范且开放的多媒体传输平台,让所有的多媒体播放装置都能透过此平台接收多媒体资料。使用者可以利用各种装置、透过各种网路环境去取得多媒体内容,而不需要知道多媒体资料的压缩方式及使用的网路环境。多媒体内容提供者或服务业者也不会受限于使用者的装置及网路环境,针对多种不同压缩方法来提供多媒体内容。该标准正是致力于在大范围的网络上实现透明的传输和对多媒体资源的充分利用。,第64/80页,4.H.261/263,1980年 H.261建议被通过,它是国际电报电话咨询委员会CCITT制定的国际上第一个视频压缩标准。H261标准的名称为“视听业务速率为Px64Kb/s的视频编译码”,因此H.261又称Px64标准。其中P为64kb/s的取值范围,是1到30的可变参数。最初是针对在ISDN上实现电信会议应用,特别是面对可视电话和视频会议而设计的。,第65/80页,H.261的特征,H.261与MPEG不兼容H.261在实时编码时比MPEG所占用的CPU运算量少得多。剧烈运动的图像比相对静止的图像质量要差。码率变化范围在64kbps至1.92Mbps之间。,第66/80页,H.263,H.263关于低于64Kb/s比特率的窄带通道视频编码建议,其目的是能在现有的电话网上传输活动图像 H.263的编码速度快,其设计编码延时不超过150ms;码率低,在512K乃至384K带宽下仍可得到相当满意的图像效果,十分适用于需要双向编解码并传输的场合,如可视电话和网络条件不是很好的场合 H.263建议草案于1995年11月完成。,第67/80页,认识Premiere V6.5,Premiere简介,