多媒体技术原理及应用(马华东第二版)第二章.ppt
第二章 多媒体数据压缩技术,数字音频编码 数字图像编码数字视频编码常用的数据压缩技术 多媒体数据转换,2.1 数字音频编码,音频的基本特性,声音是由振动的声波所组成,在任一时刻t,声波可分解为一系列正弦波线性叠加:f(t)=Ansin(nt+n)其中,称为基频或基音,它决定声音的高低;n称为的n次谐波分量或称为泛音,与声音的音色有关;An是振幅,表示声音的强弱;n是n次谐波的初相位。,音频数字化,波形音频是以数字方式表示音波。它是用声卡(包含ADC和DAC)来录制与执行播出声音的。计算机对声音表示主要通过采样产生一系列声音数据。事实上,声波按频率可分为4类,其中多媒体系统仅处理人类的听力所接受的频率范围的声音,我们称之为音频,这个频率范围的音波称之为声音信号。,声音的频率分类,通过规则时间间隔测出音波振动幅度从而产生一系列声音数据。这种测出数据方法称之为采样,一秒内采样次数叫采样率。采样的离散音频数据要转换成计算机能够表示的数据范围,这个过程称之为量化。量化后数字音频存储量计算公式 音频数据存储量(字节)=采样率(Hz)量化位数(位)声道数音频长度(秒)/8,MIDI,1980年制定一项工业标准,目的是让音乐及合成音可以经由一串消息在不同的设备上交流传输。MIDI提供了计算机外部的电子乐器与计算机内部之间的连接器接口。这种连接接口定义物理连接与电子乐器沟通的协议。MIDI也定义音频的形态与存储的方法。MIDI音频是以消息的方式而非波形的方式组成。MIDI有三种连接器(In、Out、Thru)。In为输入,Out为输出,而Thru是用来扩充MIDI与其它设备连接用的。,序器可以将音乐等声音以一种序列来储存。所谓序列便是一连串的音符加上系统事件的命令。MIDI适配器是用来改变频道、路径与按键的。当电子琴的键盘与一般的MIDI规格不一致时可以经由适配器来修正使两者一致。,MIDI音频文件,MIDI音频文件是一串时序命令,它记录音乐的行为。命令消息分为频道消息(频道声音消息、频道模式消息)和系统消息(系统实时消息、系统通用消息与系统专用消息)。它是以某种乐器的发声为其数据记录的基础。它的文件占用很少存储器空间,且可以做细部的修改,如修改节拍等。其声音效果不会因改变节拍而变调。MIDI不适合编制口语旁白的音频。,数字音频可从麦克风、录音带、CD、电视及其它来源获取。它把声音转换成储存体中数字信息。数字音频较为稳定,容易保持一致性,音频品质也较易获得保证。缺点是记录非常详尽,数据量极大,文件较MIDI音频大出200倍以上。要修改数字音频细节非常困难,大大地增加了CPU的负担。它可以适合任何一种音响,包括人的口语在内,故大多数节目仍采用这种音频。,3D音频,3D音效可分为以下几类:(1)扩展式立体声。(2)环绕立体声。(3)交互式音效。支持3D音频API种类:DirectX DirectSound 3D;Aureal 3D;EAX;Sensaura;Qsound;杜比AC-3;数字化影院系统DTS,2.2 数字图像编码,2.2.1 彩色空间,常见模型:RGB彩色空间 HSI彩色空间 YUV彩色空间 YIQ彩色空间,RGB彩色空间,R、G、B是彩色最基本表示模型,也是计算机系统中所使用的彩色模型。RGB5:5:5方式 用2个字节表示一个象素,具体位分配。RGB5:5:5方式 RGB8:8:8方式 R、G、B三个分量各占一个字节。,HSI彩色空间,这种模型中,用H(Hue,色调)、S(Saturation,饱和度)、I(Intensity,光强度)3个分量来表示一种颜色,这种表示更适合人的视觉特性。,YUV彩色空间,Y为亮度信号,U、V是色差信号(B-Y,R-Y)。PAL制式彩色空间即为YUV。优点是亮度和色差信号分离,容易使彩色电视系统与黑白电视信号兼容。国际无线电咨询委员会根据实验认为采用双倍度采样4:2:2方案效果较好,提出CCIR601标准。变换公式(YUVRGB)Y=0.299*R+0.587*G+0.114*B;U=-0.169*R-0.332*G+0.500*B;V=0.500*R+0.419*G-0.081*B,YIQ彩色空间,广播电视系统另一种常用的亮度与色差分离的模型。NTSC制式彩色空间即为YIQ。这里Y是亮度,I和Q共同描述图象的色调和饱和度。变换公式(YIQRGB)Y=0.299*R+0.587*G+0.114*B;I=0.211*R-0.523*G+0.312*B;Q=0.596*R-0.275*G-0.322*B,2.2.2 数字图象文件格式,TIF PCXGIF、TGA、BMP、DVI、JPEG等,TIF文件格式,由美国Aldus Developers Desk和Microsoft制定 结构文件头(8B)参数指针表 参数数据表 图象数据,文件头 含字节顺序(2B,表示存贮格式:II-Intel格式;MMMotorola格式);标记号(2B,版本信息);指向第一个参数指针表的编码(4B)。参数指针表 由每个长为12B参数块构成,描述压缩种类、长宽、彩色数、扫描密度等参数。较长参数(如调色板)只给出指针,参数放在参数数据表中。其结构定义如下:,typedef struct int tag-type;int number-size;long length;long offset;TIF-FIELD;图象数据 按参数表中描述的形式按行排列,PCX文件格式,由Z Soft公司最初制定结构文件头(128字节)数据部分(采用行程长度编码)文件头结构定义,typedef struct char manufacture;/*always 0 xa0*/char version;char encoding;/*always 1*/char bits-per-pixel;/*color bits*/int Xmin,Ymin;/*image origin*/int Xmax,Ymax;/*image dimension*/int hres;/*resolution values*/int vres;char palette48;/*color palette*/char reserved;char color-planes;/*color planes*/int bytes-per-line;/*line buffer size*/int palette-type;/*grey or color palette*/char filler58;PCXHEAD;其中Version若为5,文件内有个256色调色板,数据768字节,在文件最后。,文件体 对象素数据采用行程长度编码,由包含Keybyte和Databyte的包组成。分2种情况:(1)若Keybyte最高位为11,则低6位为重复次数。但最多重复63次,若再长重建一个包.PCX数据包的结构(2)若Keybyte最高位不是11,那么该Databyte按原样写入图象文件。对一个字符的表示用长度为1的包。,11,1,Databyte,2.3 数字视频编码,数字视频的结构,基本单位是帧。若干同一场景的帧构成镜头若干镜头构成情节 若干情节构成故事(节目),国际视频标准,NTSC 美国研制,是目前广泛使用的电视制式。它以525条横扫描线来组成一个屏幕帧,每秒30帧,其图象改变采用偶数线与奇数线相互交错更新的方式,造成视觉动态图象。PAL 中国、英国等国采用制式,W.Bruch1963年发明的,其基本原理类似于NTSC制式。以625条扫描线,每秒25帧,也是以奇偶数扫描线交错方式造成动态图象。SECAM 法国、俄罗斯等国采用制式。同样采用625条线和25帧,但与NTSC和PAL相比,其基础技术是采用频率调制,传播方式也不同于以上两种。,2.4 常用数据压缩技术,2.4.1 数据压缩的基本原理,传统上用模拟方式表示声音和图象信息 易出故障,常产生噪音和信号丢失,且拷贝过程中噪音和误差逐步积累;模拟信号不适合数字计算机加工处理。数字化处理:巨大的数据量,采样定理:仅当采样频率2倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号。采用8bit数字化,从而1秒钟电视信号的数据量约为99.2Mbits。即约为100Mbps。650MB的CD-ROM仅能存约1分钟的原始电视数据。若HDTV(1.2Gbps),一张CD-ROM还存不下6秒钟的HDTV图象。,人说话的音频一般在20Hz到4KHz,即人类语音的带宽为4KHz。依据采样定理,设数字化精度为8b,则1秒钟信号量为64Kbits。因此,人讲1分钟话的数据量为480KB。数字化处理的关键问题数据压缩,压缩的基础数据冗余,空间冗余 时间冗余 信息熵冗余结构冗余 知识冗余 视觉冗余 其它冗余,空间冗余,这是图象数据中经常存在的一种冗余。在同一幅图象中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成象结构在数字化图象中就表现为数据冗余。,时间冗余,这是序列图象和语音数据中所经常包含的冗余。图象序列中的两幅相邻的图象之间有较大的相关性,这反映为时间冗余。人在说话时发音音频是一连续的渐变过程,而不是一个完全时间上独立的过程,因而存在时间冗余。,信息熵冗余,信息熵是指一组数据所携带的信息量,它定义为:H=-i=0N-1Pilog2Pi N为数据类数或码元个数,Pi为码元yi发生的概率.为使信息编码单位数据量d接近于或等于H,应设:d=i=0N-1Pib(yi)其中b(yi)是分配给码元yi的比特数,理论上应取b(yi)=-log2Pi.实际一般取b(y0)=b(y1)=b(yK-1).例如,英文字母编码码元长为7bit,即b(y0)=b(y1)=b(yK-1)=7,这样d必然大于H,由此带来的冗余称为信息熵冗余或编码冗余。,结构冗余,有些图象从大域上看存着非常强的纹理结构,我们称它们在结构上存在有冗余.例如布纹图象和草席图象,知识冗余,有许多图象的理解与某些基础知识有相当大的相关性。例如,人脸的图象有固定的结构。比如说嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正脸图象的中线上等等。这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。,视觉冗余,人类视觉系统对于图象场的任何变化,并不是都能感知的。例如,对于图象的编码处理时,由于压缩或量化截断引入了噪声而使图象发生了一些变化,如果这些变化不能为视觉所感知,仍认为图象足够好。事实上人类视觉系统一般分辨能力约为26灰度等级,而一般图象量化采用28灰度等级,这类冗余我们称为视觉冗余。,其他冗余,例如由图象的空间非定常特性所带来的冗余。,2.4 常用的数据压缩技术,根据解码后数据与原始数据是否完全一致,数据压缩方法划分为两类:可逆编码(无失真编码)解码图象与原始图象严格相同,压缩大约在2:1到5:1之间。如Huffman编码、算术编码、行程长度编码等。不可逆编码(有失真编码)还原图象与原始图象存在一定的误差,但视觉效果一般可以接受,压缩比可以从几倍到上百倍来调节。常用的有变换编码和预测编码,根据压缩的原理分类:预测编码 利用空间中相邻数据的相关性来预测未来点的数据。差分脉冲编码调制(DPCM)和自适应差分脉冲编码调制(ADPCM)。变换编码 将图象时域信号变换到频域空间处理。时域空间有强相关信号,反映在频域上是某些特定区域内能量集中,从而实现压缩.正交变换如离散余弦变换,离散付立叶变换和Walsh-Hadamard变换.量化与向量量化编码 为了使整体量化失真最小,就必须依照统计的概率分布设计最优的量化器。已知最优量化器是Max量化器。对象元点进行量化时,也可以考虑一次量化多个点的向量量化。,信息熵编码 根据信息熵原理,让出现概率大的用短的码字表达,反之用长的码字表示。最常见的方法如Huffman编码、Shannon编码以及算术编码。子带编码 将图象数据变换到频域后,按频域分带,然后用不同的量化器进行量化,从而达到最优的组合。或者分步渐近编码,随着解码数据的增加,图象逐渐清晰。模型编码 编码时首先将图象中边界、轮廓、纹理等结构特征找出来,保存这些参数信息。解码时根据结构和参数信息进行合成,恢复出原图象。具体方法有轮廓编码、域分割编码、分析合成编码、识别合成编码、基于知识的编码、分形编码等。,2.4.1 预测编码,线性预测-DPCM 基本原理是基于图象中相邻象素之间具有较强的相关性。每个象素可根据已知的前几个象素来作预测。因此在预测编码中,编码和传输的并不是象素采样值本身,而是这个采样值的预测值与其实际值之间的差值非线性预测(不讨论),DPCM系统原理框图,接收端,输出,XN,XN,eN,XN,eN,eN,XN,+,+,输入,XN,发送端,+,-,XN为tN时刻的亮度采样值;XN为根据tN时刻以前已知X1,X2,XN-1对XN所作的预测值;eN=XN-XN为差值信号;eN为量化器输出信号;XN为接收端输出,XN=XN+eN。因为:XN-XN=XN-(XN+eN)=(XN-XN)-eN=eN-eN所以,DPCM系统中的误差来源是发送端的量化器,而与接收端无关,若去掉量化器使eN=eN,则XN=XN,即实现信息保持编码。事实上,这种量化误差是不可避免的。,2.4.2 变换编码,输入图象G经正交变换U变换到频域空间,象素之间相关性下降,能量集中在变换域中少数变换系数上,已经达到了数据压缩的效果。对变换系数A中那些幅度大元素予以保留,其它数量多的幅度小的变换系数,全部当作零不予编码,再辅以非线性量化,进一步压缩图象数据。由于量化器存在,量化后变换系数A和A间必然存在量化误差,从而引起输入图象G和输出图象G间存在误差。图中U是U的逆变换。,变换编码原理框图,输入,发送端,接收端,输出,G,G,U,U,A,A,变换编码数据压缩主要是去除信源的相关性。设信源序列为X=X0,X1,XN-1,表征相关性的统计特性就是协方差矩阵:X=其中i,j=E(Xi-EXi)(Xj-EXj).当协方差矩阵x 除对角线上元素之外各元素均为0时,就等效于相关性为0。为了有效压缩,希望变换后的协方差矩阵为对角矩阵,并希望主对角线元素随i,j增加尽快衰减。,0,02,0,12,0,N-12,1,02,1,12,N-1,02,1,N-12,N-1,12,N-1,N-12,已知X的条件下,根据它的协方差矩阵去寻找一种正交变换T,使变换后的协方差矩阵满足或接近为一对角阵。Karhunen-Loeve变换即是这样一种变换,又称为最佳变换,它能使变换后协方差矩阵为对角阵,并且有最小均方误差。它的计算比较复杂。实际应用中采用了一些准最佳变换如DCT,DFT和WHT等,使用这些变换后的协方差矩阵一般都接近一对角阵。,2.4.3 信息熵编码,又称为统计编码,它是根据信源符号出现概率的分布特性而进行的压缩编码。基本思想:在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。如Huffman编码、算术编码。,Huffman定理,定理 在变长编码中,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字。如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。Huffman定理是Huffman编码的理论基础,实现步骤,(1)将信源符号按概率递减顺序排列;(2)把二个最小概率相加作为新符号的概率,并按(1)重排;(3)重复(1)、(2),直到概率为1;(4)在每次合并信源时,将合并的信源分别赋“0”和“1”(如概率大的赋“0”,概率小的赋“1”);(5)寻找从每一信源符号到概率为1处的路径,记录下路径上的“1”和“0”;(6)写出每一符号的“1”、“0”序列(从树根到信源符号节点)。,Huffman编码,信源符号,概率,编码过程,码字,码长(i),x1,x2,x3,x4,x5,x6,x7,x8,0.40,0.18,0.10,0.10,0.07,0.06,0.05,0.04,1,001,011,0000,0100,0101,00010,00011,1,3,3,4,4,4,5,5,0,1,0,1,0,1,0.09,0.13,0.19,0.23,0.37,0.60,1,0,1,0,0,1,1,上述编码的平均码字长度:R=Pii=0.401+0.183+0.103+0.104+0.074+0.064+0.055+0.045=2.61,算术编码,六十年代初,Elias提出了算术编码概念。1976年,Rissanen和Pasco首次介绍了它的实用技术。其基本原理是将编码的信息表示成实数0和1之间的一个间隔(Interval),信息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。,算术编码举例,采用固定模式符号概率分配如下:字符:a e i o u 概率:0.2 0.3 0.1 0.2 0.2 范围:0,0.2)0.2,0.5)0.5,0.6)0.6,0.8)0.8,1.0)编码数据串为eai。令high间隔的高端,low为低端,range为间隔的长度,rangelow为编码字符分配的间隔低端,rangehigh为编码字符分配的间隔高端。,初始high=1,low=0,range=high-low,一个字符编码后新的low和high按下式计算:low=low+rangerangelow;high=low+rangerangehigh。(1)在第一个字符e被编码时,e的rangelow=0.2,rangehigh=0.5,因此:low=0+10.2=0.2 high=0+10.5=0.5 range=high-low=0.5-0.2=0.3 此时分配给e的范围为0.2,0.5),(2)第二个字符a编码时使用新生成范围0.2,0.5),a的rangelow=0,rangehigh=0.2,因此:low=0.2+0.30=0.2 high=0.2+0.30.2=0.26 range=0.06 范围变成0.2,0.26),(3)对下一个字符i编号,i的rangelow=0.5,rangehigh=0.6,range=0.06,则:low=0.2+0.060.5=0.23 high=0.2+0.060.6=0.236结果:用0.23,0.236)表示数据串eai,如果解码器知道最后范围是0.23,0.236),它马上可解得一个字符为e,然后依次得到唯一解a、i,最终得到eai。,算术编码过程表示,1,e 0.5,ea 0.26,0.236,0.8,0.6,0.5,0.2,0,u,o,i,e,a,u,o,i,e,a,u,o,i,e,a,u,o,i,e,a,0.2,0.2,0.23,eai,算术编码的特点,不必预先定义概率模型,自适应模式具有独特的优点;信源符号概率接近时,建议使用算术编码,这种情况下其效率高于Huffman编码(约5%)。JPEG扩展系统采用。,2.5 多媒体数据转换,不同媒体表示不同的信息表示方式。研究媒体之间转换十分有意义。有些媒体之间的转换是非常困难的事情,需要研究人类本身对各种媒体理解原理和解释过程。有些媒体之间的转换则相对容易,几乎不用做什么工作。,部分媒体的转换关系,