多媒体技术基础08.ppt
《多媒体技术基础08.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础08.ppt(65页珍藏版)》请在三一办公上搜索。
1、第八讲,MPEG压缩标准,主要内容,MPEG概念MPEG-1MPEG-2MPEG-4MPEG-7MPEG AudioMPEG Video,MPEG概念,MPEG(Moving Picture Expert Group)是在1988年由国际标准化组织(ISO)和国际电工委员会(IEC)联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准,这个专家组开发的标准称为MPEG标准。,MPEG概念,到目前为止,已经开发和正在开发的MPEG标准有:MPEG-1:数字电视标准,1992年正式发布。MPEG-2:数字电视标准。MPEG-3:已于1992年7月合并到高清晰度电视工作组。
2、MPEG-4:多媒体应用标准(1999年发布)。MPEG-5:直至1998年9月还没有见到定义。MPEG-6:直至1998年9月还没有见到定义。MPEG-7:多媒体内容描述接口标准(正在研究)。MPEG-1和-2标准已经正式发布,并且得到广泛应用。,MPEG-1,MPEG-1处理的是标准图像交换格式(Standard Interchange format,SIF)或者称为源输入格式(Source Input Format,SIF)的电视,即NTSC制为352像素 240行/帧 30帧/秒,PAL制为352像素 288行/帧 25帧/秒,压缩的输出速率定义在1.5 Mbit/s以下。这个标准主要
3、是针对当时具有这种数据传输率的CD-ROM和网络而开发的,用于在CD-ROM上存储数字影视和在网络上传输数字影视。,MPEG-1,MPEG-1标准号为ISO/IEC 11172,它由五部分组成:MPEG-1系统(MPEG-1 Systems):规定视频数据、声音数据及其他相关数据的同步合成技术MPEG-1视频编码标准(MPEG-1 Video)MPEG-1音频编码标准(MPEG-1 Audio)MPEG-1一致性测试:详细说明如何测试比特数据流和解码器是否满足MPEG-1前3个部分(Part1,2和3)中所规定的要求。MPEG-1软件模拟:一个技术报告,给出了软件执行MPEG-1前3个部分的运
4、行结果。,MPEG-1,输入、输出指标:,MPEG视频编码器,3522882581.5,3522403081.5,30Mb/s,1.15Mb/s,26:1,MPEG-2标准从1990年开始研究,1994发布DIS。它是一个直接与数字电视广播有关的高质量图像和声音编码标准。MPEG-2可以说是MPEG-1的扩充,因为它们的基本编码算法都相同。但MPEG-2增加了许多MPEG-1所没有的功能,例如增加了隔行扫描电视的编码,提供了位速率的可变性能(scalability)功能。MPEG-2要达到的最基本目标是:位速率为49 Mbit/s,最高达15 Mbit/s。,MPEG-2,MPEG-2(续),
5、MPEG-2的标准号为ISO/IEC 13818,它主要由以下几部分组成:MPEG-2系统(MPEG-1 Systems)MPEG-2视频编码标准(MPEG-2 Video)MPEG-2音频编码标准(MPEG-2 Audio)MPEG-2高级音频编码标准(MPEG-2 AAC)与MPEG-1一样,MPEG-2只规定了码流结构和解码器算法规则,而把实际编码器模型向设计者开放,以提供更多的选择性和自由度。,MPEG-2 Video与MPEG-1的基本编码算法相同,只是增加了如下功能:(1)能够在很宽的范围内对不同分辨率和不同输出比特率的图像信号有效的进行压缩。(2)处理隔行扫描的视频信号的能力。(
6、3)多样化的取样模式:4:2:0,4:2:2,4:4:4(4)可伸缩(Scalable)的视频编码模式:编码时可以在图像质量和数据速率之间作出调整 解码时只对码流的一部分进行解码和对码流的全部进行解码能够分别获得不同质量的重建图像。,MPEG-2(续),(1)信噪比伸缩性(Signal-to-Noise Scalability)(2)空间分辨率伸缩性(Spatial Scalability)(3)时间分辨率伸缩性(Temporal Scalability),MPEG-2(续),为了适应不同应用的需要,MPEG-2引入了配置(profiles)和等级(levels)的概念,每种配置定义一套新的算
7、法,而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。,MPEG-2(续),MPEG-2的配置,MPEG-2(续),MPEG-2的等级,MPEG-2(续),MPEG-2的配置与等级的组合,MPEG-2(续),MPEG-4,MPEG-4从1994年开始工作,目标是为视听(audio-visual)数据的编码和交互播放开发算法和工具,它是一个数据速率很低的多媒体通信标准。MPEG-4 算法的核心是支持基于内容的(content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。,MPEG-4(续),MPEG-4将应用在移动通信和公用电话交换网(p
8、ublic switched telephone network,PSTN)上,并支持可视电话(videophone)、电视邮件(video mail)、电子报纸(electronic newspapers)和其他低数据传输速率场合下的应用。,MPEG-4文件有6个部分,它们是:MPEG-4系统标准 MPEG-4电视图像标准 MPEG-4声音标准 MPEG-4一致性测试标准 MPEG-4参考软件 MPEG-4传输多媒体集成框架,MPEG-4(续),MPEG-7,MPEG-7工作于1996年启动,名称叫做多媒体内容描述接口(Multimedia Content Description Inter
9、face),目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下,数据类型还可包括面部特性和个人特性的表达。MPEG-7的处理链(processing chain)中包含有三个方框:特征抽取(feature extraction)、标准描述(standard description)和检索工具(search engine)。,MPEG-7的应用领域包括:数字图书馆(Digital library),例如图像目录、音乐词典等;多媒体目录服务(
10、multimedia directory services),例如黄页(yellow pages);广播媒体的选择,例如无线电频道,TV频道等;多媒体编辑,例如个人电子新闻服务,多媒体创作等等。潜在应用的应用领域包括:教育、娱乐、新闻、旅游、医疗、购物等等。,MPEG-7(续),MPEG-Audio,听觉系统的感知特性 MPEG Audio与感知特性的关系MPEG-1 AudioMPEG-2 AudioMPEG-2 AAC,感知特性-对响度的感知,声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强
11、)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两种概念,但是它们之间又有一定的联系。,当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”,另一种极端的情况是声音强到使人耳感到疼痛,这个声音强度为“痛阈”。例如,1 kHz纯音的声强达到10-16w/cm2(定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为零方,频率为1 kHz的纯音的声强级达到120 dB左右时,人的耳朵就感到疼痛,此时的主观响度级定为120方。实验表明,听阈是随频率变化的。测出的“听阈频率”曲线如下图所示。,感知特性-对
12、响度的感知(续),听阈频率曲线,感知特性-对响度的感知(续),图中最靠下面的一根曲线叫做“零方等响度级”曲线,也称“听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值;图中最靠上面所示的一根曲线叫做“120方等响度级”曲线,也称“痛阈”曲线。在“听阈频率”曲线和“痛阈频率”曲线之间的区域就是人耳的听觉范围。这个范围内的等响度级曲线也是用同样的方法测量出来的。由图9-01可以看出,1 kHz的10 dB的声音和200 Hz的30 dB的声音,在人耳听起来具有相同的响度。此图说明人耳对不同频率的敏感程度差别很大,其中对2 kHz4 kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到。而在低
13、频区和高频区,能被人耳听到的信号幅度要高得多。,感知特性-对响度的感知(续),客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是其中 的单位为Hz,这也是两个既不相同又有联系的单位。人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20 Hz,最高频率约18000 Hz。实验表明,音高与频率之间也不是线性关系。测出的“音高频率”曲线如下图所示。,感知特性-对音高的感知,感知特性-对音高的感知(续),一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音
14、(masking tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。,感知特性-掩蔽效应,1.频域掩蔽一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)。频域掩蔽有以下特性:在250 Hz、1 kHz、4 kHz和8 kHz纯音附近,对其他纯音的掩蔽效果最明显。低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。弱纯音离强纯音越近就越容易被掩蔽。如下图所示。,感知特性-掩蔽效应(续),感知特性-掩蔽效应(续),由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声
15、音频率,引入了“临界频带(critical band)”的概念。通常认为,在20 Hz到16 kHz范围内有24个临界频带临界频带的单位叫Bark(巴克),1 Bark=一个临界频带的宽度(频率)500 Hz的情况下,1Bark 9+4log(/1000),感知特性-掩蔽效应(续),2.时域掩蔽除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图9-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约520 ms,
16、而滞后掩蔽可以持续50200 ms。这个区别也是很容易理解的。,感知特性-掩蔽效应(续),一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽,感知特性-掩蔽效应(续),以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要,它是心理声学模型的基础。,感知特性-掩蔽效应(续),MPEG Audio与感知特性,MPEG Audio标准在本书中是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC,它们处理10 Hz20000 Hz范围里的声音数据,数据压缩的的主要依据是人耳朵的听觉特性,使用“心理声学模型(psychoacous
17、tic model)”来达到压缩声音数据的目的。,心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。心理声学模型中的另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。声音压缩算法也同样可以确立这种特性的模型来取消更多的冗余数据。,MPEG Audio与感知特性,MPEG-1 Audio,1:声音编码声音的数据量由两方面决定:采样频率和样本精度。对单声道信号而言,每秒钟的数据量(位数)=采样频率 样本精度。
18、要减小数据量,就需要降低采样频率或者降低样本精度。但是人耳可听到的频率范围大约是20 Hz20 kHz。根据奈奎斯特理论,要想不失真地重构信号,采样频率不能低于40 kHz。再考虑到实际中使用的滤波器都不可能是理想滤波器,以及考虑各国所用的交流电源的频率,为保证声音频带的宽度,所以采样频率一般不能低于44.1 kHz。这样,压缩就必须从降低样本精度这个角度出发,即减少每位样本所需要的位数。,MPEG-1 Audio,2:声音的性能(1)MPEG编码器的输入信号为线性PCM信号,采样率为32,44.1或48 kHz,输出为32 kb/s384 kb/s。(2)MPEG声音标准提供三个独立的压缩层
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 08
链接地址:https://www.31ppt.com/p-2431450.html