多媒体技术基础3版章MPEG声音.ppt
《多媒体技术基础3版章MPEG声音.ppt》由会员分享,可在线阅读,更多相关《多媒体技术基础3版章MPEG声音.ppt(42页珍藏版)》请在三一办公上搜索。
1、多媒体技术基础(第3版)第11章 MPEG声音,张奇复旦大学 计算机科学技术学院 2011年4月,2023年10月22日,第11章 MPEG声音,2/42,第11章 MPEG声音目录,11.1 听觉系统的感知特性11.1.1.对响度的感知11.1.2.对音高的感知11.1.3.掩蔽效应11.2 感知声音编码11.2.1 MPEG声音的压缩依据11.2.2 感知子带编码11.2.3 杜比数字编码11.3 MPEG-1 Audio11.3.1 声音编码11.3.2 声音的性能11.3.3 子带编码11.3.4 多相滤波器组11.3.5 编码层,11.4 MPEG-2 Audio11.4.1 MPE
2、G-2 Audio简介11.4.2 MPEG-2 Audio使用的环绕声11.4.3 MPEG-2 Audio的后向兼容结构11.5 MPEG-2 AAC11.5.1 MPEG-2 AAC是什么11.5.2 MPEG-2 AAC编解码器的结构11.5.3 MPEG-2 AAC的类型11.6 MPEG-4 Audio11.6.1 MPEG-4 Audio是什么11.6.2 MPEG-4 Audio工具与文档11.6.3 MPEG-4话音(speech)编码11.6.4 MPEG-4声音(audio)编码11.6.5 MPEG-4 声音无损压缩,2023年10月22日,第11章 MPEG声音,3/
3、42,第11章 MPEG声音,前言MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码进入20世纪80年代,人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展,先后制定了MPEG-1 Audio,MPEG-2 Audio,MPEG-2 AAC和MPEG-4 Audio等标准1234,并把它们统称为MPEG声音。本章涉及的许多具体算法已经超出本教材的要求。为给需要深入研究和具体开发产品的读者提供方便,本章提供了大量宝贵的参考文件和站点地址,2023年10月22日,第11章 MP
4、EG声音,4/42,11.1 听觉系统的感知特性,对响度的感知声音的响度就是声音的强弱在物理上,用dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)度量在心理上,主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量这两种计量单位完全不同,但它们之间有一定的联系人耳的听觉范围听阈:当声音弱到人耳朵刚可听见时的声音强度痛域:声音强到使人耳感到疼痛时的声音强度听觉范围:位于听阈和痛域之间,见图11-1,2023年10月22日,第11章 MPEG声音,5/42,11.1 听觉系统的感知特性(续1),图11-1“听阈频率”曲线和“痛阈频率”曲线,2023年
5、10月22日,第11章 MPEG声音,6/42,11.1 听觉系统的感知特性(续2),对音高(频率)的感知客观上用频率表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”。主观音高与客观音高的关系为,其中,f 的单位为Hz,Hz和Mel不同但有联系,人耳对频率的感知范围,可以听到最低频率约20 Hz最高频率约20000 Hz,2023年10月22日,第11章 MPEG声音,7/42,11.1 听觉系统的感知特性(续3),音高-频率曲线测量主观音高时,让实验者听两个声强级为40 dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这
6、两个声音的音高差为两倍。测出的“音高频率”曲线见图11-2,图11-2“音高频率”曲线,2023年10月22日,第11章 MPEG声音,8/42,11.1 听觉系统的感知特性(续4),掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象前者称为掩蔽声音(masking tone)后者称为被掩蔽声音(masked tone)掩蔽可分成频域掩蔽和时域掩蔽频域掩蔽一个强纯音掩蔽在其附近同时发声的弱纯音的特性,也称同时掩蔽(simultaneous masking),如图11-3所示,2023年10月22日,第11章 MPEG声音,9/42,11.1 听觉系统的感知特性(续5),图11-3 频
7、域掩蔽,2023年10月22日,第11章 MPEG声音,10/42,11.1 听觉系统的感知特性(续6),图11-4中的一组曲线表示为250 Hz,1 kHz和4 kHz纯音的掩蔽效应,它们的声强均为60 dB250 Hz,1 kHz和4 kHz附近,对其他纯音的掩蔽效果最明显低频纯音可有效地掩蔽高频纯音,相反则不明显,图11-4 不同纯音的掩蔽效应曲线,2023年10月22日,第11章 MPEG声音,11/42,11.1 听觉系统的感知特性(续7),临界频带(critical band)人耳刚可感知两种频率的声音有差别的频率范围通常认为声音(audio)有25个临界频带,见表11-1临界频带
8、的宽度随声音频率的变化而变化在低频端,宽度小于100 Hz,可认为接近于常数在高频端,宽度近似线性增加,宽度可大到4 kHz临界频带的单位为Bark(巴克)1 Bark等于一个临界频带的宽度,2023年10月22日,第11章 MPEG声音,12/42,11.1 听觉系统的感知特性(续8),2023年10月22日,第11章 MPEG声音,13/42,11.1 听觉系统的感知特性(续9),时域掩蔽在时间上相邻的声音之间的掩蔽现象 67一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果见图11-5同时掩蔽(simultaneous masking):信号和掩蔽音同时产生的现象滞后掩蔽(post-mas
9、king):信号出现在掩蔽音消失后出现的现象,可以持续50200 ms 超前掩蔽(pre-masking):信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告,但这种现象依然令人费解9 7。超前掩蔽很短,通常只有大约220 ms,产生时域掩蔽的主要原因人的大脑处理信息需要花费一定的时间,2023年10月22日,第11章 MPEG声音,14/42,11.1 听觉系统的感知特性(续10),图11-5 时域掩蔽,2023年10月22日,第11章 MPEG声音,15/42,11.2 感知声音编码,感知编码(perceptual audio coding)频率为1020000 Hz的声音数
10、据压缩技术依据是人耳朵的听觉特性方法是使用“心理声学模型”来取消人耳感觉不到的声音数据应用于MPEG-1 Audio、MPEG-2 Audio、MPEG-2 AAC(Advanced Audio Coding)和MPEG-4 AudioMPEG声音主要采纳两种感知编码算法感知子带编码(perceptual sub-band coding)杜比实验室(Dolby Laboratories)开发的杜比数字(Dolby Digital),2023年10月22日,第11章 MPEG声音,16/42,11.2 感知声音编码(续1),MPEG声音的压缩依据听觉系统存在听觉阈值电平低于阈值电平的信号听不到,
11、因此可把这部分信号去掉听觉阈值的大小随声音频率的改变而改变大多数人的听觉系统对25 kHz之间的声音最敏感听觉掩饰特性听觉阈值电平会随听到的不同频率的声音而发生变化例如,1000 Hz和1100 Hz的声音同时存在,前者的强度大于后者18dB,在这种情况下,1100 Hz的声音就听不到体验:在一个安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下,同样的普通谈话就听不清楚了,2023年10月22日,第11章 MPEG声音,17/42,11.2 感知声音编码(续2),感知子带编码简化算法框图见图11-6输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带每个子带
12、信号对应一个“编码器”,然后根据心理声学模型对每个子带信号进行量化和编码,输出量化信息和经过编码的子带样本通过“多路复合器”把每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream)解码过程与编码过程相反,2023年10月22日,第11章 MPEG声音,18/42,11.2 感知声音编码(续3),图11-6 感知子带压缩算法框图,2023年10月22日,第11章 MPEG声音,19/42,11.2 感知声音编码(续4),杜比数字(Dolby Digital)前称为Dolby AC-3,简称AC-31992年杜比实验室开发的数字声音编码系统,采用了感知编码技术多声道环绕
13、声格式,现已作为国际标准杜比数字可提供6个声音通道,称为5.1声道,即左、中、右、后左、后右5个主声道和1个低音加强声道声音数据的位速率通常为64448 kbps立体声的位速率通常为192 kbps5.1声道的位速率通常为384 kbps,但可高达640 kbps已用在DVD影视盘、DTV(数字电视)、HDTV和其他娱乐产品中,2023年10月22日,第11章 MPEG声音,20/42,11.2 感知声音编码(续5),图11-7 Dolby AC-3压缩编码算法框图10,编码器框图见图11-7输入是未被压缩的PCM样本,而PCM样本的采样频率必须是32,44.1或48 kHz,样本精度可多到2
14、0位获得高压缩比的基本方法是对用频域表示的声音信号进行量化,详细计算请看文献1011 12,2023年10月22日,第11章 MPEG声音,21/42,11.2 感知声音编码(续6),各部分的功能简述如下分析滤波器组(analysis filter bank):把用PCM时间样本表示的声音信号变换成用频率系数块(frequencies coefficients block)表示的声音信号。单个频率系数用二进制的指数(exponent)和尾数(mantissa)表示频谱包络编码(spectral envelope encoding):对“分析滤波器组”输出的指数进行编码。指数代表粗糙的信号频谱,
15、因此称为(频)“谱包络编码”位分配(bit allocation):使用“谱包络编码”输出的信息确定尾数编码所需要的位数尾数量化(mantissa quantization):按照“位分配”输出的位分配信息对尾数进行量化AC-3帧格式(AC-3 frame formatting):把“尾数量化”输出的量化尾数和“谱包络编码”输出的频谱包络组成AC-3帧一帧由6个声音块(1536个声音样本)组成。“AC-3帧格式”输出的是AC-3编码位流,它的位速率为32640 kbps,2023年10月22日,第11章 MPEG声音,22/42,11.3 MPEG-1 Audio,MPEG-1 Audio编码
16、器MPEG-1 Audio(ISO/IEC 11172-3)是世界上第一个高保真声音数据压缩标准,得到极其广泛的应用 编码器的输入信号为线性PCM信号采样率为32,44.1或48 kHz编码器的输出信号为32384 kbps,图11-8 MPEG-1 Audio编码器的输入/输出,2023年10月22日,第11章 MPEG声音,23/42,11.3 MPEG-1 Audio(续1),MPEG-1 Audio定义了三个独立压缩层次第1层MP1(MPEG Audio Layer 1)仅利用频域掩蔽特性,典型的压缩比为1:4,相应的数据率为384 kbps算法复杂度最低第2层MP2(MPEG Aud
17、io Layer 2)利用频域掩蔽特性和时间掩蔽特性,典型的压缩比为1:61:8,数据率为256192 kbps算法复杂度中等第3层MP3(MPEGAudio Layer 3)利用频域掩蔽特性、时间掩蔽特性和临界频带特性,典型的压缩比为1:101:12,相应的数据率为128112 kbps,声音质量接近CD-DA 算法复杂度最高,2023年10月22日,第11章 MPEG声音,24/42,11.3 MPEG-1 Audio(续2),MPEG-1 Audio的压缩率在保持接近CD音质的前提条件下,MPEG-1 Audio标准一般所能达到的压缩率见表11-2,2023年10月22日,第11章 MP
18、EG声音,25/42,11.3 MPEG-1 Audio(续3),MP3可预先定义压缩率和压缩后的数据率,见表11-4编码后的数据流支持循环冗余校验(cyclic redundancy check,CRC)。支持在数据流中添加附加信息,2023年10月22日,第11章 MPEG声音,26/42,11.4 MPEG-2 Audio,MPEG-2 Audio简介MPEG-2标准委员会定义了两种声音数据压缩标准MPEG-2 Audio(ISO/IEC 13818-3)12也称MPEG-2 Multichannel Audio(多通道声音)因为它与MPEG-1 Audio是兼容的,所以又称为MPEG-
19、2 BC(Backward Compatible)标准MPEG-2 AAC(ISO/IEC 13818-7)22因为它与MPEG-1 Audio格式不兼容,因此通常把它称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible)标准,2023年10月22日,第11章 MPEG声音,27/42,11.4 MPEG-2 Audio(续1),MPEG-2 Audio和MPEG-1 Audio相比较都使用相同的编译码器,3个编码层的编码结构也相同MPEG2声音标准做了如下扩充增加了16 kHz,22.05 kHz和24 kHz采样频率扩展了输出速率范围,由32384 kbps扩
20、展到8640 kbps增加了声道数,支持5.1声道和7.1声道的环绕声支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码它们的差别见表11-5,2023年10月22日,第11章 MPEG声音,28/42,11.4 MPEG-2 Audio(续2),MPEG-2 Audio使用的环绕声5.1环绕声,也称3/2-立体声加LFE5表示播音现场的前面可有3个声道(左、中、右),后面可有2个环绕声声道.1是指低频音效(low frequency effects,LFE)加强声道,见图11-19(a)7.1声道环绕立体声与5.1声道类似,见图11-1
21、9(b),图11-19 MPEG-2 Audio 环绕声,2023年10月22日,第11章 MPEG声音,29/42,11.5 MPEG-2 AAC,MPEG-2 AAC是什么MPEG-2 Advanced Audio Coding的缩写,声音感知编码标准像其他感知编码标准那样,使用听觉系统的掩蔽特性来减少声音的数据量,把量化噪声分散到各个子带并用全局信号来掩蔽噪声采样频率可从8 kHz到96 kHz,编码器的输入可来自单声道、立体声或多声道音源的声音可支持48个声道、16个低频音效加强通道(LFE)、16个配音声道(overdub channel)或称多语言声道(multilingual c
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 基础 版章 MPEG 声音
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6382314.html