多媒体技术基础3版章MPEG声音.ppt

上传人：小飞机

文档编号：6382314

上传时间：2023-10-22

格式：PPT

页数：42

大小：507KB

《多媒体技术基础3版章MPEG声音.ppt》由会员分享，可在线阅读，更多相关《多媒体技术基础3版章MPEG声音.ppt（42页珍藏版）》请在三一办公上搜索。

1、多媒体技术基础(第3版)第11章 MPEG声音,张奇复旦大学计算机科学技术学院 2011年4月,2023年10月22日,第11章 MPEG声音,2/42,第11章 MPEG声音目录,11.1 听觉系统的感知特性11.1.1.对响度的感知11.1.2.对音高的感知11.1.3.掩蔽效应11.2 感知声音编码11.2.1 MPEG声音的压缩依据11.2.2 感知子带编码11.2.3 杜比数字编码11.3 MPEG-1 Audio11.3.1 声音编码11.3.2 声音的性能11.3.3 子带编码11.3.4 多相滤波器组11.3.5 编码层,11.4 MPEG-2 Audio11.4.1 MPE

2、G-2 Audio简介11.4.2 MPEG-2 Audio使用的环绕声11.4.3 MPEG-2 Audio的后向兼容结构11.5 MPEG-2 AAC11.5.1 MPEG-2 AAC是什么11.5.2 MPEG-2 AAC编解码器的结构11.5.3 MPEG-2 AAC的类型11.6 MPEG-4 Audio11.6.1 MPEG-4 Audio是什么11.6.2 MPEG-4 Audio工具与文档11.6.3 MPEG-4话音(speech)编码11.6.4 MPEG-4声音(audio)编码11.6.5 MPEG-4 声音无损压缩,2023年10月22日,第11章 MPEG声音,3/

3、42,第11章 MPEG声音,前言MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性，而是利用人的听觉系统的特性来达到压缩声音数据的目的，这种压缩编码称为感知声音编码进入20世纪80年代，人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展，先后制定了MPEG-1 Audio,MPEG-2 Audio，MPEG-2 AAC和MPEG-4 Audio等标准1234，并把它们统称为MPEG声音。本章涉及的许多具体算法已经超出本教材的要求。为给需要深入研究和具体开发产品的读者提供方便，本章提供了大量宝贵的参考文件和站点地址,2023年10月22日,第11章 MP

4、EG声音,4/42,11.1 听觉系统的感知特性,对响度的感知声音的响度就是声音的强弱在物理上，用dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)度量在心理上，主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量这两种计量单位完全不同，但它们之间有一定的联系人耳的听觉范围听阈：当声音弱到人耳朵刚可听见时的声音强度痛域：声音强到使人耳感到疼痛时的声音强度听觉范围：位于听阈和痛域之间，见图11-1,2023年10月22日,第11章 MPEG声音,5/42,11.1 听觉系统的感知特性(续1),图11-1“听阈频率”曲线和“痛阈频率”曲线,2023年

5、10月22日,第11章 MPEG声音,6/42,11.1 听觉系统的感知特性(续2),对音高(频率)的感知客观上用频率表示声音的音高，其单位是Hz。而主观感觉的音高单位则是“美(Mel)”。主观音高与客观音高的关系为,其中，f 的单位为Hz，Hz和Mel不同但有联系,人耳对频率的感知范围，可以听到最低频率约20 Hz最高频率约20000 Hz,2023年10月22日,第11章 MPEG声音,7/42,11.1 听觉系统的感知特性(续3),音高-频率曲线测量主观音高时，让实验者听两个声强级为40 dB的纯音，固定其中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的音高为前者的两倍，就标定这

6、两个声音的音高差为两倍。测出的“音高频率”曲线见图11-2,图11-2“音高频率”曲线,2023年10月22日,第11章 MPEG声音,8/42,11.1 听觉系统的感知特性(续4),掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象前者称为掩蔽声音(masking tone)后者称为被掩蔽声音(masked tone)掩蔽可分成频域掩蔽和时域掩蔽频域掩蔽一个强纯音掩蔽在其附近同时发声的弱纯音的特性，也称同时掩蔽(simultaneous masking),如图11-3所示,2023年10月22日,第11章 MPEG声音,9/42,11.1 听觉系统的感知特性(续5),图11-3 频

7、域掩蔽,2023年10月22日,第11章 MPEG声音,10/42,11.1 听觉系统的感知特性(续6),图11-4中的一组曲线表示为250 Hz，1 kHz和4 kHz纯音的掩蔽效应，它们的声强均为60 dB250 Hz，1 kHz和4 kHz附近，对其他纯音的掩蔽效果最明显低频纯音可有效地掩蔽高频纯音，相反则不明显,图11-4 不同纯音的掩蔽效应曲线,2023年10月22日,第11章 MPEG声音,11/42,11.1 听觉系统的感知特性(续7),临界频带(critical band)人耳刚可感知两种频率的声音有差别的频率范围通常认为声音(audio)有25个临界频带，见表11-1临界频带

8、的宽度随声音频率的变化而变化在低频端，宽度小于100 Hz，可认为接近于常数在高频端，宽度近似线性增加，宽度可大到4 kHz临界频带的单位为Bark(巴克)1 Bark等于一个临界频带的宽度,2023年10月22日,第11章 MPEG声音,12/42,11.1 听觉系统的感知特性(续8),2023年10月22日,第11章 MPEG声音,13/42,11.1 听觉系统的感知特性(续9),时域掩蔽在时间上相邻的声音之间的掩蔽现象 67一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果见图11-5同时掩蔽(simultaneous masking)：信号和掩蔽音同时产生的现象滞后掩蔽(post-mas

9、king)：信号出现在掩蔽音消失后出现的现象，可以持续50200 ms 超前掩蔽(pre-masking)：信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告，但这种现象依然令人费解9 7。超前掩蔽很短，通常只有大约220 ms，产生时域掩蔽的主要原因人的大脑处理信息需要花费一定的时间,2023年10月22日,第11章 MPEG声音,14/42,11.1 听觉系统的感知特性(续10),图11-5 时域掩蔽,2023年10月22日,第11章 MPEG声音,15/42,11.2 感知声音编码,感知编码(perceptual audio coding)频率为1020000 Hz的声音数

10、据压缩技术依据是人耳朵的听觉特性方法是使用“心理声学模型”来取消人耳感觉不到的声音数据应用于MPEG-1 Audio、MPEG-2 Audio、MPEG-2 AAC(Advanced Audio Coding)和MPEG-4 AudioMPEG声音主要采纳两种感知编码算法感知子带编码(perceptual sub-band coding)杜比实验室(Dolby Laboratories)开发的杜比数字(Dolby Digital),2023年10月22日,第11章 MPEG声音,16/42,11.2 感知声音编码(续1),MPEG声音的压缩依据听觉系统存在听觉阈值电平低于阈值电平的信号听不到，

11、因此可把这部分信号去掉听觉阈值的大小随声音频率的改变而改变大多数人的听觉系统对25 kHz之间的声音最敏感听觉掩饰特性听觉阈值电平会随听到的不同频率的声音而发生变化例如，1000 Hz和1100 Hz的声音同时存在，前者的强度大于后者18dB，在这种情况下，1100 Hz的声音就听不到体验：在一个安静房间里的普通谈话可以听得很清楚，但在播放摇滚乐的环境下，同样的普通谈话就听不清楚了,2023年10月22日,第11章 MPEG声音,17/42,11.2 感知声音编码(续2),感知子带编码简化算法框图见图11-6输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带每个子带

12、信号对应一个“编码器”，然后根据心理声学模型对每个子带信号进行量化和编码，输出量化信息和经过编码的子带样本通过“多路复合器”把每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream)解码过程与编码过程相反,2023年10月22日,第11章 MPEG声音,18/42,11.2 感知声音编码(续3),图11-6 感知子带压缩算法框图,2023年10月22日,第11章 MPEG声音,19/42,11.2 感知声音编码(续4),杜比数字(Dolby Digital)前称为Dolby AC-3，简称AC-31992年杜比实验室开发的数字声音编码系统，采用了感知编码技术多声道环绕

13、声格式，现已作为国际标准杜比数字可提供6个声音通道，称为5.1声道，即左、中、右、后左、后右5个主声道和1个低音加强声道声音数据的位速率通常为64448 kbps立体声的位速率通常为192 kbps5.1声道的位速率通常为384 kbps，但可高达640 kbps已用在DVD影视盘、DTV(数字电视)、HDTV和其他娱乐产品中,2023年10月22日,第11章 MPEG声音,20/42,11.2 感知声音编码(续5),图11-7 Dolby AC-3压缩编码算法框图10,编码器框图见图11-7输入是未被压缩的PCM样本，而PCM样本的采样频率必须是32,44.1或48 kHz，样本精度可多到2

14、0位获得高压缩比的基本方法是对用频域表示的声音信号进行量化，详细计算请看文献1011 12,2023年10月22日,第11章 MPEG声音,21/42,11.2 感知声音编码(续6),各部分的功能简述如下分析滤波器组(analysis filter bank)：把用PCM时间样本表示的声音信号变换成用频率系数块(frequencies coefficients block)表示的声音信号。单个频率系数用二进制的指数(exponent)和尾数(mantissa)表示频谱包络编码(spectral envelope encoding)：对“分析滤波器组”输出的指数进行编码。指数代表粗糙的信号频谱，

15、因此称为(频)“谱包络编码”位分配(bit allocation)：使用“谱包络编码”输出的信息确定尾数编码所需要的位数尾数量化(mantissa quantization)：按照“位分配”输出的位分配信息对尾数进行量化AC-3帧格式(AC-3 frame formatting)：把“尾数量化”输出的量化尾数和“谱包络编码”输出的频谱包络组成AC-3帧一帧由6个声音块(1536个声音样本)组成。“AC-3帧格式”输出的是AC-3编码位流，它的位速率为32640 kbps,2023年10月22日,第11章 MPEG声音,22/42,11.3 MPEG-1 Audio,MPEG-1 Audio编码

16、器MPEG-1 Audio(ISO/IEC 11172-3)是世界上第一个高保真声音数据压缩标准，得到极其广泛的应用编码器的输入信号为线性PCM信号采样率为32,44.1或48 kHz编码器的输出信号为32384 kbps,图11-8 MPEG-1 Audio编码器的输入/输出,2023年10月22日,第11章 MPEG声音,23/42,11.3 MPEG-1 Audio(续1),MPEG-1 Audio定义了三个独立压缩层次第1层MP1(MPEG Audio Layer 1)仅利用频域掩蔽特性，典型的压缩比为1:4，相应的数据率为384 kbps算法复杂度最低第2层MP2(MPEG Aud

17、io Layer 2)利用频域掩蔽特性和时间掩蔽特性，典型的压缩比为1:61:8，数据率为256192 kbps算法复杂度中等第3层MP3(MPEGAudio Layer 3)利用频域掩蔽特性、时间掩蔽特性和临界频带特性，典型的压缩比为1:101:12，相应的数据率为128112 kbps，声音质量接近CD-DA 算法复杂度最高,2023年10月22日,第11章 MPEG声音,24/42,11.3 MPEG-1 Audio(续2),MPEG-1 Audio的压缩率在保持接近CD音质的前提条件下，MPEG-1 Audio标准一般所能达到的压缩率见表11-2,2023年10月22日,第11章 MP

18、EG声音,25/42,11.3 MPEG-1 Audio(续3),MP3可预先定义压缩率和压缩后的数据率，见表11-4编码后的数据流支持循环冗余校验(cyclic redundancy check,CRC)。支持在数据流中添加附加信息,2023年10月22日,第11章 MPEG声音,26/42,11.4 MPEG-2 Audio,MPEG-2 Audio简介MPEG-2标准委员会定义了两种声音数据压缩标准MPEG-2 Audio(ISO/IEC 13818-3)12也称MPEG-2 Multichannel Audio(多通道声音)因为它与MPEG-1 Audio是兼容的，所以又称为MPEG-

19、2 BC(Backward Compatible)标准MPEG-2 AAC(ISO/IEC 13818-7)22因为它与MPEG-1 Audio格式不兼容，因此通常把它称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible)标准,2023年10月22日,第11章 MPEG声音,27/42,11.4 MPEG-2 Audio(续1),MPEG-2 Audio和MPEG-1 Audio相比较都使用相同的编译码器，3个编码层的编码结构也相同MPEG2声音标准做了如下扩充增加了16 kHz,22.05 kHz和24 kHz采样频率扩展了输出速率范围，由32384 kbps扩

20、展到8640 kbps增加了声道数，支持5.1声道和7.1声道的环绕声支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码它们的差别见表11-5,2023年10月22日,第11章 MPEG声音,28/42,11.4 MPEG-2 Audio(续2),MPEG-2 Audio使用的环绕声5.1环绕声，也称3/2-立体声加LFE5表示播音现场的前面可有3个声道(左、中、右)，后面可有2个环绕声声道.1是指低频音效(low frequency effects，LFE)加强声道，见图11-19(a)7.1声道环绕立体声与5.1声道类似，见图11-1

21、9(b),图11-19 MPEG-2 Audio 环绕声,2023年10月22日,第11章 MPEG声音,29/42,11.5 MPEG-2 AAC,MPEG-2 AAC是什么MPEG-2 Advanced Audio Coding的缩写，声音感知编码标准像其他感知编码标准那样，使用听觉系统的掩蔽特性来减少声音的数据量，把量化噪声分散到各个子带并用全局信号来掩蔽噪声采样频率可从8 kHz到96 kHz，编码器的输入可来自单声道、立体声或多声道音源的声音可支持48个声道、16个低频音效加强通道(LFE)、16个配音声道(overdub channel)或称多语言声道(multilingual c

22、hannel)和16个数据流在压缩比为11:1时，很难区分压缩前和压缩还原后的声音11:1即每个声道的数据率为(44.116)/11=64 kbps，5个声道的总数据率为320 kbps在声音质量相同的前提下与MPEG-1/-2 Audio 的第2层相比，AAC的压缩率可提高1倍与MPEG-1/-2 Audio 的第3层相比，AAC的数据率是它的70,2023年10月22日,第11章 MPEG声音,30/42,11.6 MPEG-4 Audio,MPEG-4 Audio是什么包罗万象的声音对象编码标准(ISO-IEC 14496-3)，从话音、声音到合成语音的编码。企图达到的数据速率和应用目标

23、见图11-23该标准为每个声道规定的数据速率为264 kbps，并为此定义了三种类型的编码器，称为“编码工具(coding tool)”在数据速率为26 kbps范围内，可使用参数编码(parametric coding)，声音信号的采样频率使用8 kHz在数据速率为624 kbps的范围内，可使用码激励线性预测技术(code excited linear prediction，CELP)，声音信号的采样频率使用8kHz或16 kHz在数据速率为1664 kbps范围内，可使用时间/频率编码(time/frequency coding)或称为“基于变换的普通声音编码(transform-bas

24、ed general audio coding)”技术，如用MPEG-2 AAC经过改进的MPEG-4 AAC，支持896 kHz的声音信号采样频率,2023年10月22日,第11章 MPEG声音,31/42,11.6 MPEG-4 Audio(续1),图11-23 MPEG-4 Audio数据速率和应用目标(引自ISO/IEC 14496-3 Subpart 1:1998),2023年10月22日,第11章 MPEG声音,32/42,11.6 MPEG-4 Audio(续2),关于MPEG-4 Audio的标准文档从20世纪90年代中期以来已有多个版本，见图11-24，前后版本的差别也比较大

25、原因之一是这个时期的技术发展比较快，MPEG-4 Audio标准不断采纳当时还不够成熟的新技术，例如正弦波编码(SSC)和谱带复制(SBR)编码的有损压缩技术声音无损编码(ALS)和直接数据流传输(DST)的无损压缩技术,2023年10月22日,第11章 MPEG声音,33/42,11.6 MPEG-4 Audio(续3),MC/LSF:multi-channel and low sampling frequencyAAC:advanced audio coderSBR:spectral band replication,SSC:sinusoidal codingSLS:scalable lo

26、sslessDST:direct stream transfer,图11-24 MPEG-4 Audio概要24,2023年10月22日,第11章 MPEG声音,34/42,11.6 MPEG-4 Audio(续4),MPEG-4 Audio工具与文档提供的声音工具可分成8种类型(1)话音编码工具(speech coding tools)(2)声音编码工具(audio coding tools)(3)无损声音编码工具(lossless audio coding tools)(4)声音合成工具(synthesis tools)(5)编排工具(composition tools)(6)性能可变工具

27、(scalability tools)(7)上行数据流控制工具(upstream)(8)抗错工具(error robustness facilities),2023年10月22日,第11章 MPEG声音,35/42,11.6 MPEG-4 Audio(续5),描述各种工具的文档(ISO-IEC 14496-3)有10部分Subpart 1:MainSubpart 2:Speech coding HVXCSubpart 3:Speech coding CELPSubpart 4:General Audio coding(GA)AAC,TwinVQ,BSACSubpart 5:Structured

28、 Audio(SA)Subpart 6:Text To Speech Interface(TTSI)Subpart 7:Parametric Audio Coding HILNSubpart 8:Parametric coding for high quality audio SSCSubpart 9:MPEG-1/2 Audio in MPEG-4Subpart 10:Lossless coding of over sampled audio DST,2023年10月22日,第11章 MPEG声音,36/42,第11章 MPEG声音(参考文献),参考文献和站点The MPEG Home Pa

29、ge,MPEG Industry Forum,MPEG Audio Resources and Software,The MPEG Audio Web Page,J.S.Tobias,Ed.,Foundations of Modern Auditory Theory,Vol.1,Academic Press,New York,1970Hugo Fastl and Eberhard Zwicker,Psychoacoustics:Facts and Models(Springer Series in Information Sciences),3rd ed.2007.pp149-173Ted P

30、ainter and Andreas Spanias,Perceptual Coding of Digital Audio,Proceedings of the IEEE,VOL.88,NO.4,April 2000.http:/www.eas.asu.edu/spanias/papers/paper-audio-tedspanias-00.pdf,2023年10月22日,第11章 MPEG声音,37/42,第11章 MPEG声音(参考文献续1),Miroslava Raspopovic,Charles Thompson,Donn Clark,Design of Perception Bas

31、ed Audio Codec-Final Report,May 25th,2001.http:/morse.uml.edu/mira/Research/Codec.pdfTeddy Surya Gunawan,Eliathamby Ambikairajah,Audio Compression and Speech Enhancement using Temporal Masking Models,thesis submitted for the degree of Doctor of Philosophy,2007.http:/www.library.unsw.edu.au/thesis/ad

32、t-NUN/uploads/approved/adt-NUN20070226.040348/public/01front.pdfAdvanced Television Systems Committee,Inc.,Digital Audio Compression Standard(AC-3,E-AC-3),Revision B,Document A/52B,14 June 2005.ITU Radio communication Study Groups,A guide to digital terrestrial television broadcasting in the VHF/UHF

33、 bands,1998.ISO/IEC 13818-3，ISO/IEC JTC1/SC29/WG11 NO803，Information Technology-Generic Coding of Moving Pictures and Associated Audio:Audio，11/November/1994P.U.Y.Dehery,M.Lever,A MUSICAM source codec for digital audio broadcasting and storage,in Proceedings of Int.Conf.Acoustic,Speech,Signal Proces

34、sing,pp.3605-3608,IEEE,1991,2023年10月22日,第11章 MPEG声音,38/42,第11章 MPEG声音(参考文献续2),K.Brandenburg,J.Herre,J.D.Johnston,Y.Mahieux,and E.Schroeder,ASPEC:Adaptive spectral entropy coding of high quality music signals,in Proc.90th Convention.Aud.Eng.Soc.,Feb.1991P.Noll,Wideband Speech and Audio Coding,IEEE C

35、omm.Mag.,pp.34-44,Nov.1993.Davis Pan.A Tutorial on MPEG/Audio Compression.IEEE Multimedia,1995,pp60-74.http:/www.ee.columbia.edu/dpwe/e6820/papers/Pan95-mpega.pdfKarlheinz Brandenburg,OCF-A New Coding Algorithm for High Quality Sound Signals,1987.Princen J,Bradley,A.Analysis/Synthesis Filter Bank De

36、sign Based on Time Domain Aliasing Cancellation.IEEE Transactions,ASSP-34,No.5,Oct 1986,pp 1153-1161,2023年10月22日,第11章 MPEG声音,39/42,第11章 MPEG声音(参考文献续3),Ye Wang and Miikka Vilermo，The Modified Discrete Cosine Transform:Its Implications for Audio Coding and Error Concealment,AES 22nd International Con

37、ference on Virtual,Synthetic and Entertainment Audio,2002.http:/p.nus.edu.sg/wangye/papers/00027_aes22.pdf.Hossein Najafzadeh-Azghandi，Perceptual Coding of Narrowband Audio Signals,April 2000.ISO/IEC 11172-3,Coding of moving pictures and associated audio for digital storage media at up to about 1.5

38、mbit/s，3-Annex C(informative)The encoding process.1993ISO/IEC 13818-7:2004(E),Information technology Generic coding of moving pictures and associated audio information Part 7:Advanced Audio Coding(AAC)Bosi Metal,ISO/IEC MPEG-2 Advanced Audio Coding.Journal of the Audio Engineering Society,No.10,pp.7

39、89-813,October 1997.Takehiro Moriya,Noboru Harada,Yutaka Kamamoto,and Hiroshi Sekigawa，MPEG-4 ALSInternational Standard for Lossless Audio Coding,NTT Technical Review，pp40-45,Vol.4 No.8,Aug.2006.,2023年10月22日,第11章 MPEG声音,40/42,第11章 MPEG声音(参考文献续4),ISO/IEC 14496-3,Third edition,2005-12-01,Information

40、technology Coding of audio-visual objects Part 3:Audio.Dennis H.Klatt.Review of text-to-speech conversion for English.J.Acoustical.Soc.Am.82(3),September 1987.Stefan Meltzer and Gerald Moser,MPEG-4 HE-AAC v2-audio coding for todays media world,EBU Technical Review January 2006，Tilman Liebchen,Takehi

41、ro Moriya,Noboru Harada,Yutaka Kamamoto,and Yuriy A.Reznik,The MPEG-4 Audio Lossless Coding(ALS)Standard-Technology and Applications,119th AES Convention,New York,October 7-10,2005.MPEG-4 Audio Lossless Coding(ALS)文档：，ETSI EN 300 401 V1.3.3(2001-05),Radio Broadcasting Systems;Digital Audio Broadcast

42、ing(DAB)to mobile,portable and fixed receivers,http:/www.lrr.in.tum.de/zope/lectures/labcourses/SS03/mikroprakt/files/spec/dab_main.pdf,2023年10月22日,第11章 MPEG声音,41/42,第11章 MPEG声音(参考文献续5),Arbitron Inc.August 2005,Critical Band Encoding Technology Audio Encoding System from Arbitron,.JONG-HWA KIM,Loss

43、less Wideband Audio Compression:Prediction and Transform,Berlin 2004,Theile,G.Stoll and M.Link.Low bit-rate coding of high-quality audio signals-An introduction to the MASCAM system,EBU Review,Technical no.230:158-81,Aug.1988J.Princen,A.Johnson,and A.Bradley,Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation,ICASSP 1987 Conf.Proc.,May 1987,pp.2161-2164.Esin Darici Haritaoglu,Wideband Speech and Audio Coding,END,第11章 MPEG声音,