第3章声音3ppt课件.ppt
《第3章声音3ppt课件.ppt》由会员分享,可在线阅读,更多相关《第3章声音3ppt课件.ppt(82页珍藏版)》请在三一办公上搜索。
1、第3章 声音(3),2023/10/20,南京大学多媒体研究所,2,内容,一、全频带数字声音的压缩编码二、MIDI,一、全频带数字声音的压缩编码,1 听觉系统的感知特性,2023/10/20,南京大学多媒体研究所,5,响度,通常用声强级来描述声强的强弱。规定声强:I0=10-12 W/m2 作为测定声强的标准。(频率为1 000 Hz的声波能引起听觉的最弱声强),声强级L定义为:,(Bel)单位为贝尔,(dB)单位为分贝,2023/10/20,南京大学多媒体研究所,6,听觉系统对对响度的感知,人的听觉系统存在一个听觉阈值电平,低于这个电平的声音信号就听不到听觉域值的大小随声音频率的改变而变化,
2、大多数人的听觉系统对2 kHz5 kHz之间的声音最敏感。声音是否能听到取决于声音的频率及强度(是否大于该频率对应的听觉阈值)每个人的听觉域值也不同。,2023/10/20,南京大学多媒体研究所,7,“听阈-频率”曲线,听阈是随频率变化的人耳对不同频率的敏感程度差别很大人耳对2-5 kHz范围的声音信号最为敏感,痛阈-频率曲线,听阈-频率曲线,人耳听觉范围,等响度级曲线,2023/10/20,南京大学多媒体研究所,8,音调,对音调的感知人们对音调(音高)的主观感觉,单位是“美”(Mel)主观感觉的音调与频率之间并不是线性关系:Mel=1000*log2(1+f)人耳对频率的感知范围:20 Hz
3、 20000 Hz,2023/10/20,南京大学多媒体研究所,9,听觉掩蔽特性,一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone,masker),后者称为被掩蔽声音(masked tone,maskee)。掩蔽效应可分成2种:频域掩蔽时域掩蔽,2023/10/20,南京大学多媒体研究所,10,频域掩蔽,强纯音会掩蔽频率与其靠近的同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)。例如,同时有两种频率的纯音存在,一种是1000 Hz的声音(60dB),另一种是1100 Hz的声音(42dB
4、),在这种情况下,1100 Hz的声音就听不到。弱纯音离强纯音越近就越容易被掩蔽。,2023/10/20,南京大学多媒体研究所,11,不同纯音的掩蔽效应曲线,低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显掩蔽效应的作用范围和大小,与声强及频率有关,频率越高、声音越强,掩蔽效应越大。,声强为60分贝的250 Hz、1 kHz、4 kHz和8 kHz纯音,对其他纯音的掩蔽效应。,2023/10/20,南京大学多媒体研究所,12,时域掩蔽,在时间上相邻的声音相互之间也有掩蔽现象,称为时域掩蔽。时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。,2023/10/20,南京
5、大学多媒体研究所,13,临界频带,同一个频带里的声音相同非线性的25个临界频带临界频带的掩蔽效应,2 MPEG-1 Audio(11172-3),2023/10/20,南京大学多媒体研究所,15,什么是MPEG-1与MPEG-1 音频,MPEG-1是活动图象及其伴音的压缩编码标准,其中 MPEG-1 Part3(audio)是音频压缩编码。诞生于1992年 目的是把221Mbits的NTSC图像压缩到1.2Mbits,压缩率为2001。传输速率为1.5Mbitss,每秒播放30帧,具有CD音质 视频约1.2 Mbits/sec,音频约0.3 Mbits/sec(CD 唱片的码率:44,100
6、samples/sec*16 bits/sample*2 channels 1.4 Mbits/sec)典型应用 VCD,2023/10/20,南京大学多媒体研究所,16,MPEG-1音频编码的性能(1),编码器输入:取样频率:32kHz、44.1kHz或48kHz量化精度:16位数字声音信号带宽:20-20kHz 编码器输出:码率:32-384 kbps格式:MPEG-1格式,2023/10/20,南京大学多媒体研究所,17,MPEG-1音频编码的性能(2)(2),提供三个独立的压缩层次:压缩倍数 码率 延迟时间 语音质量 1 语音质量 21 4:1 384 19ms2 6-8:1 192-
7、256 35ms 2.1-2.6 4+3 10-12:1 112-128 59ms 3.6-3.8 4+,2023/10/20,南京大学多媒体研究所,18,MPEG-1音频编码的性能(3),支持4种不同的模式:单通道(Single channel),双通道(Dual channel,二个独立的声音信号编码在一个比特流中),立体声(Stereo,左右声道的信号分别编码在一个流中)联合立体声(Joint stereo,利用左、右声道信号的相关性,降低输出比特流的码率)。,2023/10/20,南京大学多媒体研究所,19,MPEG-1音频编码的性能(4),编码后的数据流支持循环冗余校验CRC(cyc
8、lic redundancy check)。支持在数据流中添加其它附加信息。,2023/10/20,南京大学多媒体研究所,20,MPEG-1音频编码的原理,MPEG 1音频是一个子带编码系统,声音数据压缩算法的根据是心理声学模型:将audio信号分割成32个不同的子频带,充分利用听觉系统的掩蔽特性(主要是利用频域掩蔽特性),保留可感知的信号进行编码,而扔掉被掩蔽的信号不进行编码,计算出以频率为自变量的噪声掩蔽阈值(masking threshold),按照信掩比(SMR)来决定分配给各个子带的量化位数,调节各个不同子带的量化编码。,2023/10/20,南京大学多媒体研究所,21,MPEG-1
9、音频“层1”编码器,声音数据以“帧”为单位进行编码处理,每一帧包含384个样本,使用的时间-频率变换部件是一个多相滤波器组,所分割得到的32个子带频带都相等,32个子带各输出12个样本作为一组,按心理声学模型为每组样本进行一次比特分配(0-15bit),用来指出每组样本都使用几位表示,将每组样本的数值乘一个比例因子(6位),使量化器的量化范围能得到充分利用,心理声学模型仅使用频域掩蔽特性,2023/10/20,南京大学多媒体研究所,22,多相滤波器组,输入的时域信号(384样本),输出的频域信号(384样本),频域信号(32个子带,每个子带12个样本),2023/10/20,南京大学多媒体研究
10、所,23,量化器的比特分配算法,根据输出码率决定每一帧样本的比特总数A;然后在不超过总数A的前提下,使这一帧的总掩蔽与噪声之比(NMR)最小;每个子带的掩蔽与噪声之比NMR为:NMR=SMR-SNR(其中,SNR是量化器的信噪比,由量化器位数决定;SMR是每个子带的信掩比,由心理声学模型计算)3.对32个子带分别分配量化位数,计算NMR,使NMR最小;4.计算所有量化器输出样本的比特总数,并与A 进行比较;5.如果不超过,则增加量化器位数,6.重复步骤3,4和5,直至比特总数最接近A为止。,2023/10/20,南京大学多媒体研究所,24,量化器的信噪比SNR,量化器位数 信噪比(db)量化器
11、位数 信噪比(db)10955.9327.01061.96316.01167.98425.281274.01531.591380.03637.751486.05743.841592.01849.89,2023/10/20,南京大学多媒体研究所,25,32个子带,每个子带各一,MPEG-1音频(层1)的帧结构,用于记录该帧的同步及属性信息,用于检错与纠错的循环冗余码,用于描述分配给该子带的量化比特数目,用于描述该子带的量化比例因子,2023/10/20,南京大学多媒体研究所,26,MPEG-1音频的帧结构,帧的作用:帧是音频数据的组织单位,用于同步、纠错,也有利于存取、编辑。格式:Header+
12、音频数据+(纠错码),2023/10/20,南京大学多媒体研究所,27,MPEG-1音频“层2”编码器,每1帧包含1152个样本,使用的时间-频率变换部件是一个多相滤波器组,所分割得到的32个子带频带都相等,32个子带各输出3组样本,每组12个样本。,按心理声学模型为每组样本进行比特分配,且作了一些限制(低频段的子带用4比特,中频段的子带用3比特,高频段的子带用2比特),因而编码更紧凑,将每组样本的数值乘一个比例因子(6位),比例因子可以共享,心理声学模型除使用频域掩蔽特性外,还利用了时间掩蔽特性,2023/10/20,南京大学多媒体研究所,28,MPEG-1音频(层2)的帧结构,比例因子选择
13、信息,决定是否需要以及如何共享比例因子,2023/10/20,南京大学多媒体研究所,29,MPEG-1音频“层3”编码器,使用混合滤波器组(多相滤波器组+MDCT),把声音频带分成非等宽的接近人耳临界频带划分的32个子带,心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,每个子带中样本的量化和编码,通过2个嵌套的迭代循环进行优化,采用非均匀量化,样本在量化处理后,再使用霍夫曼(Huffman)编码进一步压缩数据。,2023/10/20,南京大学多媒体研究所,30,32个子带的划分,借助分析滤波器组把输入信号变换为32个频域子带信号层1、层2编码器的子带划分是线性的,
14、层3编码器的子带划分是非线性的,因为人耳的听觉特性是非线性的,是以“临界频带”来划分的。,2023/10/20,南京大学多媒体研究所,31,“层3”音频编码器结构,MDCT(modified discrete cosine transform)把子带的输出在频域里进一步细分,以达到更高的频域分辨率,内迭代循环用于码率控制,外迭代循环用于噪音控制,除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,2023/10/20,南京大学多媒体研究所,32,MPEG1音频解码器的原理框图,进行差错检测、比特流分解,恢复出各种信息段,恢复被量化的子带样本值以重建声音信号,逆变换模块将这些样本从
15、频率域变换回时间域中均匀的声音样本,2023/10/20,南京大学多媒体研究所,33,小 结,层 1:每帧一个样本组、子带频宽相等、每帧3212384个样本、仅用到频率掩蔽效应。层 2:每帧三个样本组、子带频宽相等、每帧321231152个样本、不仅用到频率掩蔽效应,还用到时域掩蔽效应。层 3:子带频宽与临界频宽相似,用到频率掩蔽效应和时域掩蔽效应,考虑到立体声冗余,采用Huffman编码。,2023/10/20,南京大学多媒体研究所,34,MP3 Audio(音乐),采用MPEG-1层次3编码器的、质量接近或达到CD水平的数字声音(音乐)。码率:112kb-128kb/秒(每分钟约1MB)。
16、MP3能以10倍左右的比率降低全频带数字声音PCM编码的存储量,一张普通CD光盘上可以存储大约100首MP3歌曲。MP3支持声音和数据的复合,播放声音的同时,可以在播放器上显示相关的文本信息.MP3的软件播放器:WinAMP,2023/10/20,南京大学多媒体研究所,35,MP3音频的改进:Mp3PRO,Thomson多媒体公司、Fraunhofer协会Coding Technologies公司在2001年6月联合推出了MP3格式的升级版本Mp3PRO。用Mp3PRO压缩后的MP3文件只有原来的一半,音质比原先的还好.,2023/10/20,南京大学多媒体研究所,36,3 MPEG-2音频,
17、(1)MPEG-2 Audio(ISO/IEC 13818-3),或者称为MPEG-2多通道(Multichannel)声音,又称为MPEG-2 BC(Backward Compatible)。(2)MPEG-2 AAC(ISO/IEC 13818-7,Advanced Audio Coding),也称为MPEG-2 NBC(Non-Backward-Compatible)标准。,3.1 MPEG-2 Audio(13818-3),2023/10/20,南京大学多媒体研究所,38,MPEG-2 Audio对MPEG-1的扩充,增加了16 kHz,22.05 kHz和24 kHz采样频率声音的处
18、理,扩展了编码器的输出速率范围,由32384 kbps扩展到8640 kbps,增加了声道数,支持5.1声道和7.1声道的环绕立体声。,2023/10/20,南京大学多媒体研究所,39,MPEG-2的环绕立体声,MPEG-2 Audio的“5.1环绕立体声”也称为“3/2-立体声加LFE”,放音现场前方有3个喇叭(左、中、右3个声道),后面有2个喇叭(2个环绕声道),“.1”指LFE(low frequency effects),即低频音效加强声道。,2023/10/20,南京大学多媒体研究所,40,MPEG Audio的应用,优点:声音品质优良码率范围较宽 多种不同配置四大应用领域:广播,存
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 声音 ppt 课件

链接地址:https://www.31ppt.com/p-6356658.html