音频处理技术.ppt
《音频处理技术.ppt》由会员分享,可在线阅读,更多相关《音频处理技术.ppt(156页珍藏版)》请在三一办公上搜索。
1、第2章 音频处理技术,简述,音频是多媒体技术中媒体的一种,由于音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,音频信号必须经过一定的变化和处理,变成二进制数据后才能送到计算机进行编辑和存储。,2.1 声音的基本特性,音频信号所携带的信息大体上可分为语音、音乐和音响三类。语音是指具有语言内涵和人类约定的特殊媒体;音乐是规范的符号化了的声音;而音响指其他自然声音,如动物的叫声、机器的轰鸣声、风雨雷电声等,1.音频信号的特征,机械振动或气流扰动引起周围弹性媒质发生波动,产生声波。产生声波的物体为声源(如人的声带、乐器等),声波所及的空间范围称为声场。声波传到人耳,经过
2、人类听觉系统的感知就是声音。声波可以用一条连续的曲线来表示,它在时间和幅度上都是连续的,称为模拟音频信号。在任一时刻,声波可以分解成一系列正弦波的线性叠加:,正弦波,声音的物理特性,周期/频率/带宽 两个相邻波之间的时间长度为周期T,单位为秒;每秒钟声源振动的次数称为频率f,单位Hz;f=1/T描述组成复合信号的频率范围,称为带宽。,(1)声音的物理特性,频率/周期/带宽 单位时间内声源振动的次数或空气中气压疏密变化的次数,称为声源的频率f,单位赫兹(Hz)频带宽度或称之为带宽,它描述组成复合信号的频率范围,虽然高于20kHz频率的声音人耳听不到,但由于人的声学心理特性,可感觉到它的存在。因此
3、,有的音响产品的工作频率上限为50kHz,甚至调音台的最高工作频率设计到100kHz。声音信号可被分解和复合,可以从中抽出若干个单一的正弦信号,也可以用若干个单一的正弦信号来合成任意波形的复合信号,如合成语音和合成音乐等,声压和声强,声波在空气媒质中是以空气中的分子振动形成疏密而传播。它造成空气中的气压发生大小变化,相当于在无声波下空气中的气压上叠加一个变化的压强,叠加上的压强称为声压,记作P。单位有帕斯卡(Pa)和微巴(bar)。引起人耳刚能听到声音时的声压称为可听阈声波是由能量来维持传播的。如扬声器纸盆的振动是由电能转换而来,因此声波有能量。单位时间内通过垂直于声波传播方向的单位面积内的声
4、波能量为声场中某点的声强,记作I,单位为瓦米2(Wm2)。声强与声压最大值的平方成正比关系。,在无线电技术中常引用分贝(dB)来表征电压、电流、功率或放大器的放大能力。在声学中引用分贝来表示声压或声强的变化程度。因为人的听觉神经的刺激程度不与刺激量大小成正比,而是按刺激量以10为底的对数增长,动态范围,声音的动态范围指声音的最大声压级和最小声压级之间的差值。每种声源的动态范围依据各自的特性有所不同。如女声的动态范围为2550dB,男声为3050dB,交响乐队的动态范围大于100dB。动态范围不仅用来表示一个声源产生的最大声压级与最小声压级之间的差值,录音设备或记录声音的载体(磁带、光盘、硬盘)
5、同样可用动态范围表示能够处理信号电平的范围。如磁带的动态范围为50dB60dB,CD光盘96dB,磁光盘录放音机105dB。,动态范围可以用信号的相对强度表示:信号的动态范围=20lg(信号的最大强度信号的最小强度)(dB)其中的信号可以用电压或功率衡量。因为是一种比例关系,故只要采用相同的度量单位,其结果都是一致的。,频谱,物体在一定位置的附近作来回往复的运动,称为简谐振动。简谐振动会产生一个特定音调的纯音,听起来感觉单薄。乐器很少产生单一频率的纯音,而是复音。复音的产生基于物体的复杂振动,可以分解为许多不同振幅和不同频率的简谐振动(即看成简谐振动的叠加)。简谐振动的振幅按频率排列的图形称为
6、频谱。频谱可一目了然地看出复杂振动的频率结构。,钢琴(基频为253Hz)的复音频谱,(2)声音的心理学特性,从声学心理角度,声音的三个要素是音调、响度和音色。它们与声波的频率、声压和频谱结构对应。音调人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调与基频的对数(20lg)成 线性关系,单位为美(mei)。基频越低,给人的感觉越低沉。基频频率增加一倍,音乐上称提高了一个八度,频率与音调的关系,响度,响度是人耳对声音强弱的感觉程度虽然响度与衡量声音强弱的声压有一定关系,但与声压的大小并不完全一致,也就是说声压大的感觉不一定响。,由于人的外耳具有一定的耳道长度,耳道会对某段频率产生共鸣,使
7、灵敏度提高。因此人耳听到声音的响度与声音的频率有关。描述响度、声压以及声源频率之间的关系曲线称为等响度曲线。从曲线看出,当音量开到使声压级为80 dB时,就可做到高低频声音丰满,音色,音色又称音品。通常说法是:声音的音调和响度以外的音质差异叫做音色。声音的音色取决于该声音的频谱结构或是频谱包络(声波曲线)。高次谐波越丰富,音色就越有明亮感和穿透力。此外,音色还与诸多其他因素有关,如听音条件等。它是一个主观量,常用柔和、刺耳、饱满等词描述。,掩蔽效应,称听不到的声音为被掩蔽声,而起掩蔽作用的声音为掩蔽声。掩蔽效应的实质是掩蔽声的出现使人耳听觉的等响度曲线的最小可听阈抬高。掩蔽效应的一般规律是强音
8、压低音、低频率声音压高频率。利用掩蔽效应可以用有用信号去掩蔽无用的声信号,只需要把无用声音的声压级降低到掩蔽阈以下即可。在数字音频处理中,还可以利用掩蔽效应去掉人耳听不到的那部分信号进行声音数据的压缩。,方位感,人凭借双耳在一定声学环境内能够对声源定位,这种能力来自于声源发出的声波到达双耳间的强度差、时间差以及耳廓(外耳)的阻挡。声源到达听者耳朵的声音有两个,其中一个声音直接到达,而另一个由于人头部遮蔽,需绕过头部才能到达。称前者为直达声,而后者为绕射声。若有两个声源,增大其中一个声源的强度,由于该声音源发出的直达声或绕射声的声压大于另一个声源,双耳将会产生声压级差。使听者感受的声源(声像)位
9、置向强度较大的声源方向移,使人感受到声音的立体感。,空间感,一个声源发出的声音同时向各个方向散开,其发散的角度取决于声源所具有的指向性,发散的声波有一小部分直接传给听者,而大部分会被空间表面反射,然后到达听者。由于直接和经反射到达听者的两个声音途径存在差别(取决于环境)而带来时间差。当时间差超过一定数量时,听者会听到先后到达的两个声音,从而产生回音。经多次反射,造成余声。即使声源已停止发声,但听者仍能听到声音存在。回声与余音的感觉可使听者感受出房间体积大小、房间高低及内表面结构上的差异,这便是空间感。,2.音频信号的质量指标,(1)频带宽度 音频信号所包含的谐波分量越丰富,音色越好。在广播通信
10、和数字音响系统中,以声音信号所包含的谐波分量的频率范围来衡量声音的质量,即带宽。,不同质量的声音的频带对比示意图,(2)动态范围,动态范围越大,说明音频信号强度的相对变化范围越大,音响效果越好。动态范围一般用dB为单位来计量。FM广播的动态范围约60dB,AM广播的动态范围约40dB。CDDA的动态范围约100dB,数字电话约50dB。,(3)信噪比,信噪比SNR(Signal Noise Ratio)是有用信号与噪声之比的简称,即有用信号的平均功率与噪声的平均功率之比 信噪比大,在一定程度上能够掩蔽噪声,从而获得较好的声音效果。信噪比不仅是声音设备的性能指标,在声音的录制和播放时,也要注意环
11、境噪声。录制时应尽可能减小环境噪音。输出时应使音量适当大,以减少环境噪音对听音的影响。一般话筒和音箱的信噪比在75dB以上。声卡的信噪比在8595dB。,22 数字音频,1.声音的数字化 数字化就是将连续信号变成离散信号。对音频信号,首先在时间上离散,取有限个时间点,称为采样。然后在幅度上离散,取有限个幅度值,称为量化。再将得到的数据表示成计算机容易识别的格式,称为编码。,(1)PCM编码,PCM是一种把模拟信号转换成数字信号的最基本的编码方法,它主要包括采样、量化和编码3个过程。采样是每隔一定的时间测量一次声音信号的幅值,把时间连续的模拟信号转换成时间离散、幅度连续的采样信号。如果采样的时间
12、间隔相等,这种采样称为均匀采样;量化是按“四舍五入”或其他方法将采样得到的数值限定在几个有限的数值中,将采样信号转换成时间离散、幅度离散的数字信号;编码(coding)是将量化后的信号转换成一个二进制码组输出。比如,量化得到的数据中只会出现两个数值51和80,则只用一位二进制的数表示即可,用0表示51,用1表示80。若量化级别为256(有256级量化数据),则可用8位二进制数表示,这种编码方法称为自然编码。,模拟声音信号的采样和量化过程示意,例2.1 设一个连续信号的波形可以表示为 设采样频率为21Hz,-10,10内的量化间隔取为1,试计算出该信号0到1秒内的量化数据(p29)。,设采样频率
13、为21Hz,-10,10内的量化间隔取为1,试计算出该信号0到1秒内的量化数据。在0-1秒内,取21个采样点。在1、1/20、2/20、19/20、1秒时刻采样,将采样得到的数值取整,即得到量化数据。,表2-1 连续波形的数字化,序号 采样点 采样数据 量化值 序号 采样点 采样数据 量化值,0 0.00 9.41421 9 11 0.55-9.37474-9 1 0.05-7.66754-8 12 0.60 4.73547 5 2 0.10 1.30867 1 13 0.65-2.56445-3 3 0.15 1.07930 1 14 0.70 0.40759 0 4 0.20-3.4672
14、9-3 15 0.75 6.34915 6 5 0.25 8.93433 9 16 0.80-9.36672-9 9 0.45-1.63831-2 20 1.00 4.40090 410 0.50 7.89216 8,对于CDDA,采样频率为44.1kHz,即每秒取44100个点。幅度的取值范围是限制在216=65 536以内,量化间隔为1,即量化幅度可以取65 536个不同的值,计算机中用16位的存储空间就可以表示一个量化后的数值。动态范围为201g(216)96dB,PCM编码原理,编码的过程首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果就是离散时间信号,然后对采样后的信号
15、幅值进行量化。量化过程由量化器来完成。对经量化器AD(模/数)变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制数据序列x(n),计算机对量化后的二进制数据可以用文件的形式存储、编辑和处理,并可还原成原始的模拟信号播放。还原的过程称为解码,它是AD变换的逆过程,即DA(数/模)变换,PCM编码示意图,PCM编码示意图,(2)均匀量化和分均匀量化,量化时,如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化.,缺点:不能充分利用为适应幅度大的输入信号,增加的样本的位数.,非线性量化的
16、思想是大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的位数来表示。声音数据还原时,采用相同的规则。,在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系:一种称为律压扩算法;一种成为A律压扩算法。非均匀量化的实现方法通常是将抽样值通过压缩再进行均匀量化。所谓压缩就是实际上是对大信号进行压缩而对小信号进行较大的放大的过程。信号经过这种非线性压缩电路处理后,改变了大信号和小信号之间的比例关系,使大信号的比例基本不变或变得较小,而小信号相应地按比例增大,即“压大补小”。,律压扩,律(-Law)压扩主要用在北美和日本等地区的数字电话通
17、信中,按下面的式子确定量化输入和输出的关系,(3),(4)A律(A-Law),A律(A-Law)压扩主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系,举例,对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本需8位二进制存储,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准:话音频率脉冲编码调制。,2.数字音频的技术指标,(1)采样频率采样频率是指一秒钟采样的次数。采样频率越高,单位时间内采集的样本数越多,得到波形越接近于原始波形,音质就越好。根据奈奎斯特
18、(Harry Nyquist)采样理论:如果采样频率高于输入信号最高频率的两倍,重放时就能从采样信号序列无失真地重构原始信号。例如,电话话音的信号频率约为3.4 kHz,若采样频率选为8kHz,就能无失真地重放原始声音。,采样的3个常用频率分别为11.025kHzAM广播22.05kHz FM广播44.1kHz CD高保真音质声音现在声卡的采样频率一般为48kHz甚至96kHz。,(2)采样精度,采样精度用每个声音样本的位数表示,也叫样本精度或量化位数。它反映度量声音波形幅度的精度。例如,每个声音样本用16位表示,则量化样本值在065535的整数范围内,它的精度是输入信号的1/65536 采样
19、精度决定了模拟信号数字化以后的动态范围。若以8位量化,则其波形的幅值可分为28=256等份,等效的动态范围为20lg(256)=48dB。若以16位采样,则可分为216=65536等份,等效动态范围为20lg(65536)=96dB。采样精度影响到声音的质量位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。,(3)声道数,单声道(mono)信号一次产生一组声波数据。如果一次产生两组声波数据,则称其为双声道或立体声(stereo)。双声道在硬件中占两条线路,一条是左声道,一条是右声道。立体声不仅音质、音色好,而且能产生逼真的空间感。但立体声数字化后所
20、占空间比单声道多一倍。除采样频率、采样精度、声道数影响声音质量外,声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时,音响(功率放大器、扬声器等)的质量对音质的表现也起很大作用,(4)音频数据传输率,音频信号数字化后,产生大量数据 产生数据的速度或播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示,记为bps(bit per second)。未经压缩的数字音频数据传输率为:数据传输率(bits)=采样频率(Hz)量化位数(bit)声道数,声音质量和数字化指标,例2.2 高保真立体声数字音频的量化位数为16,试计算其数据传输率
21、解:高保真立体声数字音频采样频率为44.1kHz,双声道,其数据传输率为 数据传输率=44.1(kHz)16(bit)2(channel)=1411.2(kbps)如果采用PCM编码,数字音频文件所占用的空间可用如下的公式计算(数据量):音频数据量(Byte)=数据传输率持续时间8(bit/Byte)其中数据量以字节(Byte)为单位;数据传输率以每秒比特(bps)为单位;持续时间以秒(s)为单位。,例2.3 计算1分钟未经压缩的高保真立体声数字声音文件的大小。解:高保真立体声数字音频采样频率为44.1kHz,16位量化,双声道,其数据传输率为:数据传输率=44.1(kHz)16(bit)2(
22、channel)=1411.2(kbps)1分钟这样的声音文件的大小为 音频数据量=1411.2(kb/s)60(s)/8(bit/Byte)=10458kB未经压缩的4分钟的歌曲文件约42M数据,128M的MP3播放器只能存放3首这样的歌曲,(5)编码算法与音频数据压缩比,未压缩的音频数据量非常大,因此在编码的时候常常要采用压缩的方式。实际上,编码的作用一是记录数字数据,二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。压缩编码的基本指标之一就是压缩比,一般为数据压缩前后的数据量之比,采用不同的数字化指标实际上也是进行了不同比例的数据压缩。如果PCM编码采用4bit量化对CD音质信号
23、压缩,其压缩比为4:1。这种情况下,用来记录幅值的比特位越少,编码后数据量就越小,压缩比越大。但压缩比越大,丢掉的信息就会越多,信号还原后失真就越大。(对有损压缩)压缩算法包括有损压缩和无损压缩;有损压缩解压后数据不能完全复原,要丢失一部分信息。无损压缩不丢失任何信息,能较好地复原原始信号,3.数字音频文件格式,数字声音文件格式是数字音频在磁盘文件中的存放形式,相同的数据可以有不同的文件格式,而不同的数据也可以有相同的文件格式.(1)WAVE文件格式 WAVE文件是一种通用的音频数据文件,文件扩展名为“WAV”,Windows系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。WAVE文件
24、由三部分组成:文件头(标明是WAVE文件、文件结构和数据的总字节数)、数字化参数(如采样率、声道数、编码算法等),最后是实际波形数据。CD激光唱盘中包含的就是WAVE格式的波形数据,只是扩展名没写成“.WAV”。一般说来,声音质量与其WAVE格式的文件大小成正比。WAVE文件的特点是易于生成和编辑,但在保证一定音质的前提下压缩比不够,不适合在网络上播放,(2)MP3文件,MP3文件是采用MP3算法压缩生成的数字音频数据文件,以“.MP3”为文件后缀。MP3利用MPEG(Motion Picture Expert Group,运动图像专家组)制定的MPEG-1 Audio layer 3的压缩标
25、准,将音频信息用10:1甚至12:1的压缩率,变成容量较小的数据文件。MPEG1压缩主要用于VCD数据的压缩,也用来压缩不包含图像的纯音频数据,音频压缩算法包括MPEG Audio Layer1、MPEG Audio Layer2等,而MPEG Audio Layer3有很高的压缩比。虽然MP3是一种利用了人类心理声学特性的有损压缩,人耳基本不能分辨出失真,音质几乎达到了CD音质标准。按照这种算法,10张CDDA的内容可以压缩到l张CDROM中,而且视听效果相当好。,(3)RA文件,Real Audio是Real networks推出的一种音乐压缩格式,它的压缩比可达到96:1,因此在网上比较
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频 处理 技术
链接地址:https://www.31ppt.com/p-5888323.html