《音频处理》PPT课件.ppt
《《音频处理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《音频处理》PPT课件.ppt(88页珍藏版)》请在三一办公上搜索。
1、第2章 音频处理,人耳能识别的声音频率范围大约在2020k Hz,通常称为音频(audio)信号。人的发音器官发出的声音范围大约在803400Hz,但人说话的信号频率通常为3003000Hz,称为语音(speech)信号。低于20Hz的信号称为次声波(subsonic),高于20k Hz称为超声波(ultrasonic)。次声波和超声波人耳都无法听到。,声音的频率范围,计算机音频处理涉及的内容包括:音频传播媒体特征,也即声波的物理特性。音频的记录和产生方式,包括模/数、数/模转换;数据压缩和声音合成。音频数据的编辑处理。对音频信号的处理方法大致可分为三类:波形编译码器,音源编译码器,混合编译码
2、器。,第1节 音频信号,一.声音的特征,振幅,周期,基线,基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率反映出声音的音调,声音细尖表示频率高,声音粗低表示频率低。,正弦波有两个重要参数:频率0、幅度An。声音的三个要素是音调、音量和音色。声音有以下一些特点:1.音调:声音的高低。音调正是由频率所决定的。频率越高音调越高(频率单位Hz)2.音量:人主观上感觉声音的大小,以分贝(dB)为单位。,3.音色:音色是声音的特色,根据不同的音色,即使在同一音调和同一声量的情况下,也能区分出是不同乐器或人声发出的。,二、音频数字化 模拟信号:时间上连续,幅值上也连续的信号。数字信号
3、:时间上和幅值上都用离散的数字表示的信号。A/D变换:把连续变化的模拟信号转换成数字信号。A/D变换一般要由两步完成:采样和量化。,(1)采样 采样是将时间上、幅值上都连续的模拟信号,在采样脉冲的作用,转换成时间上离散、但幅值上仍连续的离散模拟信号。每秒钟的采样样本数叫做采样频率。奈奎斯特理论:只有当采样频率高于声音信号最高频率的两倍时,才能把离散模拟信号表示的声音信号唯一地还原成原来的声音。目前在多媒体系统中捕获声音的标准采样频率定为44.1kHz、22.05kHz和11.025kHz三种。,(2)量化 所谓量化就是把采集到的数值送到量化器(A/D转换器)编码成数字,每个数字代表一次采样所获
4、得的声音信号的瞬间值。目前常用量化数据位来表示量化级,例如数据位为8位,则表示28个量化级,最高量化级有216个(=65536个)等级。量化噪声:量化过程存在量化误差,反映到接收端,这种误差作为噪声再生。,(c)采样信号的量化,(a)模拟音频信号,(b)音频信号的采样,数字化音频的过程:采样和量化,采样时的声道数有单声道和双声道两种。AV文件的数据量的计算公式:数据量=采样频率(Hz)采样精度(位)声道数 8(dB)计算:用44.1kHz采样频率采样,每个样本使用16位采样精度存储,则录制一分钟的立体声节目,音频WAV文件的存储量?使用22.05kHz的采样频率和8位采样精度,录制一分钟调幅音
5、频的WAV文件存储量?,三.数字音频技术指标 1采样频率:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。2量化位数:量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。,3声道数:有单声道、双声道、多声道之分。,三、常见声音文件的格式 常见的声音文件为:WAV文件、VOC文件、AU文件和MID文件。(1)WAV声音文件格式:WAV文件是从模拟声波采样后得到的一种波形文件,使用于Windows操作系统,其格式是由文件首部与文件数据块组成。(2)VOC声音文件格式
6、:VOC文件是用于DOS操作系统下的一种波形文件。(3)AU声音文件格式:用于UNIX操作系统下的一种波形文件。(4)MID文件格式:MID文件是一种记录数字化音乐的MIDI文件。,四.音频信号的指标 1.频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。,2动态范围:动态范围越大,信号强度的相对变化范围越大,音响效果越好。3信噪比:信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。4主观度量法:人的感觉机理对声音的度量最有决定意义。声音的质量分为了五个等级,由低到高分别是:电话(telephone)、调幅广播(AM)、调频广播(FM)、光
7、盘(CD)、数字录音带(DAT),第2节 音频数字压缩,一音频压缩编码技术 主要有以下几种主要类型:1熵编码:如Huffman编码、算术编码以及行程编码等。,2波形编码:波形编码的特点是在高码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。(脉冲编码调制(PCM),实际为直接对声音信号作AD转换。只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM),即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM),是DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数
8、据得到进一步的压缩。),3.参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。此类方法构成声码器的有线性预测(LPC)声码器、通道声码器、共振峰声码器等。4混合编码:音频中采用的混合编码包括多脉冲线性预测MP-LPC,矢量和激励线性预测VSELP,码本激励线性预测CELP,短延时码本激励线性预测编码LD-CELP,以及规则码激励长时预测RPELTP等。,5感知编码:不是利用波形本身的相关性和模拟人的发音器官的特征,而是利用人的听觉系统的特征来达到压缩声音数据的目的。书上将这五种编译码器分为了三类:波形编译码器音源
9、编译码器混合编译码器音频数字压缩编码算法及其特性(见word文档),二.音频编码技术标准(一)电话质量的音频压缩编码技术标准 1972年CCITT(现称为ITU-T)制定了PCM标准G.711,速率为64kbit/s,采用非线性量化律或A律,其质量相当于12bit线性量化。1984年CCITT公布了自适应差分脉冲编码调制ADPCM标准G.721,速率为32kbit/s。1992年CCITT制定了短时延码本激励线性预测编码LD-CELP的标准G.728,速率16kbit/s,其质量与32kbit/s的G.721标准基本相当。,其它语音相关标准:G.723:一种ITU-T 推荐标准 用于传输速率在
10、5.36.4 kbps之间多媒体通信传输的双速率语音编码器。H.222:ITU-T 推荐标准,规定了运动图片及相关音频信息的通用编码。H.242:ITU-T的H.320 协议族中视频互操作推荐标准部分。它规定了建立一个音频会话和在通信终止后结束该会话的协议。H.324:一个ITU-T 标准。它在模拟电话线(POTS)上提供了点对点的数据、视频和音频会议。T.120:ITU-T的“多媒体数据传输协议”,一种数据共享/数据会议规范,使用户能通过任何H.32x 可视会议共享文件。,(二)调幅广播质量的音频压缩编码技术标准 CCITT在1988年制定了 G.722标准。G.722标准是采用16kHz采
11、样,14blt量化,信号数据速率为224kbits,采用子带编码方法。利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。,(三)高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是50Hz20kHz,采用441kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbits。MPEG小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,用于活动图象、相关声音信息及其结合,和用数字存储媒体(DSM)存储与重现。,MPEG声音:MPEG声音使用感知声音编码听觉系统的感知特性:响度:听阈、痛阈音高:掩蔽效应:
12、(频域掩蔽、时域掩蔽)MPEG音频与感知特性MPEG音频数据压缩主要依靠使用“心理学模型”(概念)MPEG音频采纳两种感知编码:感知子带编码和AC-3编码,MPEG-1于1992年11月完成,成为国际上公认的高保真立体声音频压缩标准,音频压缩技术的数据速率为每声道32448kbits,适合于CDDA光盘应用。MPEG-2由两部分组成,MPEG-2音频和MPEG-2 AAC。MPEG-4 Audio标准可集成从话音到高质量的多通道声音,从自然声音到合成声音。MPEG-7 Audio标准(ISO/IEC 15938-3)提供了音频描述工具。,第3节 MPEG-1音频,一MPEG-1音频标准 MPE
13、G-1音频编码标准包括三部分,分别对应第1,2和3层(Layer 1,2,3)。层1编码器的输出数据率为384 kbps,主要用于小型数字合式磁带DCC。层2编码器的输出数据率为256 kbps192 kbps,其应用包括数字广播声音DBA、数字音乐、CD-I和VCD等。层3编码器的输出数据率为64 kbps,主要应用于ISDN上的声音传输。,二、子带编码MPEG-1 Audio的编码对象是2020000Hz的带宽声音,采用了感知子带编码。具体思想:首先将时域中声音数据变换到频域,对频域内的子带分量分别进行量化和编码,根据心理学模型确定样本的精度,从而达到压缩数据量的目的。理论依据是听觉系统的
14、掩蔽特性,并且主要利用频域掩蔽特性。,三声音编码系统基本结构,MPEG/AUDIO编解码器基本框架,四滤波器组 用于高质量声音信号编码的最常见的滤波器组简要概述:QMF-Tree 滤波器组 多相滤波器组 加正弦锥型窗的DFT、DCT 修正离散余弦变换MDCT 混合结构,多相滤波器组把输入信号变换到32个频域子带中去。子带的划分方法有两种,一种是线性划分,另一种是非线性划分。对音频带的划分采用非线性划分,五通用编码概念 在所有三层中声音信号都要从时域变换到频域。此变换由多相滤波器组完成。对于第1层和第2层,滤波器组生成代表输入声音码流的32个子带变换值,然后由心理声学模型推算出自适应比特分配信息
15、,来控制它们的量化和编码。第1层是 MUSICAM编码方案的简化版本,特别适合那些不要求很低码率的应用。第1层的子带是频带相等的子带,心理学模型仅使用频域掩蔽特性。,第2层在比例因子、去除冗余和不相关方面采用了进一步的压缩算法,并使用了更精确的量化。在声音广播、电视、录音、通信和多媒体等民用和音频专业领域都有许多应用。第2层的心理学模型使用频域掩蔽特性和时域掩蔽特性,并且在低中高频段对位分配作了一些限制,对位分配、比例因子和量化样本值的编码也更紧凑。,在第3层中,采用了非均匀量化、自适应分段、量化值熵编码,以提高编码效率。这一层广泛适用于通信领域,尤其是窄带的ISDN和要求很低码率的专业领域。
16、第3层的心理学模型使用频域掩蔽特性和时域掩蔽特性,还考虑了立体声数据的冗余,并且使用了霍夫曼编码器。,第4节 MPEG-2音频,MPEG-2标准委员会定义了两种声音数据压缩格式。一种称为MPEG-2Audio,又称为MPEG-2 BC(Backward Compatible,后向兼容)。另一种称为MPEG-2 AAC(先进的音频编码),通常称为非后向兼容标准。,一.MPEG-2音频特点 和MPEG-1音频相比,MPEG-2音频主要增加了三个方面的内容:(1)增加了声道数,支持5.1声道和7.1声道的环绕声。,5.1声道立体环绕声,7.1声道立体环绕声,(2)扩展了编码器的输出速率范围。(3)增
17、加了低取样和低码率。MPEG-2多声道声音编码标准和现有的MPEG-1音频标准保持后向兼容。在对原有的MPEG-1两声道增加独立的环绕声道时,MPEG-2尽量保持和MPEG-1音频语法的兼容性,MPEG-2中的主声道(左、右)仍然保持后向兼容,而环绕声道采用新的编码方法和语法。,二.MPEG-2 AAC 特性:(1)MPEG-2 AAC主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。(2)AAC支持的采用频率可从8 kHz到96 kHz,AAC编码器的音源可以是单声道的、立体声的和多声道的声音。,(3)AAC标准可支持48个主声道、16
18、个低频音效加强通道、16个配音声道和16个数据流。(4)MPEG-2 AAC在压缩比为11:1,5声道的总数据率为320 kbps的情况下,很难区分还原后的声音与原始声音之间的差别。与MPEG的层2相比,MPEG-2 AAC的压缩率可提高1倍,而且质量更高,与MPEG的层3相比,在质量相同的条件下数据率是它的70。,MPEG-2 AAC编码和解码的基本结构 开发MPEG-2 AAC标准采用的方法是模块化的方法:把整个AAC系统分解成一系列模块,用标准化的AAC工具对模块进行定义,因此在文献中往往把“模块(modular)”与“工具(tool)”等同对待。,编码器框图,MPEG-2 AAC的三种
19、配置(Profiles)(a)基本配制(Main Profile)(b)低复杂性配制(Low Complexity Profile)(c)可变采样率配制(Scalable Sampling Rate Profile),三AC-3编码 AC-3(Audio Code Number 3)是Dolby公司的数字声音数据压缩算法,MPEG-2音频支持它。AC-3的主要特点是利用人的听觉系统特性来压缩声音数据,并支持5个声道,声音样本的精度为20比特,每个声道的采样率可以是32 kHz,44.1 kHz或者48 kHz。在立体声模式中,AC3编码器可以采用重复阵列方法。这种方法可以在采用阵列环绕技术时,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频处理 音频 处理 PPT 课件
链接地址:https://www.31ppt.com/p-5619752.html