第4章多媒体音频信息处理技术ppt课件.ppt
多媒体音频信息处理,学习目标,l了解声音信号的特点、存储格式及质量的度量方法l理解音频信号压缩方法及音频编码标准l掌握常用的音频处理软件对声音信号进行处理l了解语音识别技术及其应用,本章内容,音频信号及其概念模拟音频的数字化过程声卡音频文件的格式与处理软件乐器数字接口MIDI,音频信号及其概念,声音处理技术历史音频信号的形式模拟信号和数字信号模拟声音计算机产生声音的方式声音质量的评价:两种方法,音频信号及其概念,1、声音处理技术历史19世纪爱迪生发明留声机用机械方法记录声音电学、电子学发展,产生了电声技术电声技术是研究可听声率范围内声音的产生、传播、存储重放和接收的技术。把声信号转化成电信号。把模拟信号数字化处理,音频信号及其概念,音频信息在多媒体中的应用极为广泛:视频图像配以娓娓动听的音乐和语音;静态或动态图像配以解说和背景音乐;立体声音乐可增加空间感;游戏中的音响效果等。音频处理技术主要包括电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等。,音频信号及其概念,音频技术的主要对象:电/声转换技术音频信号的存储和重放技术加工处理技术数字化音频信号的编码、压缩、传输、存取、纠错等技术数字化处理的核心:对音频信息的采样,音频信号及其概念,2、音频信号的形式语音信号:语音是语言的物质载体,是社会交际工具的符号,包含了丰富的语言内涵,是人类进行信息交流的特有形式。非语音信号:包括音乐和自然界存在的其它声音形式,不包含复杂的语义和语法信息,信息量低,识别简单。,规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。,用声音录制软件记录的英文单词“Hello”的语音实际波形,音频信号及其概念,3、模拟信号和数字信号模拟信号:在时间和幅度上都连续的信号称为模拟信号数字信号:时间和幅度都用离散的数字表示的信号称为数字信号,数字信号,模拟信号,音频信号及其概念,音频信号及其概念,A/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩。A/D转换的一个关键步骤是声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。借助于A/D或D/A转换器,模拟信号和数字信号可以互相转换。,音频信号及其概念,4、模拟声音定义:由振动的声波组成,是模拟信号,可通过振幅(amplitade)、周期(period)与频率(period)三个物理特性来表示波形声音,模拟音频信号有两个重要参数:频率和幅度。声音的频率体现音调的高低,声波幅度的大小体现声音的强弱。一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。,音频信号及其概念,振幅,周期,声音的振幅和周期,频率=1/周期,音频信号及其概念,周期:两个相邻信号波峰或波谷之间的时间间隔振幅:波形顶峰(或低点)与基准线的距离(体现音量的高低,用分贝表示)频率:每秒钟内波峰的数目(单位Hz,体现音调的高低),音频信号及其概念,5、声音的三要素,1)音调:代表了声音的高低。音调与频率有关,频率越高,音调越高,反之亦然。读者也许有这样的经验,当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,其喇叭放出来声音的音调提高了。同样,在使用音频处理软件对声音的频率进行调整时,也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。,2)音色:即特色的声音。声音分纯音和复音两种类型。所谓纯音,是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中,最低频率的声音是“基音”,它是声音的基调。其他频率的声音称为“谐音”,也叫泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色,例如各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。,3)音强:声音的强度,也被称为声音的响度,常说的“音量”也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的响度。,音频信号及其概念,6、计算机产生声音:三种方式波形音频:以数字方式表示声波,存储对波形采样后得到的数字化信息,它由声音卡来录制与播出声音。其文件格式为.WAV MIDI音频:电子合成器合成的声音。其文件格式为.MID,音频信号及其概念,CD唱盘数字音频:数字采样技术制作的,它把1和0这样的数字位以微小的长短不等的凹坑直接通过激光器刻写在盘片上,重放时用激光读出这些数据,再通过D/A转换成模拟信号。,音频信号及其概念,7、声音质量的评价:两种方法客观质量高级声学测量仪完成对评价值、声源和音质的测量基本测量仪器是声级计,它能客观地测量声压和声级。声压测量能提高音响效果,对干扰进行分析,音频信号及其概念,常识:75分贝,人体耳朵舒适度上限;85分贝以上有害主观质量比客观质量的度量更合理,可靠性较差使用方法:平均判分(MOS)5个级别:优、良、中、差、劣,音频信号及其概念,声音质量分级和带宽频带越宽信号强度的相对变化范围越大,音响效果越好按照带宽可将声音质量分为4级,音频信号及其概念,等级划分(重点记忆)数字式激光唱片质量调频无线广播质量,FM质量调幅无线广播质量,AM质量电话质量,模拟音频的数字化过程,模拟信号的数字化过程图示,由A/D转换器实现,模拟音频的数字化过程,数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。,模拟音频的数字化过程,采样量化采样与量化过程示例编码,模拟音频的数字化过程,几个重要概念 采样:采样定理:香农指出,在一定条件下,用离散的序列可以完全代表一个连续函数定义:为了实现从模拟信号到数字信号的转变,把模拟音频信号波形进行分割,以转换成数字信号,这种方法叫做采样,模拟音频的数字化过程,采样周期:每隔一个时间间隔在模拟声音的波形上取一个幅度值,这个时间间隔叫做采样周期,其倒数为采样频率采样频率:指计算机每秒采集多少个声音样本奈奎斯特理论:只有采样频率高于声音信号最高频率的两倍时,才可以保证原模拟信号不丢失,模拟音频的数字化过程,关于采样频率音频信号频率:声音波形每秒钟振动的次数,单位是Hz或kHz采样频率:每秒钟度量声音信号的次数,单位是 次/秒22050次/秒,只能达到FM广播的声音品质 44100次/秒,理论上的CD音质界限 48000次/秒,更加精确,采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式,以位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其幅度大小。,2.量化,模拟音频的数字化过程,量化:定义:量化是指对声波波形幅度的数字化表示量化精度:表示采样值的二进制位数(比特位数)。量化位数的多少决定了采样值的精度。相同采样频率时,量化位数越高,效果越好 相同量化位数时,采样频率越高,效果越好,模拟音频的数字化过程,量化过程:先将整个幅度划分成有限个小幅度(量化阶距)的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。失真:还原信号波形形状不能重现输入信号波形形状的现象,在采样的过程中失真不可避免但可以尽量减小,1,2,3,4,5,6,7,8,9,1,2,3,4,5,8,6,7,9,10,采样与量化过程示例,采样与量化过程示例,采样与量化过程示例,模拟音频的数字化过程,编码所谓编码就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有效的数据中加入一些用于纠错、同步和控制的数据,模拟音频的数字化过程,声音信号压缩的依据冗余度听觉“掩蔽”相关性,模拟音频的数字化过程,脉冲编码调制(PCM):常用编码方式优点:抗干扰能力强、失真小、传输特性稳定信噪比:是信号的有用成份与杂音的强弱对比,常用分贝数表示,声卡,声卡,声卡:声音卡或音频卡(audio card)是负责录音、播音和声音合成的计算机硬件插卡。,声卡,声卡,声卡的功能录音和播放数字声音文件声卡能将来自麦克风、收录机,激光唱盘等的声源采样,在软件的帮助下以数字声音文件的形式存放。声音文件通过软件播放,编辑或混音。Windows下录音机程序可以完成以上这些比较简单的功能。,声卡,控制声音的音量声卡可以控制声音的音量,通过混音,生成多种声音融合叠加的效果。,声卡,对声音文件进行压缩 直接通过采样得到的波形声音文件都很大,这样会占据太多有用的磁盘空间,我们需要用压缩编码的方法对这些文件压缩。有的声卡上有固化的压缩算法,有的是向用户提供压缩软件,声卡,语音合成:在特别软件支持下,让计算机朗读文本。由于这些朗读的声音是合成的,所以这些语音听起来往往不那么自然。语音识别:语音合成使人能够听到计算机的声音,相反语音识别能使计算机识别出人的声音。通过特别的软件,人用语音就可以完成输入或控制计算机执行命令。,声卡,声音效果合成:给声音添加诸如淡入淡出、回声、音调变化等特效需要通过相应的音频编辑软件来完成,声卡,声卡的发展历史声卡之父:1984年,ADLIB,未能普及Creative声卡系列:把声卡真正带入个人计算机领域,8位声卡,单声道,16位声卡,支持立体声,16位声卡,32复音,16位声卡,64复音,早期,低级,现在,高级,声卡,复音:指“MIDI”乐曲在1s内发出的最大声音数目。复音数越大,音乐效果越好。硬件复音数一般不超过64种,但可以通过软件模拟得到更多,最高可达到1024种。,声卡,声卡的类型:板卡式:ISA,PCI,多声道,低CPU占有率集成式:中低端产品外置式:creative公司,一般用于外接笔记本提高音质,较少使用,声卡,集成声卡:AC97:audio CODEC97,由Intel和雅马哈等多厂商联合的制定的音频电路系统标准HD Audio(高保真音频),Intel与杜比公司推出的新一代音频规范,声卡,声卡厂家:Reaktek:中国台湾瑞昱,最大的集成声卡厂商Creative:新加坡创新,独立声卡的发明者,声卡,声卡的部件:主芯片,主芯片一般是具有强大运算能力的数字信号处理器,是声卡上最为硕大的芯片核心部件,可通过软件升级,声卡,主芯片的作用:对声音信息处理、特殊音效过滤与处理,语音识别,音频压缩,MIDI合成将来自模数转换器的信号加以处理,改变成需要的形式,对数字声音进行编码和压缩形成WAV文件输出时将磁盘中的wav文件送入主芯片,解码后变成数字声音信号送至D/A转换部分,声卡,混音芯片CODEC多媒体数字信号编解码器,一般称为混音芯片或混音器。从主芯片中独立出来的D/A和A/D转换部分功能:对原始声音信号的采样、编码和混音处理,在很大程度上影响声音品质混音的声源:MIDI信号、CD音频、线路输入、话筒输入,声卡,混音器的可编程设计,以Relater AC97 Audio声卡驱动程序为例音乐合成器 MIDI合成器有两种频率调制合成器(FM合成器)波表合成器总线接口和控制器:采用PCI接口外部输入输出口,声卡,声卡接口介绍线性输入插口(Line In Jack):可与盒式录音机、唱机等相连,进行播放或录音。话筒输入插口(Mic In Jack):可与话筒相连,进行语音的录入。线性输出插口(Line out Jack):可跳过音频卡的内置放大器,而连接一个有源扬声器或外接放大器进行音频的输出。,声卡,扬声器输出插口(Speaker Out Jack):从音频卡内置功率放大器连接扬声器进行信号输出,该插口的输出功率一般为2-4瓦。游戏棒/MIDI接口(Joystick/MIDI connect):可将游戏棒或MIDI设备如MIDI键盘连接到音频卡上。,声卡,声卡的工作过程录音:混音芯片采样、A/D转换、混合-主芯片处理,录制成波形文件放音:主芯片进行处理和运算-混音芯片进行D/A转换-放大器放大-多媒体音箱输出播放MIDI:根据指示查询乐器资料-D/A转换为模拟声音-播放,地址总线,控制总线,声卡,声卡的性能指标音频技术指标:应该具有CD唱片的音质,即44.1kHz采样,16位量化MIDI音频:可以创作和播放MIDI音频声道数:单声道 立体声 四声道环绕 5.1声道,声卡,四声道:前左、前右、后左、后右5.1声道:前左、前右、后左、后右、中央声道、0.1超重低音声道,声卡,多音频输出:可以同时听到播放的不同音频的声音系统参数的可调性:实现通过软件的调制声卡软件:附带声卡应用程序总线结构:采用PCI总线结构,最大数据传输速率为133Mb/sI/O设备接口,音频文件的格式与处理软件,音频的文件格式WAV文件,波形文件,是PC上最流行的文件格式,但是文件尺寸较大,多存放简短的声音片断,后缀名.wav波形文件大小的计算VOC文件,是Creative公司所使用的标准音频文件格式,后缀名为.voc,音频文件的格式与处理软件,MPEG音频文件,是一种有损压缩,压缩率高MPEG1:压缩率1:4MPEG2:压缩率1:6-1:8MPEG3:压缩率1:10-1:12,音频文件的格式与处理软件,MP3:音质优美、压缩比高,网络上最为流行,后缀名.mp3MP3的播放器:WINAMP,Winplay3,MusicMatch,千千静听MP4:文件更小,质量更佳,后缀名为.mp4,音频文件的格式与处理软件,RealAudio文件:后缀名有.RA.RM.RAM等,是RealNetworks公司开发的一种音频格式,音频的质量和用户连接网络的速率有关AIFF格式:后缀名有.AIF.AIFF,是音频交换文件格式的缩写,是苹果计算机公司开发的一种声音文件格式,音频文件的格式与处理软件,音频制作与处理软件数字音频处理软件CoolEdit专业数字化音频处理软件Sound Forge,索尼公司Gold wave,Cool Edit应用实例,制作手机铃声剪辑音乐菜单命令“效果/波形振幅/渐变”拼接音乐将不相干的音乐拼接在一起使用渐变效果“文件/混缩另存为”命令的使用,Cool Edit应用实例,给歌曲升降调菜单命令“效果/变速变调/变速器”#表示升调,b表示将调消除歌曲的原唱,制作伴奏带菜单命令“效果/波形振幅/声道重混缩”选择“vocal cut”选项,Cool Edit应用实例,录制自己的音乐将实例4制作好的伴奏音乐插入到多轨中(右击在快捷菜单中选择“插入到多轨中”)将伴奏带移动到音频轨道1中(右键拖动)在音频轨道2中录制自己的音乐选择“文件/混缩另存为”命令将音乐导出为相应的格式,乐器数字接口,MIDI简介MIDI(Musical Instrument Digital Interface),是乐器数字接口的缩写。MIDI是音乐和计算机结合的产物,它是用于在音乐合成器、电子乐器、计算机之间交换音乐信息的一种标准协议。我们可以认为它是一种乐器和计算机之间通话的语言,乐器数字接口,MIDI是由软件部分和硬件部分组成的系统规范MIDI不属于数字音响技术的范畴从一个MIDI设备转送到另一个MIDI设备上去的数据称为MIDI信息MIDI信息不是数字的音乐波形MIDI信息实际上是一种电子乐谱,乐器数字接口,MIDI产生声音的方法:把MIDI音乐设备上产生的每个动作记录下来。比如我们在电子键盘上演奏,MIDI文件记录的不是实际乐器发出的声音,而是记录你弹奏时弹的是第几个键,按键按了多长时间等等,我们把这些记录的参数叫做指令,MIDI文件就是记录这些指令。就是因为这个原因,相同时间长度的MIDI音乐文件一般都比波形文件(.wav)小得多。,基于计算机的MIDI音乐制作系统,乐器数字接口,MIDI系统的组成:作曲、配器、电子模拟的演奏系统多媒体计算机合成器音序器音源MIDI键盘录音设备监听设备,乐器数字接口,合成器:能够产生特定声音的电子装置发展早期:硬件合成器,通过人为的调制参数来合成音色最初的合成器:集音源(音色)、音序器、MIDI键盘于一身,包含大量真实的采样音色新的合成器:不带音序器和音源的MIDI控制键盘,乐器数字接口,音源:电脑音乐系统中产生声音的设备,内部包含很多不同音色的样本波形硬件音源:专业设备,常见型号有Roland JV1080,Yamaha MU100R声卡自带音色库:128种音色软件音源:如Yamaha S-YXG100,Roland VSC88,称为MIDI播放器,乐器数字接口,音序器:用来记录、编辑和播放MIDI文件硬件音序器:也称编曲机,如Yamaha QY700软件音序器:如Cakewalk采样器:开放式音源,对各种声音进行采样,并进行编辑生成各种音色,乐器数字接口,其他设备录音设备监听设备音箱功放,乐器数字接口,MIDI的工作过程MIDI消息:对一段音乐的描述,是乐谱的数字描述,包括音符、节拍、乐器种类等状态信息:描述音符被演奏还是声音被加强的信息数据信息:描述哪个音符被演奏或加强的声音强度等连接计算机与MIDI设备的中介:MIDI接口,MIDI电子乐器,MIDI接口,合成器,音序器,MIDI文件,MIDI指令,扬声器,音频卡,模拟音频信号,MIDI的工作过程,乐器数字接口,利用合成器产生MIDI乐音的两种方法FM合成法数字式频率调制合成法的简称基本原理:用数字信号来表示不同乐音的波形,然后把它们组合起来,通过数模转换器生成乐音播放,乐器数字接口,FM合成器的构成许多操作单元,操作单元,调制单元,载波单元,脉冲发生器,包络发生器,正弦表,脉冲发生器,包络发生器,正弦表,乐器数字接口,每个单元产生一个正弦波脉冲发生器:决定正弦波的频率包络发生器:决定正弦波的幅度FM合成器18个操作单元的三种用法:产生9通道FM声音6通道FM声音,五种打击乐器采用不同正弦波组合方式产生语音,乐器数字接口,波表合成法:是一种乐音样本合成法原理:把真实乐器发出的声音以数字的形式记录下来,播放时根据命令生成各种音符产生的声音质量比FM合成高很多,达到CD-DA质量水平真实的声音回放硬波表:音色库存放在声卡上软波表:音色库以文件形式存放在硬盘里,乐器数字接口,标准MIDI乐器排序表GM,甲产品:,5号乐器声钢琴,10号乐器声小提琴,乙产品:,5号乐器声小提琴,10号乐器声钢琴,GM:16类不同乐器,每类8件,共128件乐器,作为MIDI发生工具的排序标准,乐器数字接口,MIDI音乐创作软件与音序软件Cakewalk,