常见音频文件格式和处理工具.ppt
《常见音频文件格式和处理工具.ppt》由会员分享,可在线阅读,更多相关《常见音频文件格式和处理工具.ppt(77页珍藏版)》请在三一办公上搜索。
1、第4章 多媒体音频信号处理,4.1 音频信号概述4.2 音频信号的获取与处理4.3 话音信号的参数编码4.4 乐器数字接口MIDI4.5 声卡概述,4.1 音频信号概述,4.1.1 信号的描述及分类1.确定信号及随机信号能够用一确定的时间函数来表示的信号就是确定信号。这种信号对应某一时刻都有一个确定的信号值。有一些信号具有不可预知的不确定性,这种信号就是随机信号。我们将要研究的音频信号、视频信号以至计算机中的数字信号均为确定信号。,2.周期信号与非周期信号按一定时间间隔周而复始重复的信号就是周期信号,而在时间上不具有周而复始的重复特性的信号就是非周期信号。3.连续信号与离散信号信号随时间的取值
2、是连续的,这样的信号就是连续信号。如果信号在时间上的取值是离散的,则这种信号就称为离散信号。可见,离散信号在时间上是离散的,但信号在幅度上可以是连续的,也可以是离散的。,4.模拟信号与数字信号如果信号在时间上和幅度上都是连续的,那么这样的信号就是模拟信号。模拟信号以一定时间间隔取值,则可获得离散信号,又称之为采样信号。若将离散信号进行二进制编码,以二进制编码来表示离散值的幅度,那么这种二进制编码信号叫做数字信号。在本书后面的讨论中可以看到,话筒或摄像机产生的信号为模拟信号。模拟信号经过采样可获得离散信号,离散信号经A/D转换变成二进制的数字信号,数字信号就可以由计算机直接进行处理了。模拟信号、
3、离散信号与二进制编码的数字信号之间的关系表示在图4-1上。,图4-1 模拟信号、离散信号及数字信号,图4-1中,用连续变化的曲线表示模拟信号;用圆点表示以相等时间间隔取值而得到的离散信号;图4-1的纵坐标上标的是幅度的二进制编码值。4.1.2 采样定理及信号重构1.采样定理设输入信号是带宽有限的信号,最高信号频率为fm,则从采样得到信号序列(离散信号)重构(复现)连续信号的条件是采样频率fs2fm,否则,将产生混迭效应,而使信号失真。频率2fm称为奈奎斯特(Nyquist)频率fq,fq=2fm。时域信号与它的傅立叶变换频谱密度如图4-2所示。,图4-2 时域信号及其频谱密度,2.信号重构设时
4、域信号为x(t),对应的频谱密度为X(f),若时域采样脉冲序列为是等间隔(T)的单位脉冲序列,由信号理论可知对应的频谱为是一个等间隔(fs)频域冲激序列。其中T是时域采样序列的周期,即采样频率,可以写出时域采样序列的表达式,即x*(t)就是x(t)在t=nT处的离散序列。由卷积定理,时域的乘积对应频域的卷积,即因为是一个冲激序列,卷积的结果相当于X(f)搬移至序列出现的地方,从而成为周期函数。x(t)在时域的采样与X(f)在频域卷积(搬移)的关系如图4-3所示。,图4-3 时域采样与频域卷积,可见,若fs=1/T不是足够大,采样以后对应的频谱就会产生混迭,用矩形(带通)滤波器滤波所得的主频谱就
5、会失真,恢复到时域以后,时域连续信号也将失真。因此,采样频率fs必须满足采样定理的要求,即fs2fm。,图4-4 音频信号的带宽,4.2 音频信号的获取与处理,4.2.1 音频信号1.常见音频信号常见的音频信号主要有电话音频信号、调频、调幅无线电广播音频信号和高保真数字的立体声音频信号。由于用途不同,这些音频信号频带宽度也各不相同,而且,在音响设备中,通常以音频信号的带宽来衡量声音的质量。图4-4中表示了这4种常见音频信号的带宽。,图4-4表示了人们公认的音频信号的质量标准。其中,等级最高的是激光唱盘的音频信号;其次是调频无线电广播,调幅无线电广播;最低的是电话话音的频带,从0.2 kHz到3
6、.4 kHz,带宽只有3.2 kHz。2.声音的特性1)声音的波动性任何物体的振动通过空气的传播都会形成连续或间断的波动,这种波动引起人的耳膜的振动,变为人的听觉。因此,声音是一种连续或间断的波动。,2)声音的三要素音调、音强和音色称为声音的三要素。其中,音调与声波的频率相关,频率高则音调高,频率低则音调低。音调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。人的耳朵对于声音的感知频率范围为20 Hz20 kHz之间。低于20 Hz的声波为次声波,高于20 kHz的声波称为超声波。音强取决于声波的幅度,振幅高时音强强,振幅低时音强弱。音色则由叠加在声音基波上的谐波所决定,一个声波上的谐波越
7、丰富,音色越好。,3)声音的连续谱声音信号一般为非周期信号,包含有一定频带的所有频率分量,其频谱是连续谱。声波的连续谱成分使声音听起来饱满、生动。4)声音的方向性 声音的传播是以弹性波形式进行的,传播具有方向性,人通过到达左右两耳声波的时间差及声音强度差异来辨别声音的方向。声音的方向性是产生立体声效果和空间效果的基础。,3.音频的种类在自然界中,声音包含声响、语音和音乐等三种形式。在多媒体系统中,声音不论是何种形式都是一种装载信息的媒体,统称为音频。由产生音频的方式不同音频被分为波形音频,MIDI音频和CD音频三类。1)波形音频以声波表示的声响、语音、音乐等各种形式的声音经过声音获取设备(例如
8、麦克风)和声音播放设备(例如录音机、CD唱机等)输入,并通过声卡控制采样,由A/D转换将模拟信号转变成数字信号,然后以*.WAV文件格式存储在硬盘上,这种声音媒体称为波形音频。波形音频重放时,必须经过D/A转换将数字信号转换成模拟信号,由声卡上的混音器混合后生成声波,再由音箱输出声音。,波形音频的*.WAV文件中记录的是数字信号,可以使用计算机对*.WAV文件进行各种处理,并像其他数据文件一样被存取、复制和传输。2)MIDI音频将电子乐器演奏时的指令信息(例如音高、音长和力度等)通过声卡上的MIDI控制器输入计算机,或者利用一种称为音序器的计算机音乐处理软件编辑产生音乐指令集合,以*.MID文
9、件格式存储在硬盘上,这种声音媒体称为MIDI音频。MIDI音频重放时,必须经过合成器将MIDI指令译成相应的声音信号,再由声卡上的混音器混合后生成声波,最后由音箱播出音乐。,MIDI音频的*.MID文件中可以包含多达16种不同乐器的声音定义。MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令,因此,MIDI音频是乐谱的数字化描述。MIDI文件的存储量比较小,因此,它可以满足较长时间音乐播放的要求,但是MIDI文件的录制工作较为复杂,需要使用MIDI创作并改编作品的专业知识以及专门化工具,例如键盘合成器等。3)CD音频CD音频是指以44.1 kHz频率、16位精度采样而获得的一种立
10、体声数字化声音。,4.2.2 音频信号的获取与处理1.音频信号的获取音频信号的获取框图如图4-5所示。,图4-5 音频信号获取框图,2.音频信号的处理在第3章里已经提到,不管多媒体信息是音频信号还是视频信号,其数据量都是十分巨大的。如果像图4-5所示的那样,经A/D转换的数字化音频信号直接进入计算机进行存储(记录)或进行传送,是不可取的。3.音频信号的回放经压缩的音频信号以一定的格式记录在有关的媒体上,例如,磁带、磁盘及光盘等,或者以一定的格式传送到接收端。在音频信号接收端或由媒体回放音频信号时,首先由专用的硬件或软件对压缩数据进行解压缩,恢复音频数字信号,然后,经由图4-6所示的电路框图对音
11、频信号进行放音。,图4-6 音频信号的回放框图,4.有关音频信号的标准及规范在第1章中,已经特别说明标准及规范在多媒体世界中的重要性。这里,首先阐明数字电话音频信号的数据压缩标准。在表4-1中列出了国际电报电话咨询委员会(CCITT),欧洲移动通信专家组(GSM),美国移动通信标准(CTIA)及美国国家安全局各自制定的有关电话通信的编码标准。表中还给出了各种标准的大致使用领域以及它们的质量,其中,质量是以最高为5.0分来表示的。,除了上面所提到的数字电话编码标准外,调幅广播的音频信号范围为50 Hz7 kHz,又称“7 kHz音频信号”,其最高频率为7 kHz,当使用16 kHz对其采样并进行
12、14位二进制编码时,其数据的传送速率为224 KB/s。为了对最高频率进行压缩,CCITT于1988年为其制定了G.722标准,标准规定这种信号的数据传送率为64 KB/s。,表4-1 数字电话的编码标准,5.常用语音文件格式在多媒体计算机的语音处理或在后面将要说明的声卡中所用到的操作系统或工具软件为我们提供了语音文件。这些语音文件都有各自的标准,以便于用户使用和相互转换。在这里将简要介绍目前最常见的语音文件格式。1)VOC语音文件格式VOC语音文件由文件头和数据块两大部分组成。其中VOC语音文件的文件头如表4-2所示。,表4-2 VOC语音文件的文件头,由表4-2看到,VOC文件的文件头主要
13、是对VOC文件的类型、版号及标志做出说明,同时,指出了数据块的起始地址、数据块长度及采样率。VOC文件中数据块由性质不尽相同的子块组合而成。各子块的功能及其长度也各不相同,例如有语音数据子块、静音标志子块、ASCII码字符子块、循环重复子块、终止子块及用于立体声音响的扩展子块等。VOC文件中数据子块的长度及主要功能列于表4-3中。,表4-3 VOC文件中数据子块的长度及主要功能,不同子块的开始几个字节除前面4个如上所述外,剩下的就不太相同,表4-3中用?表示。例如,1号数据子块的开始字节中,有规定本数据块的数据压缩比的字节。知道了压缩比,就可以解压缩恢复原始的语音数据。2)WAV语音文件格式在
14、多媒体应用中被广泛使用的是RIFF(Resource Interchange File Format)标准给出的WAV语音文件。与VOC文件类似,WAV文件也是由文件头和数据块两部分组成。其中文件头所规定的内容如表4-4所示。,表4-4 WAV语音文件的文件头,由表4-4可见,WAV语音文件头也是对文件设置了一些标志并确定了对语音信号的采集速率。单声道语音信号用11.025 kHz的采样率采样,采样值为8 bit二进制编码,双声道语音信号用44.1 kHz采样率采样,即左右声道各为22.05 kHz采样,每声道采样值用8 bit二进制编码表示,这样一来,每个语音采样值要用16 bit表示,且高
15、8位放左声道的数据,低8位放右声道的数据。具体数据块的存放情况如表4-5所示。表4-5表明,数据块紧跟在文件头的后面,其偏移地址从1EH开始,前面是数据块的标志和数据块的总长度。从偏移地址26H开始存放语音数据。,表4-5 WAV文件中的数据块存放,以上我们简单地介绍了两种语音文件VOC和WAV。前者是我们在本章后面要介绍的声霸卡所形成的文件格式,后者是Microsoft的语音文件格式。在实际应用中,经常需要知道这些语音文件的格式,而且也经常会遇到由WAV文件向VOC文件的转换或由VOC文件向WAV文件的转换。所幸的是这两种文件的相互转换已有现成的程序可供调用,这就省了许多麻烦。使用者只要用一
16、条简单的命令即可方便地完成它们之间的相互转换。但是,由于两种文件的复杂性,在利用软件命令进行两种文件格式转换时,应注意,WAV文件只支持11.025 kHz、22.05 kHz和44.1 kHz采样率,因此,在形成VOC文件时也要采用这样的采样率才能顺利地进行相互转换。,VOC文件中可包括多个数据块,而WAV文件只支持一个数据块,且只能用一种采样速率播放出来。因此,在WAV和VOC文件相互转换时,只能是功能强的VOC文件来适应WAV文件的规定。同时,WAV文件不支持压缩文件,因此,当VOC文件向WAV文件转换时,VOC文件中的压缩数据块将被忽略。3.AU声音文件格式AU文件是使用于UNIX操作
17、系统下的一种波形文件。其格式如表4-6所示。,表4-6 AU文件格式,4.MID文件格式MID文件是一种记录数字化音乐的MIDI文件,由一个文件头块和多个音轨块组成。文件头块记录了MIDI文件的描述信息,而音轨块记录了MIDI通道的数据流信息。文件头块和音轨的格式分别如表4-7和4-8所示。,表4-7 MID 文 件 头,表4-8 MID 音 轨,4.3 话音信号的参数编码,4.3.1 话音源通过对人的话音生成机理研究,人们认为,人的话音由声道产生,可分为浊音和清音两种类型。1.浊音浊音由声带振动产生的准周期脉冲引起,每次振动使一股空气从肺部流进声道并激励声道,各股空气之间的间隔称为音调间隙或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 常见 音频文件 格式 处理 工具
链接地址:https://www.31ppt.com/p-6469950.html