多媒体音频处理.ppt
3.1 数字音频的基本概念3.2 音频接口卡3.3 数字音频的压缩编码3.4 音频编码标准3.5 数字音频处理软件简介3.6 数字音频的获取与文件格式转换3.7 语音识别技术,第三章 多媒体音频技术,学习目标,1.了解声音信号的特点、存储格式及质量的度量方法2.了解音频卡的功能、构成、原理及其应用3.理解音频信号处理的方法4.了解音频信号压缩方法及音频编码标准5.掌握应用常用的音频处理软件对声音信号进行处理的过程6.了解语音识别技术及其应用,3.1 数字音频的基本概念,声音,声音是因物体的振动而产生的一种物理现象。振动使物体周围的空气绕动而形成声波,声波以空气为媒介传入人的耳朵,于是人们就听到了声音。,数字音频的基本概念,音频 音频(Audio)是用声音的频率界定的,指频率在20Hz20kHz范围内的声波。音频所覆盖的声音频率是人的耳朵所能听到的声音。,3.1.2 模拟音频和模拟音频记录技术,就记录技术而言,为了模拟声音的波形形状从而将声波振动转变成唱片的波状沟纹或磁带的磁向排列的技术都可以称为模拟音频记录技术。,模拟音频即前面提到的模拟声音,是指随时间连续变动的音频声音波的模拟记录形式,通常采用电磁信号对声音波形进行模拟记录。,数字音频,数字音频并非一种新的声音,它不过是模拟音频声音进入计算机后的一种记录和存储形式。计算机在处理声音时,除了输出仍用波形形式外,记录、存储和传送都不能使用波形形式,即声音在进入计算机时,必须进行数字化,使时间上连续变化的波形声音变成一串0、1构成的数据序列。,模拟音频与数字音频特点比较,模拟音频是连续的波动信号,数字音频是离散的数字信号。模拟音频不便进行编辑修改,数字音频编辑、特效处理容易。模拟音频用磁带或唱片做记录媒体,容易磨损、发霉和变形,不利长久保存;数字音频主要用光盘存储,不易磨损,适宜长久保存。模拟音频进入计算机必须数字化为数字音频,而数字音频最终要转换为模拟音频才能输出。,3.1.3 音频信号的数字化,音频信号的数字化就是对时间上连续波动的声音信号进行采样和量化,对量化的结果选用某种音频编码算法进行编码,所得结果就是音频信号的数字形式,即数字音频。,3.1.4 语音合成,1.发音器官参数语音合成,2.声道模型参数语音合成,3.波形编辑语音合成,3.1.5 音乐合成,音乐合成是声音合成的另一分支,与语音合成的对象不同,音乐合成的对象是乐音,而不是人类的语音,音乐合成的原理和方法,音乐合成方法 一是调频合成法,又称FM合成法;一是波形表(Wavetable)合成法,又称波表合成法。,FM合成法,FM合成法正是从乐音的频谱特性分布中得到启示,通过使用调频(FM)技术,利用不同调制波频率和调制指数,对载波进行调制,得到了具有不同频谱分布的波形。,波表合成技术,波表合成技术是先把音乐演奏家在各种不同乐器上演奏的不同音符、以适当的采样率、量化位数录制下来,形成乐音的波形数据。然后将各种波形数据存储在ROM中。发音时,通过查找到所选预期的波形数据,然后经过调制、滤波、再合成等处理形成立体声后发声。,MIDI,MIDI(Musical Instrument Digital Interface)是乐器数字接口英文首写字母的缩写,实际上,它是一套有关数字合成音乐的国际标准。,3.1.6 声音文件格式,4.midi格式,3.mp3格式,2.voc格式,1.wav格式,3.2.1 声卡的功能,文语转换和语音识别,MIDI音乐录制和合成,编辑与合成声音文件,录制与播放声音文件,声卡的结构,声卡的技术指标,音频压缩,DSP数字信号处理器,MIDI合成方式,采样频率和量化位数,声卡与外部设备的连接,3.3数字音频的压缩编码,将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,以减少音频的数据量,并以这种形式在计算机内传输和存储。,声音的压缩编码,混合型编码,参数编码,波形编码,PCM编码,编码原理:PCM 编码调制是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称,即它把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。,PCM编码框图,均匀量化,如果采用相等的量化间隔对采样得到的信号进行量化称为均匀量化。,非均匀量化,非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,3.4.2 MP3压缩技术,MP3的全名是MPEG Audio Layer-3,简单地说就是一种声音文件的压缩格式 MP3的好处在于大幅降低数字声音文件的容量,而不会破坏原来的音质。,3.4 MP4压缩技术,MP4并不是MPEG-4或者MPEG-1 Layer 4,它的出现是针对MP3的大众化、无版权的一种保护格式,由美国网络技术公司开发,美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。,3.5 数字音频处理软件,Adobe Audition 2.0 Gold Wave CakeWalk(音乐大师),3.5.1 Adobe Audition 2.0,Audition的前身是Cool Edit Pro,一个非常出色的数字音乐编辑器和MP3制作软件。不少人把Cool Edit形容为音频“绘画”程序。你可以用声音来“绘”制:音调、歌曲的一部分、声音、弦乐、颤音、噪音或是调整静音。而且它还提供有多种特效为你的作品增色:放大、降低噪音、压缩、扩展、回声、失真、延迟等。,Adobe Audition 2.0窗口,3.5.2 Gold Wave,GoldWave是一种相当棒的数码录音及编辑软件,除了附有许多的效果处理功能外,它还能将编辑好的文件存为WAV、AU、SND、RAW和AFC等格式,而且它可以不经由声卡直接抽取SCSI形式的CD ROM中的音乐来录制编辑。,GoldWave 窗 口,3.5.3 CakeWalk(音乐大师),音序器软件作为MIDI软件的核心和基础,在电脑音乐中起着了举足轻重的作用。它控制着MIDI信息的输入输出,指挥着与它连接的各种外设的正常工作.,CakeWalk 窗 口,语音识别技术,语音识别技术在信息社会有着广阔的应用前景,除了上述的重要应用领域外,它还可以应用于残疾人帮助,电话信息查询,文本校对,火车站、飞机场、医院等公共场所的语音帮助和识别系统。,3.7.1 语音识别系统,语音识别以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,其目的就是要让机器具有人的听觉功能,在人机语音通讯中“听懂”人类口述的语言。根据不同的需求,语音识别的识别内容可分为狭义的语音识别(Speech Recognition)和说话人语音识别(Speaker Recognition)。,语音识别系统基本原理框图,处理的方法,识别判决,参数模板存储,特征参数提取,连续语音流的预处理,3.7.2 语音识别系统的应用,语音识别技术在信息处理领域的应用教育与商务应用 消费电子产品应用,语音识别系统需要解决的问题,进行动力学建模,寻找更好的语音模型,增加系统的适应性,增加系统的稳定性,本章小结,本章主要介绍了与音频信号有关的基本概念、硬件设备及其应用软件,包括音频信号的分类及其特点、音频信号数字化过程、音频卡简介、音频信号的压缩与编码标准、数字音频的获取、语音识别技术等内容。音频是指频率在2020kHz范围内的可听声音,多媒体中的声音主要包括数字音频和MIDI音乐两种类型。声音信号的基本处理包括采样、量化、编码压缩、编辑、存储、传输、解码、播放等环节。,音频接口卡是实现音频信号数字化和音频输出(语音合成)的硬件设备,实现音频信号的A/D、D/A转换。同时也能和MIDI设备通信,实现MIDI的制作和播放(音乐合成)。数字音频编辑处理包括音频内容、格式、效果等方面的处理,内容处理通过拼接、合并、剪辑完成,格式处理主要指不同声音文件之间的相互转换,效果处理的内容很丰富,如淡入、淡出、混响、去噪等。MIDI文件中保存用MIDI消息所表示的乐谱,播放时要通过声卡中相应的合成器才会发出美妙的乐声,所以MIDI音乐的音质与设备相关。,