数据音频技术.ppt
《数据音频技术.ppt》由会员分享,可在线阅读,更多相关《数据音频技术.ppt(59页珍藏版)》请在三一办公上搜索。
1、多媒体技术与应用,第3章 数据压缩技术第4章 数据存储技术第5章 数字音频技术第6章 数字图形图像技术第7章 数字视频技术第8章 网络多媒体技术第9章 多媒体操作系统,第5章 数据音频技术,声音是多媒体技术研究中的一个重要内容。声音的种类繁多,如人的话音、乐器的声响、动物的叫声、机器产生的声音以及自然界的雷声、风声、雨声、闪电声等。在用计算机处理这些声音时,既要考虑它们的共性,又要利用它们各自的特性。自从1969年Bell实验室开始数字语音的研究以来,计算机产生音乐以及语音识别、语音合成技术得到了越来越广泛的研究和应用。多媒体数字音频处理技术在音频数字化、语音处理、合成及识别等各个方面都有着很
2、好的发展。,5.1 声音与声音信号数字化,作为一种模拟信号,声音在时间和振幅上都是连续的,即它的振幅能以任意精度并在任何一个时刻进行测量。与之不同的是,数字信号只能在确定的时刻才有意义,其数值也只能取有限的量。,5.1.1 声音与听觉器官,声音的强弱表现在声波压力的大小上,音调的高低表现在声音的频率上。当声音用电信号表示时,在时间和幅度上都是连续的模拟信号。对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号,而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽,用来描述组成复合信号的频率范围,如高保真声音的频率范围为1020000Hz,带宽约为20kHz,而视
3、频信号的带宽是6MHz。,5.1.1 声音与听觉器官,声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数,用Hz表示。频率小于20Hz的信号称为亚音信号,或称为次音信号;频率范围为20Hz20kHz的信号称为音频(Audio)信号。虽然人的发音器官发出的声音频率大约是803400Hz,但人说话的信号频率通常为3003000Hz,在这种频率范围的信号称为话音信号;高于20kHz的信号称为超音频信号,或称超声波信号。一般来说,人的听觉器官能感知的声音频率大约在2020000Hz之间,在这种频率范围里感知的声音幅度大约在0120db之间。多媒体技术中处理的主要是音频信号,包括音乐
4、、语音和音效(风雨声、鸟叫声、机器声)等。,5.1.2 模拟信号与数字信号,大多数电信号(模拟信号)过去一直是用模拟元部件(如晶体管、变压器、电阻、电容等)进行处理的。但是,开发一个具有相当精度、且几乎不受环境变化影响的模拟信号处理元部件相当困难,成本也很高。话音信号是典型的连续信号,不仅在时间上,而且在幅度上也是连续的。时间上“连续”是指在一个指定的时间范围内声音信号的幅值有无穷多个,在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。,5.1.2 模拟信号与数字信号,如果把模拟信号转变成数字信号,用数字来表示模拟量和对数字信号做计算,那么开发模拟运算部
5、件的问题就转变成了开发数字运算部件的问题,这就出现了数字信号处理器(digital signal processor,DSP)。DSP与通用微处理器相比,除了结构不同外,它们的基本差别是,DSP有能力响应和处理采样模拟信号得到的数据流,如做乘法和累加求和运算等。,5.1.2 模拟信号与数字信号,在数字环境进行信号处理的主要优点是:首先,数字信号计算是一种精确的运算方法,它不受时间和环境变化的影响;其次,表示部件功能的数学运算不是物理上实现的功能部件,而仅仅是用数学运算来模拟,相对容易实现;此外,可以对数字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程。,5.1.3 声音
6、信号数字化,计算机要处理或合成声音,就必须把模拟的(连续的)声音波形转换成数字(离散化),这个过程称为声音采样(图5-1),它是把连续的声波信号通过一种称为模数(A/D)转换器的部件转换成数字信号,供计算机处理,如果需要的话,这种转换后的数字信号又可以通过数模转换(D/A)器,经过放大输出,变成人耳能够听到的声音。,图5-1 声音信号数字化的过程,5.1.3 声音信号数字化,连续时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这种采样称为均匀采样;连续幅度的离散化通过量化来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。图
7、5-2表示了声音数字化的概念。,图5-2 声音的采样和量化,5.1.3 声音信号数字化,我们把时间和幅度都用离散的数字表示的信号称为数字信号。声音数字化需要回答两个问题:每秒钟采集多少个声音样本,也就是采样频率是多少;每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。采样的速度决定了录制声音的准确性,而采样值的精度则决定了录制声音的精确性。实践证明,采样速度越快,采样值越准确,声音特征复原得就会越好。,5.1.3 声音信号数字化,常用的几种音频信号数字化的采样率标准是:44.2kHz(CD音质)、22.05kHz(FM音质)、11.025kHz(AM音质)等
8、。为了追求音响品质的完美,减少噪声的干扰,达到理想的传播声音的环境,国际上制定了一系列判断音质的标准,图5-3给出了几种数字声音质量等级的国际标准所对应的频率范围。,图5-3 数字声音质量等级对应的频率范围,5.1.3 声音信号数字化,样本大小是用每个声音样本的位数(bit/s或b/s)表示的,它反映度量声音波形幅度的精度。例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在065 536的范围里,它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。采样精度的另一种表示方
9、法是信号噪声比。,5.1.3 声音信号数字化,原始的音频数据一般需进行编辑加工才能使用。通过编辑可以实现各种声音混合以及消除或降低声音中的畸变等。一般的音频编辑软件都具有设置音量、渐强渐弱处理及多通道混合等常用功能。音频处理主要集中在音频压缩上,最新的语音压缩算法可将原始声音数据压缩6 8倍以上。,5.1.4 声音质量与数据率,数字化音频的质量取决于采样频率和量化位数这两个重要参数,反映音频数字化质量的另一个因素是通道(或声道)个数。记录声音时,如果每次生成一个声波数据,称为单声道;每次生成二个声波数据,称为立体声(双声道),立体声更能反映人的听觉感受。音频数字化的采样频率和量化级越高,结果越
10、接近原始声音,除此之外,数字化音频的质量还受其他一些因素(如扬声器的质量等)的影响。根据声音的频带,通常把声音的质量分成5个等级,由低到高分别是电话、调幅广播(AM)、调频广播(FM)、光盘(CD)和数字录音带(digital audio tape,DAT)的声音。在这 5个等级中,使用的采样频率、样本精度、通道数和数据率见表5-1。,表5-1 声音质量和数据率,5.2 音乐合成和MIDI,多媒体音频数据的一个重要来源是MIDI(乐器数字接口)。从20世纪80年代初期开始,MIDI逐步为音乐界广泛接受和使用。MIDI是乐器和计算机使用的标准语言,是一套指令(即命令)的约定,它指示乐器(即MID
11、I设备)要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,它传送的是发给MIDI设备或其他装置让其产生声音或执行某个动作的指令。,5.2 音乐合成和MIDI,作为数字音乐的一个国际标准,MIDI标准规定了电子乐器与计算机之间传送数据的通信协议等规范。MIDI标准使不同厂家生产的电子合成乐器可以互相发送和接收音乐数据。随着MIDI标准的施行,计算机成为电子合成乐器间的控制环节,出现了大量可进行记录、存储、编辑和播放乐谱(音符表或音符序列)的计算机软件。MIDI音频的处理过程如图5-4所示,其主要优点是:1)生成的文件比较小。由于MIDI文件存储的是命令,而不是声音本身
12、,因此它比较节省空间。例如,同样半小时的立体声音乐,MIDI文件只有200KB左右,而波形文件(WAV)则要差不多300MB。,图5-4 MIDI音频的处理过程,5.2 音乐合成和MIDI,2)容易编辑。因为编辑命令比编辑声音波形要容易得多。3)可以作为背景音乐。MIDI音乐可以和其他的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果。产生MIDI乐音的方法很多,主要有两种:一种是频率调制(frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表(wave table)合成法。,5.3 数码音乐MP3,MP3的全称是MPEG-1 Layer
13、3音频文件。MPEG-1是活动影音压缩标准,其中的声音部分称为MPEG-1音频层,它根据压缩质量和编码复杂度划分为三层,即Layer1、Layer2和Layer3,分别对应MP1、MP2和MP3这3种声音文件,并根据不同的用途,使用不同层次的编码。MPEG音频编码的层次越高,对应的编码器越复杂,压缩率也越高,MP1和MP2的压缩率分别为4:1和6:1 8:1,而MP3的压缩率则高达10:1 12:1。也就是说,分钟CD音质的音乐,未经压缩需要10MB的存储空间,而经过MP3压缩编码后只有1MB左右。,5.3 数码音乐MP3,不过MP3对音频信号采用的是有损压缩方式,为了降低失真度,MP3采取了
14、“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,再通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,使压缩后的文件在回放时能达到比较接近原音源的声音效果。虽然它是一种有损压缩方式,但它以极小的声音失真换取了较高的压缩比,使得MP3能够在因特网上广泛传播。,5.3 数码音乐MP3,MP3这种压缩比非常高的数字音频文件不仅能在网上传播,而且还能容易地下载到便携式数字音频设备(MP3随身听)中。MP3随身听基于DSP(数字信号处理器),无需计算机支持便可以实现MP3文件的存储、解码和播放。事先可以将创建好的MP3文件从计算机或因特网上下载到MP3
15、随身听内置的存储器中,当从中选择播放一首MP3歌曲时,文件数据将被传送给DSP,通过它来对文件进行解压缩。所需的解压缩软件被置入DSP处理器内部,或者存放在存储体中。DSP将处理完的数据传给数模转换器,它将二进制的数码信息转换成模拟信号,然后再输出到耳机或扬声器中。,5.4 语音信号与处理,语音是人类沟通的主要方式,可以被人或机器来处理,后者就称为数字语音处理。语音理解意味着要有效地适应说话人及其说话习惯,包括不同方言和情绪化的发音。语音信号有两个重要的特点可以用在语音处理应用中:1)浊语音信号(相对于清语音)在某一个确定的时间间隔上有一个几乎是周期性的结构,因此这种信号保持大约30ms的准稳
16、态。2)一些声音的频谱具有特征最大值,通常包括多达5个频率。这些在说话时生成的频率最大值被称作共振峰。根据定义,共振峰是一段语音质量的特征成分。,5.4.1 语音输出,语音输出涉及到机器如何生成语音的问题,在这方面的主要挑战是,如何使得语音输出系统能够实时地生成语音信号,例如,自动地把文字转化为语音。某些应用(如语音报时)采用有限的词汇表来处理这一任务,但大多数采用的是广泛的词汇表。机器输出的语音必须是可以听懂的,而且应该听起来很自然。其中可懂性是强制而自然的事情,可以增加用户的接受度。,5.4.1 语音输出,与语音输出相关的几个重要术语是:1)语音基本频率,是语音信号中最低周期信号部分。它体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 音频 技术
链接地址:https://www.31ppt.com/p-6296984.html