第三章多媒体音频信息处理ppt课件.ppt

上传人：小飞机

文档编号：1469448

上传时间：2022-11-29

格式：PPT

页数：74

大小：417KB

《第三章多媒体音频信息处理ppt课件.ppt》由会员分享，可在线阅读，更多相关《第三章多媒体音频信息处理ppt课件.ppt（74页珍藏版）》请在三一办公上搜索。

1、第三章,多媒体音频信息处理,声音是携带信息的极其重要的媒体，是多媒体技术研究中的一个重要内容。声音的种类繁多，如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。这些声音有许多共同的特性，也有它们各自的特性。在用计算机处理这些声音时，既要考虑它们的共性，又要利用它们的各自的特性。,一、音频信号的分类,音频信号可分为两类：,语音信号：语音是语言的物质载体，它包含了丰富的语言内涵，是人类进行信息交流所特有的形式。非语音信号：主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不含复杂的语义和语法信息，其信息量低，识别简单。,二、音频信号的形式,声音可用一条连续的

2、曲线来表示。这条连续的曲线无论多么复杂，都可分解成一系列正炫波的线性叠加，称为声波。因声波是在时间上和幅度上都连续变化的量，因此称之为模拟量。模拟信号有两个重要参数：频率和幅度。,一个声源每秒钟可产生成百上千个波峰，把每秒钟波峰所发生的数目称之为信号的频率。信号周期是指两个峰点或谷底之间的相对时间。信号的基线提供了一个测量声音的起点。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。信号带宽是声音信号的一个重要参数，它用来描述组成复合信号的频率范围。,振幅,周期,基线,1GHz10GHz,超高声波,20kHz1GHz,超声波,20Hz20kHz,人类听力所能

3、接受,020Hz,亚声波,频率范围,声音分类,三、声音质量的评价,客观质量度量：用信噪比来衡量。主观质量度量,现在公认的声音质量分为4级,数字激光唱盘质量调频无线电广播调幅无线电广播电话质量,CD-DA,FM广播,AM广播,电话,10 20 50 200 3.4K 7K 15K 22K,四、模拟音频的数字化过程,话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个，在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。,如果要用计算机对音频信息进行处理,则首先将模拟

4、音频信号(如语音、音乐等)转换成数字信号.对模拟音频数字化的过程涉及到音频的采样、量化和编码.,模拟音频信号,采样,量化,编码,数字音频信号,计算机对声音的表示主要是通过规则的时间间隔测出音波振动的幅度从而产生的一系列声音数据。这种测出数据的方法就称为采样，一秒内采样的次数称为采样率（sampling rate），单位为Hz。例如：采样频率通常采用种:11.025KHz(语音效果)、22.05KHz(音乐效果)44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。,采样,奈奎斯特理论:采样频率与声音频率之间有一定的关系,只有采样频率高于声音信号最高频率的两倍时,才能把

5、数字信号表示的声音还原成为原来的声音. 例如:CD唱片,要想获得CD音质的效果,则要保证采样频率为44.1KHz.,采样的离散音频数据要转换成计算机能够表示的数据范围的过程,我们把对声波波形幅度的数字化表示称之为“量化”量化的过程首先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋予相同的量化值.,量化,(c) 采样信号的量化,(a) 模拟音频信号,(b) 音频信号的采样,数字化音频的过程如下图所示。,量化位数量化位数也称“量化精度”，是描述每个采样点样值的二进制位数。例如，8位量化位数表示每个采样值可以用28即256个不同的量化值之一来

6、表示，而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。这个参数就是通常所说的声卡的位数.常用的量化位数为8位、16位、32位,专业级的高档声卡有64位的。,编码,为什么要对音频编码？,A、获取更好的数学描述方法？B、让声音不失真？C、不编码就不是比特流？D、为了使比特流更加简练？E、为了便于计算机存储？F、为了便于在网络上传输音频？,以上哪个是最根本的出发点？,所谓编码,就是按照一定的格式把离散的数字记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据.在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正.,五

7、、音频信号的压缩编码与标准,数字波形文件数据量大，数字音频的编码必须采用高效的数据压缩编码技术。对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储.在播放时经解码器恢复成原来的声音信号.,输入信号,编码器,传输/存储,解码器,输出信号,音频信号能够被压缩编码的依据有两个，一是声音信号存在着数据冗余；二是利用人的听觉特性来降低编码率，人的听觉具有一个强音能抑制一个同时存在的弱音现象，这样就可以抑制与信号同时存在的量化噪声；另外人耳对低频端比较敏感，而对高频端不太敏感，由此引出了“子带编码技术”。音频信号的编码方式可分为波形编码参数编码和混合

8、编码三种。,波形编码的算法简单，易于实现，可获得高质量的语音。常见的三种波形编码方法为：脉冲编码调制(PCM)，实际为直接对声音信号作AD转换。只要采样频率足够高，量化位数足够多，就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM)，即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM)，是DPCM方法的进一步改进，通过调整量化步长，对不同频段设置不同的量化字长，使数据得到进一步的压缩。,2). 参数编码参数编码方法通过建立起声音信号的产生模型，将声音信号用模型参数来表示，再对参数进行编码，在声音播放时根据参数重建声音信号。参数编码法算法复杂

9、，计算量大，压缩率高，但还原声音的质量不高。3). 混合编码混合编码是把波形编码的高质量和参数编码的低数据率结合在一起，取得了较好效果。,脉冲编码调制(PCM),PCM编码是对连续语音信号进行空间采样,幅度值量化及用适当码字将其编码的总称.PCM方法可以按量化方式的不同,分为均匀量化PCM,非均匀量化PCM和自适应量化PCM等三种.,均匀量化,非均匀量化,差分脉冲编码调制(DPCM),他编码的不是声音采样样本值,而是样本值及其预测值的差分。根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的

10、位数。,自适应差分脉冲编码 (ADPCM),自适应就是使量化间隔大小的变化自动的去适应输入信号大小的变化.他根据信号分布不均匀的特点,是系统具有随输入信号的变化而改变量化区间的大小,以保证输入量化器的信号基本均匀的能力.,标准比特速度编码技术应用制定日期,G.723 5.3kb/s或6.3kb/s MP-MLQ 视频电话及IP电话等 1996.3,G.722 64kb/s SBC+ADPCM 视听多媒体和会议电话 1988.11,G.711 64kb/s PCM 公共电话网 1972,G.728 16kb/s LD-CELP 公共电话网 1992.9,G.729 8kb/s CS-AC

11、ELP 无线移动网、 1996.3 计算机通信系统等,ITU-T G系列音频压缩编码标准,音频编码标准和算法,六、数字音频的文件格式,WAV文件,WAV文件又称为波形文件,是Micorsoft公司的文件格式.WAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值转换成二进制数.,WAVE声音文件是使用RIFF(资源交换文件)的格式描述的,对于PCM采样得到的波形文件,其声音文件的大小与采样频率、量化位数和声道数有关. 文件大小=采样频率*(量化位数/8)*声道数* 录音时间,如：对于立体声，如果采样频率为44.1Kz，分辨率为 16bit，声道数为2，语音时间为10秒，求录音

12、文件的大小？,VOC文件,VOC文件是Creative公司所使用的标准音频文件格式。与WAVE格式类似，VOC文件有文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针。数据块分成各种类型的子块，如声音数据、静音、标记、重复、重复的结束及终止标记等。,mp3文件,是用一种属于按MPEG标准的声音压缩技术制作的数字音频文件。,存储空间小,同样长度的音乐文件，用MP3 存储相当于WAV的1/10。比较好的播放器：winamp、超级解霸、 realplayer等，一般都支持。,Real Player公司推出的适合于网络播放的媒体格式。,高压缩比，存储空间小。适合网络播

13、放。音质不是很好。专用播放器Realplayer、超级解霸2001以上的版本等,RA格式文件,AIF是音频交换文件格式（Audio Interchange File Format）的英文缩写，是苹果计算机公司开发的一种声音文件格式。,AIFF格式文件,七、声卡,虽然PC声卡是在20世纪90年代才得以普及，但它的问世却是在1984年。英国的ADLIB公司是目前公认的“声卡之父”，虽然他们最初开发的产品只能提供简单的声音效果，并且无法处理音频信号，但在当时无疑已经是一个很大的突破。由于技术不够成熟，成本又非常昂贵，因此这类带有试验品性质的早期ADLIB音乐卡，因在当时计算机的运算速度还不足以应付

14、大规模的多媒体处理，所以未能普及。,七、声卡,（一）功能,录制、编辑和回放数字声音文件控制各声源的音量并混合在一起对声波文件进行压缩和解压缩语音合成技术 MIDI接口（乐器数字接口）,（二）声卡的技能指标,音频技术指标,声卡的录音、放音效果应该具有CD唱片的音质。所谓CD音质是指录音采样速度达到44.1kHz，用16位量化指标来记录声音。Sound Blaster 16（即16位声霸卡）系列的声卡都是CD音质的声卡。,（二）声卡的技能指标,MIDI声频,MIDI是计算机产生声音的另一种方法，它是一种电子音乐。计算机播放MIDI文件时，有两种方法合成声音：FM合成和波表合成。我们在考虑声卡

15、的技能指标时要考虑采用的哪种合成方法。,（二）声卡的技能指标,声道数,声卡所支持的声道数也是重要指标。单声道是比较原始的声音复制形式，缺乏对声音的位置定位。立体声声音在录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。,（二）声卡的技能指标,随着波表合成技术的出现，由双声道立体声向多声道环绕声的发展显得格外迫切。四声道环绕规定了4个发音点：前左、前右、后左、后右，听众则被包围在这中间，同时还建议增加一个低音音箱，以加强对低频信号的回放处理（这也是如今4.1声道音箱系统广泛流行的原因）。,（二）声卡的技能指标,5.1声道已广泛运用于各类传统影院和家庭影院中，该声音系统来源于4

16、.1环绕，不同之处在于它增加了一个中置单元，这个中置单元负责传送低于80Hz的声音信号，在欣赏影片时有利于加强人声，把对话集中在整个声场的中部，以增强整体效果。,（二）声卡的技能指标,多音频流输出,多音频流输出是指声卡可以在同一时间内支持多个wav、mp3、midi类音频文件的播放。目前大部分中高档的PCI声卡是普遍支持多音频流输出的，,（二）声卡的技能指标,I/O设备接口,一般的声卡都设有线性输入、线性输出、音箱输出、MIDI和游戏杆接口等。,（二）声卡的技能指标,系统参数的可调性,为避免I/O地址、DMA、IRQ对系统的冲突，声卡参数必须是能过设置的。当前是利用软件进行设置才最为方便，早期

17、的声卡有可能需要调整跳线。,（二）声卡的技能指标,声卡软件,声卡软件很重要，一块声卡的技术指标再高，但缺乏应用软件的支持，都很难发挥其特长。声卡一般都带有应用程序，这些应用程序包括录音软件、WAV、CD及MIDI播放软件、混音器、WAV文件编辑器等。高档的声卡还提供特殊效果播放器、文字阅读软件及语音识别软件等。,（二）声卡的技能指标,总线结构,由于计算机技术突飞猛进的发展，ISA总线已经不能满足音频信号的高吞吐量的需要，于是产生了PCI声卡。,（三）声卡的插孔与连接,（四）声卡的安装,(1). 硬件安装步骤1 关闭计算机电源，拔下供电电源和所有外接线插头。步骤2 打开机箱外壳，选择一个空闲的

18、16位扩展槽并将声卡插入扩展槽。步骤3 连接来自CD-ROM驱动器的音频输出线到声卡的CD IN针形输入线上；步骤4 盖上机箱外壳，并将电源插头插回。步骤5 声卡与其它外设的连接，按下页图进行。,LINE IN,LINE OUT,SPK OUT,MIDI,录音机、CD唱机等线性输入,话筒,扬声器,线性输出立体声放大器,MIC IN,(2). 软件安装对不同的声卡，软件的安装方法不完全相同，需要按照说明书安装。1). 安装驱动程序声卡的驱动程序是控制声卡工作的必要程序，不同的声卡驱动程序是不同的。2). 安装应用程序安装声卡的应用程序，例如混音器、录音师和MIDI编辑软件等。,八、电子乐器

19、数字接口MIDI,使用计算机利用声音合成技术生成音乐的技术称为电子音乐合成。MIDI是Musical Instrument Digital Interface的首写字母组合词，可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。,（一）有关的MIDI术语,MIDI合成器：能产生特定声音的电子装置，其数据传输符合MIDI通信约定。 MIDI信息或指令：乐谱的一种记录格式，相当于乐谱语言。 MIDI接口：MIDI硬件通信协议。 MIDI通道：提供了16个通道，每种通道对应一种

20、逻辑的合成器。 MIDI文件：是存放MIDI信息的标准文件格式。音序器：用来记录、编辑和播放MIDI文件的软件。,（二）MIDI工作过程,MIDI电子乐器通过MIDI接口与计算机相连，MIDI靠这个接口来传递信息而进行彼此间的通信。,MIDI乐器,MIDI接口,合成器,音序器,MIDI文件,扬声器,PC机,音频卡,MIDI指令,模拟音频信号,MIDI键盘,MIDI键盘是用于MIDI乐曲演奏的，MIDI键盘本身并不发出声音，当作曲人员触动键盘上的按键时，就发出按键信息，所产生的仅仅是MIDI音乐消息，从而由音序器录制生成MIDI文件。,音序器(Sequencer),用于记录、编辑、播放MID

21、I的声音文件，音序器有以硬件形式提供的，目前大多为软件音序器。音序器可捕捉MIDI消息，将其存入MIDI文件，MIDI文件扩展名为 .MID。音序器还可编辑MIDI文件。,合成器,MIDI文件的播放是通过MIDI合成器，合成器解释MIDI文件中的指令符号，生成所需要的声音波形，经放大后由扬声器输出，声音的效果比较丰富。,MIDI信息实际上是对一段音乐的描述或理解成是乐谱的数字描述。它包括音符、节拍、乐器种类等。MIDI信息包含两个大的部分：状态信息和数据信息。状态信息用于描述音符被演奏还是被加强声音这类信息，而数据信息则侧重描述哪个音符被演奏或被加强的声音的强度如何等可以用量来表示的信息。,理

22、解MIDI工作方式的最直接的方法就是看MIDI信息是什么？,（三）MIDI合成器,合成器是利用数字信号处理器DSP或其他芯片来产生音乐或声音的电子装置。利用合成器产生MIDI乐音的主要方法是FM合成法和波表合成法。,FM合成法,是20世纪80年代初由美国斯坦福大学的研究生发明的，称为“数字式频率调制合成法”，其基本原理是：用数字信号来表示不同乐音的波形，然后把它们组合起来，在通过数模转换器生成乐音播放。,FM合成器工作原理,波表合成法,即乐音样本合成法。与FM合成不同，波表合成是采用真实的声音样本进行回放，声音样本记录了各种真实乐器的采样波形，并保存在ROM或RAM中。硬波表：音色库存放在声

23、卡的ROM或RAM中。软波表：音色库以文件的形式存放在硬盘里，需要时再通过CPU进行调用。,波表合成器工作原理,（四）GMMIDI乐器排序表,以前各生产商在设计MIDI发声工具时并没有一个统一的乐器排序标准。基于这种情况，各生产商达成了共识，共同编制了一份“标准MIDI乐器排序表”，他共收录了16种不同的乐器，每类各选8件，全部总共有128件乐器。,(1). 由于MIDI文件只是一系列指令的集合，因此它比数字波形文件小得多，大大节省了存储空间。(2). 使用MIDI文件，其声音卡上必需含有硬件音序器或者配置有软件音序器。(3). MIDI声音适于重现打击乐或一些电子乐器的声音，利用MI

24、DI声音方式可用计算机来进行作曲。(4). 对MIDI的编辑很灵活，在音序器的帮助下，用户可自由地改变音调、音色以及乐曲速度等，以达到需要的效果。,（五）MIDI文件特点,CakeWalk编辑不同的声音通道,九、语音识别技术,早在20世纪70年代，国外就开始致力于语音识别技术的研究。经过近30年的探索，语音识别技术经历了从最初的特定人、小词汇量、非连续的语音识别到今天的非特定人、大词汇量、连续的语音识别的发展历程，识别的速率和准确率都有极大的提高。,目前语音识别的主要应用是通过TTS（文本语音转换器）和SR（语音识别器）实现的。,（一）文本语音转换器TTS,综合,就是通过分析单词，由计算机确认

25、单词的发音，然后这些音素就被输入到一个复杂的模拟人声音并发声的算法中进行处理。通过这种方式就能读出任何单词。,连贯,他分析文本并从预先录好的文库中抽出单词和词组的录音。数字化录音是连贯的，因为声音就是你所录制的，听起来很舒服。但是，如果文本包含有你所没有录的词和短语，就读不出来了。,（二）语音识别器,每个语音识别器都必须解决下列一些问题。,连续性与不连续性词汇量口音识别规则句式和自由句式识别速度的快慢与准确率的高低,（三）语音识别系统的类型,特定人语音识别系统,特定人的识别系统精明的足以能了解说话者的语音特点。只有在讲话者用特定单词组形成的词汇表训练系统后，他才能识别。特定人系统的优点是它是可训练的，系统灵活。特定人系统的缺点是有一个用户训练的系统不能被另一用户使用。,非特定人语音识别系统,非特定人识别系统可识别任何用户的语音，他不需要任何来自用户的训练。,孤立词语音识别系统,孤立词语音识别系统，一次只提供一个单一词的识别，用户必须把输入的每个词用暂停分开。,连续词语音识别系统,连续语音识别系统,