《多媒体声音》PPT课件.ppt

上传人：小飞机

文档编号：5488982

上传时间：2023-07-12

格式：PPT

页数：58

大小：1.05MB

《《多媒体声音》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《多媒体声音》PPT课件.ppt（58页珍藏版）》请在三一办公上搜索。

1、第三部分声音,声音是携带信息的极其重要的媒体，是多媒体技术研究中的一个重要内容。声音的种类繁多。本章将介绍声音的相关知识。,3.1声音与听觉器官,声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号，如图所示。声波具有普通波所具有的特性，如反射、折射和衍射等。,3.1声音与听觉器官,对声音信号的分析表明，声音信号由许多频率不同的信号组成，这类信号称为复合信号，而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽，它用来描述组成复合信号的频率范围。,高保声音信号(high-

2、fidelity audio)的频率范围为20 Hz20000 Hz，它的带宽约为20 kHz，而视频信号的带宽是6 MHz。,3.1声音与听觉器官,声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数，用Hz表示。,例如，大气压的变化周期很长，以小时或天数计算，一般人不容易感到这种气压信号的变化，更听不到这种变化。对于频率为几Hz到20 Hz的空气压力信号，人们也听不到，如果它的强度足够大，也许可以感觉到。,3.1声音与听觉器官,人们把频率小于20 Hz的信号称为亚音信号，或称为次音信号(subsonic)；频率范围为20 Hz20 kHz的信号称为音频(Audio)信号；

3、虽然人的发音器官发出的声音频率大约是803400 Hz，但人说话的信号频率通常为3003000 Hz，人们把在这种频率范围的信号称为话音(speech)信号；高于20 kHz的信号称为超音频信号，或称超声波信号。超音频信号具有很强的方向性，而且可以形成波束，在工业上得到广泛的应用，如超声波探测仪，超声波焊接设备等就是利用这种信号。在多媒体技术中，处理的信号主要是音频信号，它包括音乐、话音、风声、雨声、鸟叫声、机器声等。,3.1声音与听觉器官,人们是否都能听到音频信号，这主要取决于各个人的年龄和耳朵的特性。一般来说，人的听觉器官能感知的声音频率大约在2020000 Hz之间，在这种频率范围里感

4、知的声音幅度大约在0120 dB之间。人的听觉器官对声音的感知还有一些重要特性，这些特性将在MPEG声音中介绍，它们在音频数据压缩中已经得到广泛的应用。,3.2声音信号的数字化,3.2.1从模拟过渡到数字数字精度高，模拟精度低。3.2.2模拟信号与数字信号话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。,3.2.3声音信号的数字化,在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling)，由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个，因此幅度还是连续的。如果把信号幅度取值的数目加以限定，这种由有限个数值组成的信号就称为离

5、散幅度信号。,3.2.3声音信号的数字化,我们把时间和幅度都用离散的数字表示的信号就称为数字信号。声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散化通过采样来实现，就是每隔相等的一小段时间采样一次，这种采样称为均匀采样；连续幅度的离散化通过量化来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。,3.2.3声音信号的数字化,声音数字化需要回答两个问题：每秒钟需要采集多少个声音样本，也就是采样频率(fs)是多少，每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。,3.2.4采样

6、频率,采样频率的高低是根据奈奎斯特理论和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音。采样定律用公式表示为 fs 2f 或者 Ts T/2其中f为被采样信号的最高频率。可以这样来理解奈奎斯特理论：声音信号可以看成由许许多多正弦波组成的，一个振幅为A、频率为f的正弦波至少需要两个采样样本表示，因此，如果一个信号中的最高频率为fMAX,采样频率最低要选择2 fMAX。例如，电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。,3.2.5采样精度,样本大小是用每个声音样本的位数bit/s(即bps)表示

7、的，它反映度量声音波形幅度的精度。例如，每个声音样本用16位(2字节)表示，测得的声音样本值是在065536的范围里，它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。,3.2.5采样精度,采样精度的另一种表示方法是信号噪声比，简称为信噪比(SNR)，并用下式计算：SNR 10 log(Vsignal)2/(Vnoise)220 log(Vsignal/Vnoise)其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(dB)。例1：假设Vnoise1，

8、采样精度为1位表示Vsignal21，它的信噪比SNR6分贝。例2：假设Vnoise1，采样精度为16位表示Vsignal216，它的信噪比SNR96分贝。,3.2.6 声音质量与数据率,根据声音的频带，通常把声音的质量分成5个等级，由低到高分别是电话、调幅(AM)广播、调频(FM)广播、激光唱盘(CD-Audio)和数字录音带(DAT)的声音。在这5个等级中，使用的采样频率、样本精度、通道数和数据率列于下表,3.2.6 声音质量与数据率,3.3 声音文件的存储格式,如同存储文本文件一样，存储声音数据也需要有存储格式。在因特网上和各种机器上运行的声音文件格式很多，但目前比较流行的有以.wav(

9、waveform)，.au(audio)，.aiff(Audio Interchangeable File Format)和.snd(sound)为扩展名的文件格式。.wav格式主要用在PC上，.au主要用在Unix工作站上，.aiff和snd主要用在苹果机和美国视算科技有限公司(SGI)的工作站上。,3.3 声音文件的存储格式,用.wav为扩展名的文件格式称为波形文件格式，它在多媒体编程接口和数据规范文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的，它是一种为交换多媒体资源而开发的资源交换文件格式。WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，采用44

10、.1kHz的采样频率，16位量化位数，跟CD一样，对存储空间需求太大不便于交流和传播。,3.3 声音文件的存储格式,波形文件有许多不同类型的文件构造块组成，其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数，例如采样频率和样本精度等，声音数据块则包含有实际的波形声音数据。规范中的其他文件块是可选择的。,3.3 声音文件的存储格式,3.4声音工具,Windows本身自带的工具-录音机,3.4声音工具,买声音卡时带的工具,3.4声音工具,网络上下载的工具,3.4声音工具,网络上下载的工具,3.4声音工具,网

11、络上下载的工具,3.5 声音质量的度量,声音质量的评价是一个很困难的问题，目前还在继续研究的课题。前面介绍了用声音信号的带宽来衡量声音的质量，等级由高到低依次是DAT，CD，FM，AM和数字电话。声音质量的度量还有两种基本的方法：一种是客观质量度量，另一种是主观质量度量。评价语音质量时，有时同时采取两种方法评估，有时以主观质量度量为主。,3.5 声音质量的度量,声音客观质量的度量主要用信噪比(SNR)与用SNR客观质量度量相比较，应该可以说人的感觉(如听觉、视觉等)更具有决定意义，感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为，在语音和图像信号编码中使用主

12、观质量度量比使用客观质量度量更加恰当，更有意义。可是一般来说，可靠的主观度量值也是比较难获得的，所获得的值也是一个相对值。,3.5 声音质量的度量,主观度量声音质量的方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现进行评分，然后求出平均值。对声音质量的度量也可以使用类似的方法，召集若干实验者，由他们对声音质量的好坏进行评分，求出平均值作为对声音质量的评价。这种方法称为主观平均判分法，所得的分数称为主观平均(MOS)分。,3.6乐器数字接口（MIDI）,3.6.1 MIDI简介乐器数字接口(Musical Instrument Digital Interface，MIDI)是用于在音乐合成

13、器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始，MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言，是一套指令(即命令的约定)，它指示乐器即MIDI设备要做什么，怎么做，如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。,3.6乐器数字接口（MIDI）,3.6.1 MIDI简介MIDI标准之所以受到欢迎，主要是它有下列几个优点：生成的文件比较小，因

14、为MIDI文件存储的是命令，而不是声音波形；容易编辑，因为编辑命令比编辑声音波形要容易得多；可以作背景音乐，因为MIDI音乐可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果。,3.6乐器数字接口（MIDI）,3.6.1 MIDI简介产生MIDI乐音的方法很多，现在用得较多的方法有两种：一种是(frequency modulation，FM)合成法，另一种是乐音样本合成法，也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。,3.6.2 FM合成声音,音乐合成器的先驱Robert Moog采用了模拟电子器件生成了复杂的乐音。20世纪80年代初，

15、美国斯坦福大学(Stanford University)的一名叫John Chowning的研究生发明了一种产生乐音的新方法，这种方法称为数字式频率调制合成法，简称为FM合成器。他把几种乐音的波形用数字来表达，并且用数字计算机而不是用模拟电子器件把它们组合起来，通过数模转换器(DAC)来生成乐音。斯坦福大学得到了发明专利，并且把专利权授给Yamaha公司，该公司把这种技术做在集成电路芯片里，成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。,3.6.2 FM合成声音,FM合成器生成乐音的基本原理如图所示。它由5个基本模块组成：数字载波器、调制器、声音包络发生器、数字运算器

16、和模数转换器。数字载波器用了3个参数：音调(pitch)、音量(volume)和各种波形(wave)；,3.6.2 FM合成声音,调制器用了6个参数：频率(frequency)、调制深度(depth)、波形的类型(type)、反馈量(feedback)、颤音(vibrato)和音效(effect)；,3.6.2 FM合成声音,乐器声音除了有它自己的波形参数外，还有它自己的比较典型的声音包络线，声音包络发生器用来调制声音的电平，这个过程也称为幅度调制(AM)，并且作为数字式音量控制旋钮，它的4个参数写成ADSR，这条包络线也称为音量升降维持静音包络线(ADSR)包络线。,3.6.2 FM合成声音

17、,在乐音合成器中，数字载波波形和调制波形有很多种，不同型号的FM合成器所选用的波形也不同。下图是Yamaha OPL-III数字式FM合成器采用的波形。,3.6.2 FM合成声音,各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音，这就是FM合成器的算法。,3.6.2 FM合成声音,通过改变图中所示的参数，可以生成不同的乐音，例如：改变数字载波频率可以改变乐音的音调，改变它的幅度可以改变它的音量。改变波形的类型，如用正弦波、半正弦波或其它波形，会影响基本音调的完整

18、性。快速改变调制波形的频率(即音调周期)可以改变颤音的特性。改变反馈量，就会改变正常的音调，产生刺耳的声音。选择的算法不同，载波器和调制器的相互作用也不同，生成的音色也不同。,3.6.2 FM合成声音,在多媒体计算机中，声音参数和算法这些控制参数以字节的形式存储在声音卡的ROM中。播放某种乐音时，计算机就发送一个信号，这个信号被转换成ROM的地址，从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是否真实，它的真实程度有多高，这就取决于可用的波形源的数目、算法和波形的类型。,3.6.3 乐音样本合成声音,使用FM合成法来产生各种逼真的乐音是相当困难的，有些乐音几乎不能

19、产生，因此很自然地就转向乐音样本合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来，播放时改变播放速度，从而改变音调周期，生成各种音阶的音符。乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符，选择44.1 kHz的采样频率、16位的乐音样本，这相当于CD-DA的质量，把不同音符的真实声音记录下来，这就完成了乐音样本的采集。,3.6.3 乐音样本合成声音,乐音样本通常放在ROM芯片上，ROM是超大规模集成电路(VLSI)芯片。使用乐音样本合成器的原理框图如图所示。乐音样本合成器所需要的输入控制参数比较少，可控的数字音效也不多，大多数采用这种合成方法的声音设备都可以控制声音包

20、络的ADSR参数，产生的声音质量比FM合成方法产生的声音质量要高。,3.6.4MIDI系统,MIDI协议提供了一种标准的和有效的方法，用来把演奏信息转换成电子数据。MIDI信息是以“MIDI messages”传输的，它可以被认为是告诉音乐合成器(music synthesizer)如何演奏一小段音乐的一种指令，而合成器把接收到的MIDI数据转换成声音。国际MIDI协会出版的MIDI 1.0规范对MIDI协议作了完整的说明。,3.6.4MIDI系统,MIDI数据流是单向异步的数据位流其速率为31.25 kbps，每个字节为10位(1位开始位，8位数据位和1位停止位)。MIDI乐器上的MIDI接

21、口通常包含3种不同的MIDI连接器，用IN(输入),OUT(输出)和THRU(穿越)。,3.6.4MIDI系统,MIDI数据流通常由MIDI控制器产生，如乐器键盘，或者由MIDI音序器产生。MIDI控制器是当作乐器使用的一种设备，在播放时把演奏转换成实时的MIDI数据流，MIDI音序器是一种装置，允许MIDI数据被捕获、存储、编辑、组合和重奏。,3.6.4MIDI系统,通常，MIDI数据流的接收设备是MIDI声音发生器或者MIDI声音模块，它们在MIDI IN端口接收MIDI信息，然后播放声音。下图表示的是一个简单的MIDI系统，它由一个MIDI键盘控制器和一个MIDI声音模块组成。许多MID

22、I键盘乐器在其内部既包含键盘控制器，又包含MIDI声音模块功能。在这些单元中，键盘控制器和声音模块之间已经有内部链接，这个链接可以通过该设备中的控制功能(local control)对链接打开(ON)或者关闭(OFF)。,3.6.4MIDI系统,单个物理MIDI通道分成16个逻辑通道，每个逻辑通道可指定一种乐器，如图所示。在MIDI消息中，用4个二进制位来表示这16个逻辑通道。音乐键盘可设置在这16个通道之中的任何一个，而MIDI声源或者声音模块可被设置在指定的MIDI通道上接收。,在一个MIDI设备上的MIDI IN连接器接收到的信息可通过MIDI THRU连接器输出到另一个MIDI设备，并

23、可以菊花链的方式连接多个MIDI设备，这样就组成了一个复杂的MIDI系统,3.6.4MIDI系统,MIDI键盘控制器对MIDI音序器来说是一个输入设备，而音序器的MIDI OUT端口连接了几个声音模块。作曲家可使用这样的系统来创作几种不同乐音组成的曲子，每次在键盘上演奏单独的曲子。这些单独曲子由音序器记录下来，然后音序器通过几个声音模块一起播放。每一曲子在不同的MIDI通道上播放，而声音模块可分别设置成接收不同的曲子。,3.6.4MIDI系统,例如，声音模块1可设置成播放钢琴声并在通道1接收信息，模块2设置成播放低音并在通道5接收信息，而模块2设置成播放鼓乐器并在通道10上接收消息等。在图中使

24、用了多个声音模块同时分别播放不同的声音信息。这些模块也可以做在一起构成一个叫做多音色的声音模块，它同样可以起到同时接收和播放多种声音的作用。,3.6.4MIDI系统,用PC机构造的MIDI系统使用的声音模块就是这样一种单独的多音色声音模块。在这个系统中，PC机使用内置的MIDI接口卡，用来把MIDI数据发送到外部的多音色MIDI合成器模块。像多媒体演示程序、教育软件或者游戏等应用软件，它们把信息通过PC总线发送到MIDI接口卡。MIDI接口卡把信息转换成MIDI消息(MIDI messages)，然后送到多音色声音模块同时播放出许多不同的乐音，例如钢琴声、低音和鼓声。使用安装在PC机上的高级的

25、MIDI音序器软件，用户可把MIDI键盘控制器连接到MIDI接口卡的MIDI IN端口，也可以有相同的音乐创作功能。,3.6.4MIDI系统,使用PC机构造MIDI系统可以有不同的方案。例如，可把MIDI接口和MIDI声音模块组合在PC添加卡上。多媒体个人计算机MPC(Multimedia PC)规范就要求PC添加卡上必须有这样的声音模块，称为合成器(synthesizer)。通过已有的电子波形来产生声音的合成器称为FM合成器(FM synthesis)，而通过存储的乐音样本来产生声音的合成器称为波表合成器(wave table synthesis)。,3.6.4MIDI系统,MPC规格需要声

26、音卡的合成器是多音色(muti-timbral)和多音调(polyphonic)的合成器。多音色是指合成器能够同时播放几种不同乐器的声音，音色就是把一个人说话(或一种乐器)的声音与另一个人说话(或另一种乐器)的声音区分开来的音品；多音调是指合成器一次能够播放的音符(note)数。MPC规格定义了两种音乐合成器：基本合成器(Base-level synthesizer)和扩展合成器(Extended synthesizer)，基本合成器和扩展合成器之间的差别如下表所示,3.6.4MIDI系统,3.6.5 MIDI消息,MIDI设备使用的一系列MIDI音符，可被认为是告诉音乐合成器如何播放一小段音

27、乐的指令。因为MIDI数据是一套音乐符号的定义，而不是实际的音乐声音，因此MIDI文件的内容被称为MIDI消息。,3.6.5 MIDI消息,一个MIDI消息由1个8位的状态字节并通常跟着2个数据字节组成。在状态字节中，最高有效位设置成“1”，低4位用来表示这个MIDI消息是属于哪个通道，4位可表示16个可能的通道，其余3位的设置表示这个MIDI消息是什么类型的消息。MIDI消息可分成通道消息和系统消息两大类。,3.6.5 MIDI消息,MIDI通道消息可分成通道声源消息携带的演奏数据；通道方式消息表示合成器响应MIDI数据的方式；MIDI系统消息分成公共消息标识在系统中的所有接收器；实时消息用

28、于MIDI部件之间的同步；独占消息厂商的标识代码。,3.6.6 MIDI音序器和标准MIDI文件,MIDI合成器实时接收和处理MIDI消息。当合成器接收到一个“note on(乐音开)”MIDI消息时就演奏相应的声音，当接收到一个“note off(乐音关)”MIDI消息时就停止演奏。如果MIDI数据源是乐器键盘，“note on”消息就实时产生，在像这样的实时应用中，就无需与MIDI消息一起发送一个定时信息。,3.6.6 MIDI音序器和标准MIDI文件,国际MIDI协会出版了标准MIDI文件(Standard MIDI Files)规范，该标准说明了处理定时标记MIDI数据的一种标准化方法

29、。这种方法适合各种应用软件共享MIDI数据文件，这些软件包括音序器、乐谱软件包和多媒体演示软件。,3.6.6 MIDI音序器和标准MIDI文件,标准MIDI文件规范定义了3种MIDI文件格式，MIDI音序器能够管理文件标准规定的多个MIDI数据流，即声轨(tracks)。MIDI文件格式0(Format 0)规定所有MIDI音序数据(MIDI sequence data)必须存储在单个声轨上，它仅用于简单的单声轨设备；MIDI文件格式1(Format 1)规定数据以一个声轨集的方式存储；MIDI文件格式2(Format 2)可用几个独立模式存储数据。,练习与思考题,音频信号的频率范围大约多少？话音信号频率范围大约多少？什么叫做模拟信号？什么叫做数字信号？什么叫做采样？什么叫做量化？什么叫做线性量化？什么叫做非线性量化？采样频率根据什么原则来确定？样本精度为8位的信噪比等于多少分贝？声音有哪几种等级？它们的频率范围分别是什么？选择采样频率为22.050 kHz和样本精度为16位的录音参数。在不采用压缩技术的情况下，计算录制2分钟的立体声需要多少MB(兆字节)的存储空间(1MB=10241024B)什么叫做MIDI？它有什么特点？用自己的语言说明FM合成声音和乐音样本合成声音的思想。,