音频信号和声卡.ppt

上传人：小飞机

文档编号：6378930

上传时间：2023-10-22

格式：PPT

页数：50

大小：405.50KB

《音频信号和声卡.ppt》由会员分享，可在线阅读，更多相关《音频信号和声卡.ppt（50页珍藏版）》请在三一办公上搜索。

1、第一章多媒体技术基础,4.1 音频编码基础4.2 音频信号处理的方法 4.3 音频编码标准4.4 声卡的组成和工作原理4.5 语音合成技术及应用4.6 语音识别技术及应用,4.1音频编码基础声音根据其内容可分为波形声音、语音和音乐。波形声音实际上是数字化了的声音，实际上它包括了所有的声音形式。计算机处理的声音信号都是经过离散化了的信号，因此通常又称为音频信号。,4.1 音频编码基础,1、声音是一种连续的波时间和幅度上的连续性由于人的耳朵能够判别出声波达到左右耳的相对时差、声音强度，声音能够判别出声音的来源。同时由于声音的来回反射，而造成声音的空间效果。例如我们在剧场中听到的声音和在公园中听

2、到的声音效果是不一样的。,声音信号的特点,2.声音的分类不规则音频一般指不包含任何信息的噪声。,声音信号的特点,2.声音的分类规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波。因声波是在时间和幅度上都连续变化的量，我们称之为模拟量。,用声音录制软件记录的英文单词“Hello”的语音实际波形,声音信号的特点,规则音频通常又分为语音、音乐和音效。语音是指具有语言内涵和人类约定俗成的特殊媒体。音乐是规范的、符号化了的声音。音效是特指人类熟悉的其它声音，如动物和机器产生的声音、自然界的风电的声音等。,声音信号的特点,3.声音的三要素,1）音调：代表了声音的高低。音调与频率有关，频率

3、越高，音调越高，反之亦然。读者也许有这样的经验，当提高磁带录音机的转速时，其旋转加快，声音信号的频率提高，其喇叭放出来声音的音调提高了。同样，在使用音频处理软件对声音的频率进行调整时，也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调，如果改变了某种声源的音调，则声音会发生质的转变，使人们无法辨别声源本来的面目。,2）音色：即特色的声音。声音分纯音和复音两种类型。所谓纯音，是指振幅和周期均为常数的声音；复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中，最低频率的声音是“基音”，它是声音的基调。其他频率的声音称为“谐音”，也叫泛音。基音和谐音是构成

4、声音音色的重要因素。各种声源都具有自己独特的音色，例如各种乐器的声音、每个人的声音、各种生物的声音等，人们就是依据音色来辨别声源种类的。,3）音强：声音的强度，也被称为声音的响度，常说的“音量”也是指音强。音强与声波的振幅成正比，振幅越大，强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的，通过播放设备的音量控制，可改变聆听时的响度。,音频信号的处理方法,模拟信号与数字信号数字域内对声音处理的优点不受时间和环境变化影响表示部件功能的数学运算容易实现可以方便实现对数字运算部件的编程数字化的概念,音频文件的存储格式,1、WAV文件：又称为波形文件，文件的扩展名是“.wav”。

5、是Windows系统上使用最广泛的音频文件格式。通常用于保存无压缩的音频信息，它可以重现各种声音，但产生的文件很大,多用于存储简短的声音片断。WAV符合资源互换文件格式（RIFF），因此该文件里面的每段数据可以有单独的标识，通过这些标识，计算机就知道它真实的数据格式，所以WAV存放的音频压缩格式有许多种。当用Windows里的媒体播放器放一个WAV文件，如果无法播放，这往往是因为此文件使用了其他的压缩编码格式。,音频文件的存储格式,2、VOC 文件：VOC文件是Creative公司所使用的标准音频文件格式，多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音

6、数据，被Windows平台和DOS平台所支持。VOC 文件也是一种数字声音文件，与波形文件相似，可以方便地互相转换。,音频文件的存储格式,3、MPEG音频文件.MP1/.MP2/.MP3：这里的音频文件格式指的是MPEG标准中的音频部分，即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩，根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3)，分别对应MP1、MP2和MP3这三种声音文件；MPEG音频编码具有很高的压缩率，MP1和MP2的压缩率分别为41和6181，而MP3的压缩率则高达101121，也就是说一分钟CD

7、音质的音乐，未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。,音频文件的存储格式,4、RealAudio文件.RA/.RM/.RAM RealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式；它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中，主要用于在低速率的广域网上实时传输音频信息；网络连接速率不同，客户端所获得的声音质量也不尽相同：对于28.8kb/s的连接，可以达到广播级的声音质量；如果拥有ISDN或更快的线路连接，则可获得CD音质的声音。,音频文件的存

8、储格式,5、AIFF文件.AIF/.AIFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写，是苹果计算机公司开发的一种声音文件格式；被Macintosh平台及其应用程序所支持，其他专业音频软件包也同样支持这种格式。,音频文件的存储格式,6、非波形文件属于合成声音文件，即通过语音合成器产生相应声音的非波形格式的MIDI（Musical Instrument Digital Interface）文件（.MID）。,声音按频率分类：,人类说话声音频率范围：300Hz-3kHz声音质量的频率范围：,声音质量的度量,数字音频的质量与采样频率和量化精

9、度有关。数字音频可分以下几个等级,声音质量的度量（用带宽度量）,声音质量和数据率,507 000Hz,对于音频质量的评价分为客观评定和主观评定。客观评定是通过测量一些特性来评价度量，主要用信噪比(signal to niose ratio，SNR)。广泛使用的是主观评定，以主观意见打分（Mean Opinion ScoreMOS）来度量：,声音质量的度量另外两种方法（主/客观评价）,4.2音频信号压缩技术,音频信号压缩编码的主要依据是人耳的听觉特性，主要有两点：1.人的听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时，强

10、声使弱声难以听到，并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据，来达到压缩数据的目的。,4.2.1 脉冲编码调制,1编码的原理它的原理框图下图所示,模拟信号数字化一般有三个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度；第二步是量化，就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法，但可归纳成两类：一类称为均匀量化，另一类称为非均匀量化。采用的量化方法不同，量化后的数据量也就不同。因此，可以说量化也是一种压缩数据的方法；第三步是编码，就是按一定格式记录采样和量化后的数据。,4.2.1 脉冲编码调制

11、,均匀量化,采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。,非均匀量化,对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔，如图3-5所示。,一个CDDA采用脉冲编码调制PCM编码的实例,首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘，相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化，这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码，即把量化的信号电平转换成二进制码组，就得到了离散的二进制输出数据序列x(

12、n)，n表示量化的时间序列，x(n)的值就是n时刻量化后的幅值，以二进制的形式表示和记录。,4.2.2 增量调制它是一种预测编码技术，是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反。,DM波形示意图,从上图中可以看到，在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象称为增量调制器的“斜率过载”(slope overload)。在输入信号缓慢变化部分，即输入信号与预测信号的差值接近零的区域，增量调制

13、器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granular noise)，这种噪声是不可能消除的。在输入信号变化快的区域，斜率过载是关心的焦点，而在输入信号变化慢的区域，关心的焦点是粒状噪声。,4.2.3 自适应脉冲编码调制,是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是非瞬时自适应，即量化阶的大小在较长时间才发生变化。改变量化阶大小的方法有两种：一种称为前向自适应，后向自适应。前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信

14、息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。,(a)前向自适应,(b)后向自适应,4.2.4 差分脉冲编码调制,是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是，根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值。,差分脉冲编码调

15、制的概念示于图3-9。图中的差分信号d(k)是离散输入信号s(k)和预测器输出的估算值se(k-1)之差。注意，se(k-1)是对s(k)的预测值，,4.2.5 自适应差分脉冲编码调制,综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值,使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图所示。,4.2.6 子带编码,子带编码的基本思想是利用带通滤波器组将信道频带分割成若干个子频带(

16、Subband)，将子频带搬移至零频处进行子带取样，再对每一个子带用一个与其统计特性相适配的编码器进行图像数据压缩。,子带编码由于其本身具备的频带分解特性，非常适合于分辨率可分多级的视频编码。另外，子带编码还有以下优点。(1)一个子带的编码噪声在解码后只局限于该子带内，不会扩散到其他子带。这样，即使有的子带信号较弱，也不会被其他子带的编码噪声所掩盖。,4.2.6 子带编码,(2)可以根据主观视觉特性，将有限的数码率在各个子带之间合理分配，有利于提高图像的主观质量。(3)通过频带分解，各个子带的抽样频率可以成倍下降。,4.2.6 子带编码,子带分解在子带编码系统中，关键技术是正确实现无失真子带的

17、分解和复原。一个一维2子带编码系统的框图如图所示.,4.2.6 子带编码,例如，在低频子带中，为了保护音调就要求用较小的量化阶、较多的量化级数，即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音，通常出现在高频子带中，对它分配较少的位数SBC的方块图如图所示，图中的编码/译码器可以采用ADPCM，APCM或PCM,图子带编码方块图,4.2.6 子带编码,声音频带的分割可用树型结构的式样进行划分首先把整个声音信号带宽分成两个相等带宽的子带：高频子带和低频子带然后对这两个子带用同样的方法划分，形成4个子带这个过程可按需要重复下去，以产生2k个子带，K为分割的次数用这种办法可以产生等带

18、宽的子带，也可以生成不等带宽的子带例如，对带宽为4000 Hz的声音信号，当K=3时，可分为8个相等带宽的子带，每个子带的带宽为500 Hz；也可生成5个不等带宽的子带，分别为0,500),500,1000)，1000,2000),2000,3000)和3000，4000 采用正交镜像滤波器(quadrature mirror filter，QMF)来划分频带,4.2.6 子带编码,4.3 音频编码标准,4.3.1 CCITT G系列声音压缩标准CCITT和ISO先后提出了一系列有关语音数据编译码标准,下面简要介绍几种音频编码技术标准。1电话质量的音频压缩编码技术标准信号频率规定在300Hz3

19、.4kHz，采用标准的脉冲编码调制(PCM)，当采样频率为8kHz，进行8bit量化时，所得数据速率为64kb/s，即一个数字电话。1972年CCITT为电话质量和语音压缩制定了PCM标准G.711，其速率为64Kbs，使用非线性量化技术，主要用于公共电话网中。,4.3 音频编码标准,3.3.1 CCITT G系列声音压缩标准CCITT和ISO先后提出了一系列有关语音数据编译码标准,下面简要介绍几种音频编码技术标准。1电话质量的音频压缩编码技术标准信号频率规定在300Hz3.4kHz，采用标准的脉冲编码调制(PCM)，当采样频率为8kHz，进行8bit量化时，所得数据速率为64kb/s，即一个

20、数字电话。1972年CCITT为电话质量和语音压缩制定了PCM标准G.711，其速率为64Kbs，使用非线性量化技术，主要用于公共电话网中。,2调幅广播质量的音频压缩编码技术标准频率在50Hz一7kHz范围。G.722标准是采用16kHz采样，14bit量化，信号数据速率为224kbits，采用子带编码方法，将输入音频信号经滤波器分成高子带和低子带两个部分，分别进行ADPCM编码，再混合形成输出码流，224kbits可以被压缩成64kbits，最后进行数据插入(最高插入速率达16kbits)，因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号

21、。,3高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50Hz20kHz，采用441kHz采样频率，16bit量化进行数字化转换，其数据速率每声道达705kbits。1991年国际标准化组织ISO和CCITT开始联合制定MPEG标准，其中ISOCDlll72-3作为“MPEG音频”标准，成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz，44.1kHz，32kHz的采样，经滤波器组将其分为32个子带，同时利用人耳屏蔽效应，根据音频信号的性质计算各频率分量的人耳屏蔽门限，选择各子带的量化参数，获得高的压缩比。MPEG第

22、三层次是在上述处理后再引入辅助子带，非均匀量化和熵编码技术，再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32448kbits，适合于CDDA光盘应用。,4.3.2 MP3压缩技术 MP3的全名是MPEG Audio Layer-3，简单地说就是一种声音文件的压缩格式。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案，按照压缩质量(每Bit的声音效果)和编码方案的复杂程度分别是Layer1、Layer2、Layer3。所有这三层的编码采用的基本结构是相同的。它们在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论。也就是通过研究人

23、耳和大脑听觉神经对音频失真的敏感度，在编码时先分析声音文件的波形，利用滤波器找出噪音电平(Noise Level)，然后滤去人耳不敏感的信号，通过矩阵量化的方式将余下的数据每一位打散排列，最后编码形成MPEG的文件。而音质听起来与CD相差不大。,MPEG的层次与压缩比率,3.3.3 MP4压缩技术MP4并不是MPEG-4或者MPEG-1Layer4，它的出现是针对MP3的大众化、无版权的一种保护格式，由美国网络技术公司开发，美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。MP4使用的是MPEG-2 AAC技术也就是俗称的a2b或AAC。其中，MPEG-2是MPEG于1994年11月

24、针对数码电视(数码影像)提出的。它的特点就是，音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采样率为896KHz下提供了148个声道可选范围的高质量音频编码。AAC就是Advanced Audio Coding(先进音频编码)的意思，适用于从比特率在8kbit/s单声道的电话音质到160kbit/s多声道的超高质量音频范围内的编码，并且允许对多媒体进行编码/解码。,AAC与MP3相比，增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪优异等MP3没有的特性，使得在音频压缩后仍能完美的再现CD音质。AAC技术主要由以下三个部分组成。

25、第一，AT&T的音频压缩技术专利。它可以将AAC压缩比提高到20:1而不损失音质。这样，一首3分钟的歌仅仅需要2.25MB，这在互联网上的下载速度是很惊人的。第二、安全数据库。它可以为你的AAC Music创建一个特定的密钥，将此密钥存于其数据库中。同时，只有AAC的播放器才能播放含有这种密钥第三、协议认证。这个认证包含了复制许可、允许复制副本数目、歌曲总时间、歌曲可以播放时间以及售卖许可等信息。,MP4技术的优越性要远远高于MP3，因为它更适合多媒体技术的发展以及视听欣赏的需求。但是，MP4是一种商品，它利用改良后的MPEG-2 AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准；而MP3是一种自由音乐格式，任何人都可以自由使用。此外，MP4实际上是由音乐出版界联合授意的官方标准；MP3则是广为流传的民间标准。相比之下，MP3的灵活和自由度要远远大于MP4，这使得音乐发烧友们更倾向于使用MP3。更重要的一点是，MP3是目前最为流行的一种音乐格式，它占据着大量的网络资源，这使得MP4的推广普及难上加难。,