《音频处理》PPT课件.ppt
第2章 音频处理,人耳能识别的声音频率范围大约在2020k Hz,通常称为音频(audio)信号。人的发音器官发出的声音范围大约在803400Hz,但人说话的信号频率通常为3003000Hz,称为语音(speech)信号。低于20Hz的信号称为次声波(subsonic),高于20k Hz称为超声波(ultrasonic)。次声波和超声波人耳都无法听到。,声音的频率范围,计算机音频处理涉及的内容包括:音频传播媒体特征,也即声波的物理特性。音频的记录和产生方式,包括模/数、数/模转换;数据压缩和声音合成。音频数据的编辑处理。对音频信号的处理方法大致可分为三类:波形编译码器,音源编译码器,混合编译码器。,第1节 音频信号,一.声音的特征,振幅,周期,基线,基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率反映出声音的音调,声音细尖表示频率高,声音粗低表示频率低。,正弦波有两个重要参数:频率0、幅度An。声音的三个要素是音调、音量和音色。声音有以下一些特点:1.音调:声音的高低。音调正是由频率所决定的。频率越高音调越高(频率单位Hz)2.音量:人主观上感觉声音的大小,以分贝(dB)为单位。,3.音色:音色是声音的特色,根据不同的音色,即使在同一音调和同一声量的情况下,也能区分出是不同乐器或人声发出的。,二、音频数字化 模拟信号:时间上连续,幅值上也连续的信号。数字信号:时间上和幅值上都用离散的数字表示的信号。A/D变换:把连续变化的模拟信号转换成数字信号。A/D变换一般要由两步完成:采样和量化。,(1)采样 采样是将时间上、幅值上都连续的模拟信号,在采样脉冲的作用,转换成时间上离散、但幅值上仍连续的离散模拟信号。每秒钟的采样样本数叫做采样频率。奈奎斯特理论:只有当采样频率高于声音信号最高频率的两倍时,才能把离散模拟信号表示的声音信号唯一地还原成原来的声音。目前在多媒体系统中捕获声音的标准采样频率定为44.1kHz、22.05kHz和11.025kHz三种。,(2)量化 所谓量化就是把采集到的数值送到量化器(A/D转换器)编码成数字,每个数字代表一次采样所获得的声音信号的瞬间值。目前常用量化数据位来表示量化级,例如数据位为8位,则表示28个量化级,最高量化级有216个(=65536个)等级。量化噪声:量化过程存在量化误差,反映到接收端,这种误差作为噪声再生。,(c)采样信号的量化,(a)模拟音频信号,(b)音频信号的采样,数字化音频的过程:采样和量化,采样时的声道数有单声道和双声道两种。AV文件的数据量的计算公式:数据量=采样频率(Hz)采样精度(位)声道数 8(dB)计算:用44.1kHz采样频率采样,每个样本使用16位采样精度存储,则录制一分钟的立体声节目,音频WAV文件的存储量?使用22.05kHz的采样频率和8位采样精度,录制一分钟调幅音频的WAV文件存储量?,三.数字音频技术指标 1采样频率:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。2量化位数:量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。,3声道数:有单声道、双声道、多声道之分。,三、常见声音文件的格式 常见的声音文件为:WAV文件、VOC文件、AU文件和MID文件。(1)WAV声音文件格式:WAV文件是从模拟声波采样后得到的一种波形文件,使用于Windows操作系统,其格式是由文件首部与文件数据块组成。(2)VOC声音文件格式:VOC文件是用于DOS操作系统下的一种波形文件。(3)AU声音文件格式:用于UNIX操作系统下的一种波形文件。(4)MID文件格式:MID文件是一种记录数字化音乐的MIDI文件。,四.音频信号的指标 1.频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。,2动态范围:动态范围越大,信号强度的相对变化范围越大,音响效果越好。3信噪比:信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。4主观度量法:人的感觉机理对声音的度量最有决定意义。声音的质量分为了五个等级,由低到高分别是:电话(telephone)、调幅广播(AM)、调频广播(FM)、光盘(CD)、数字录音带(DAT),第2节 音频数字压缩,一音频压缩编码技术 主要有以下几种主要类型:1熵编码:如Huffman编码、算术编码以及行程编码等。,2波形编码:波形编码的特点是在高码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。(脉冲编码调制(PCM),实际为直接对声音信号作AD转换。只要采样频率足够高,量化位数足够多,就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM),即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM),是DPCM方法的进一步改进,通过调整量化步长,对不同频段设置不同的量化字长,使数据得到进一步的压缩。),3.参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。此类方法构成声码器的有线性预测(LPC)声码器、通道声码器、共振峰声码器等。4混合编码:音频中采用的混合编码包括多脉冲线性预测MP-LPC,矢量和激励线性预测VSELP,码本激励线性预测CELP,短延时码本激励线性预测编码LD-CELP,以及规则码激励长时预测RPELTP等。,5感知编码:不是利用波形本身的相关性和模拟人的发音器官的特征,而是利用人的听觉系统的特征来达到压缩声音数据的目的。书上将这五种编译码器分为了三类:波形编译码器音源编译码器混合编译码器音频数字压缩编码算法及其特性(见word文档),二.音频编码技术标准(一)电话质量的音频压缩编码技术标准 1972年CCITT(现称为ITU-T)制定了PCM标准G.711,速率为64kbit/s,采用非线性量化律或A律,其质量相当于12bit线性量化。1984年CCITT公布了自适应差分脉冲编码调制ADPCM标准G.721,速率为32kbit/s。1992年CCITT制定了短时延码本激励线性预测编码LD-CELP的标准G.728,速率16kbit/s,其质量与32kbit/s的G.721标准基本相当。,其它语音相关标准:G.723:一种ITU-T 推荐标准 用于传输速率在5.36.4 kbps之间多媒体通信传输的双速率语音编码器。H.222:ITU-T 推荐标准,规定了运动图片及相关音频信息的通用编码。H.242:ITU-T的H.320 协议族中视频互操作推荐标准部分。它规定了建立一个音频会话和在通信终止后结束该会话的协议。H.324:一个ITU-T 标准。它在模拟电话线(POTS)上提供了点对点的数据、视频和音频会议。T.120:ITU-T的“多媒体数据传输协议”,一种数据共享/数据会议规范,使用户能通过任何H.32x 可视会议共享文件。,(二)调幅广播质量的音频压缩编码技术标准 CCITT在1988年制定了 G.722标准。G.722标准是采用16kHz采样,14blt量化,信号数据速率为224kbits,采用子带编码方法。利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。,(三)高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是50Hz20kHz,采用441kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705kbits。MPEG小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,用于活动图象、相关声音信息及其结合,和用数字存储媒体(DSM)存储与重现。,MPEG声音:MPEG声音使用感知声音编码听觉系统的感知特性:响度:听阈、痛阈音高:掩蔽效应:(频域掩蔽、时域掩蔽)MPEG音频与感知特性MPEG音频数据压缩主要依靠使用“心理学模型”(概念)MPEG音频采纳两种感知编码:感知子带编码和AC-3编码,MPEG-1于1992年11月完成,成为国际上公认的高保真立体声音频压缩标准,音频压缩技术的数据速率为每声道32448kbits,适合于CDDA光盘应用。MPEG-2由两部分组成,MPEG-2音频和MPEG-2 AAC。MPEG-4 Audio标准可集成从话音到高质量的多通道声音,从自然声音到合成声音。MPEG-7 Audio标准(ISO/IEC 15938-3)提供了音频描述工具。,第3节 MPEG-1音频,一MPEG-1音频标准 MPEG-1音频编码标准包括三部分,分别对应第1,2和3层(Layer 1,2,3)。层1编码器的输出数据率为384 kbps,主要用于小型数字合式磁带DCC。层2编码器的输出数据率为256 kbps192 kbps,其应用包括数字广播声音DBA、数字音乐、CD-I和VCD等。层3编码器的输出数据率为64 kbps,主要应用于ISDN上的声音传输。,二、子带编码MPEG-1 Audio的编码对象是2020000Hz的带宽声音,采用了感知子带编码。具体思想:首先将时域中声音数据变换到频域,对频域内的子带分量分别进行量化和编码,根据心理学模型确定样本的精度,从而达到压缩数据量的目的。理论依据是听觉系统的掩蔽特性,并且主要利用频域掩蔽特性。,三声音编码系统基本结构,MPEG/AUDIO编解码器基本框架,四滤波器组 用于高质量声音信号编码的最常见的滤波器组简要概述:QMF-Tree 滤波器组 多相滤波器组 加正弦锥型窗的DFT、DCT 修正离散余弦变换MDCT 混合结构,多相滤波器组把输入信号变换到32个频域子带中去。子带的划分方法有两种,一种是线性划分,另一种是非线性划分。对音频带的划分采用非线性划分,五通用编码概念 在所有三层中声音信号都要从时域变换到频域。此变换由多相滤波器组完成。对于第1层和第2层,滤波器组生成代表输入声音码流的32个子带变换值,然后由心理声学模型推算出自适应比特分配信息,来控制它们的量化和编码。第1层是 MUSICAM编码方案的简化版本,特别适合那些不要求很低码率的应用。第1层的子带是频带相等的子带,心理学模型仅使用频域掩蔽特性。,第2层在比例因子、去除冗余和不相关方面采用了进一步的压缩算法,并使用了更精确的量化。在声音广播、电视、录音、通信和多媒体等民用和音频专业领域都有许多应用。第2层的心理学模型使用频域掩蔽特性和时域掩蔽特性,并且在低中高频段对位分配作了一些限制,对位分配、比例因子和量化样本值的编码也更紧凑。,在第3层中,采用了非均匀量化、自适应分段、量化值熵编码,以提高编码效率。这一层广泛适用于通信领域,尤其是窄带的ISDN和要求很低码率的专业领域。第3层的心理学模型使用频域掩蔽特性和时域掩蔽特性,还考虑了立体声数据的冗余,并且使用了霍夫曼编码器。,第4节 MPEG-2音频,MPEG-2标准委员会定义了两种声音数据压缩格式。一种称为MPEG-2Audio,又称为MPEG-2 BC(Backward Compatible,后向兼容)。另一种称为MPEG-2 AAC(先进的音频编码),通常称为非后向兼容标准。,一.MPEG-2音频特点 和MPEG-1音频相比,MPEG-2音频主要增加了三个方面的内容:(1)增加了声道数,支持5.1声道和7.1声道的环绕声。,5.1声道立体环绕声,7.1声道立体环绕声,(2)扩展了编码器的输出速率范围。(3)增加了低取样和低码率。MPEG-2多声道声音编码标准和现有的MPEG-1音频标准保持后向兼容。在对原有的MPEG-1两声道增加独立的环绕声道时,MPEG-2尽量保持和MPEG-1音频语法的兼容性,MPEG-2中的主声道(左、右)仍然保持后向兼容,而环绕声道采用新的编码方法和语法。,二.MPEG-2 AAC 特性:(1)MPEG-2 AAC主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。(2)AAC支持的采用频率可从8 kHz到96 kHz,AAC编码器的音源可以是单声道的、立体声的和多声道的声音。,(3)AAC标准可支持48个主声道、16个低频音效加强通道、16个配音声道和16个数据流。(4)MPEG-2 AAC在压缩比为11:1,5声道的总数据率为320 kbps的情况下,很难区分还原后的声音与原始声音之间的差别。与MPEG的层2相比,MPEG-2 AAC的压缩率可提高1倍,而且质量更高,与MPEG的层3相比,在质量相同的条件下数据率是它的70。,MPEG-2 AAC编码和解码的基本结构 开发MPEG-2 AAC标准采用的方法是模块化的方法:把整个AAC系统分解成一系列模块,用标准化的AAC工具对模块进行定义,因此在文献中往往把“模块(modular)”与“工具(tool)”等同对待。,编码器框图,MPEG-2 AAC的三种配置(Profiles)(a)基本配制(Main Profile)(b)低复杂性配制(Low Complexity Profile)(c)可变采样率配制(Scalable Sampling Rate Profile),三AC-3编码 AC-3(Audio Code Number 3)是Dolby公司的数字声音数据压缩算法,MPEG-2音频支持它。AC-3的主要特点是利用人的听觉系统特性来压缩声音数据,并支持5个声道,声音样本的精度为20比特,每个声道的采样率可以是32 kHz,44.1 kHz或者48 kHz。在立体声模式中,AC3编码器可以采用重复阵列方法。这种方法可以在采用阵列环绕技术时,降低量化错误产生的噪声。,第5节 MPEG-4音频,MPEG-4音频标准分为自然音频编码和合成音频编码两大类。自然音频编码方面提供三种编码方案,参数编码,码本激励线性预测(CELP)编码,时间/频率(T/F)编码 合成音频编码方面提供了两种编码方案,结构音频(SA)和文语转换(TTS)每个编码方案都按照两部分来组织标准的内容:标准部分描述解码的语法和解码过程,MPEG-4(ISO/IEC 14496)已建立了两个版本。版本1支持由下述成分组成的音频对象的高效表示:语音信号合成语音普通音频信号合成音频绑定的复杂度合成音频 MPEG-4 音频版本2是对版本1的扩展,在保持版本1全部功能的同时,向MPEG-4标准中加入了新的工具和功能。,一.自然声音合成 MPEG-4自然音频编码的设计与MPEG-4的理论非常一致。它增加了新的功能,并成为从线性存储或MPEG-1和MPEG-2的流结构转化为对象和展现的典范。数据率介于2 kbps和64 kbps之间的音频称为自然声音(natural audio)。MPEG-4 定义了三种类型的声音编码器分别用于不同的声音,它的一般编码方案包括:参数编码器、CELP(码本激励线性预测)编码器、TF(时间-频率)编码器,二.合成声音 MPEG-4的译码器支持乐谱驱动合成(也称为MIDI乐音、合成乐音)和文语转换(TTS)合成(也称为语音合成)。乐谱驱动合成是在乐谱文件或者描述文件控制下生成声音,乐谱文件是按时间顺序组织的一系列调用乐器的命令,合成乐音传输的是乐谱而不是声音波形本身或者声音参数,因此它的数据率可以相当低。文-语转换系统编码器的输出数据率可以在200 bps1.2 kbps范围里。,(一)乐谱驱动合成(MIDI合成声音)乐谱驱动合成的解码是通过一种特殊的合成语言驱动的,这种语言称为结构化音频乐队语言(SAOL)。(如播放音符、加大音量、生成音响效果等)SAOL被用于定义一个有“乐器”组成的“乐队”(或称为合成器),这些乐器不是固定在终端设备中,而是从位流里下载下来,用于产生和处理控制数据。MPEG-4并不标准化合成的具体方法,而是标准化描述合成方法的方式。任何现存的或将来开发的声音合成方法都可用SAOL描述,包括波形表,频率调制,添加,物理造型,粒状合成,以及这些方法的非参数的混合等。,(二)文-语转换 文-语转换是将文本形式的信息转换成自然语音的一种技术,其最终目标是使计算机输出清晰而又自然的声音。TTS系统最根本的问题便在于它的自然度,自然度是衡量一个TTS系统好坏的最重要指标。MPEG-4 的TTS 编码器比特率范围是200 bps到1.2 K bps,使输入一个文本或带韵律参数(基音周期轮廓,音素持续时间等)的文本就能产生可理解的合成声音。,三.音频轮廓 MPEG-4定义了8种音频轮廓(基本配制)。语音轮廓(Speech Profile)合成轮廓(Synthesis Profile)可扩展轮廓(Scalable Profile)主轮廓(Main Profile)高质量音频轮廓(High Quality Audio Profile)低延迟音频轮廓(Low Delay Audio Profile)自然音频轮廓(Natural Audio Profile)移动音频网络互联轮廓(Mobile Audio Internetworking Profile),第6节 电子音乐合成与MIDI,一.电子音乐合成产生乐音的方法有模拟合成和数字合成两大类:模拟合成法:减法合成(滤波器)加法合成 数字合成法:FM频率合成、Wavetable波表合成、LA线形合成、AI先进集成式合成、AV先进向量合成、VAST可变结构合成技术 计算机中采用数字音乐合成技术,主要采用两种方法:调频调制合成法 波表合成法(也称为乐音样本合成法),(一)频率调制合成 频率调制合成(简称为FM合成器)是通过硬件产生正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起,理论上可以有无限多组波形。FM合成器由5个基本模块组成:数字载波器调制器声音包络发生器数字运算器和模数转换器。,频率调制合成的合成思想:13个声音参数和算法共14个控制参数以字节的形式存储在存储器中。播放某种乐音时,计算机就发送一个信号,这个信号被转换成存储器的地址,从该地址中取出用于产生乐音的数据。,(二)波形表合成 合成思想:将每种真实乐器发出的声音抽样,加以适当的处理后存储成声音样本(音色文件),记录在合成器的内存当中,需要时,调用相应样本来合成该乐器的乐音。产生的声音质量比FM合成方法产生的声音质量要高。,二.电子乐器数字接口定义:电子乐器数字接口是用于在电子乐器之间以及电子乐器和计算机之间交换音乐信息的一种标准协议,是音乐与计算机结合的产物。(一)MIDI的形成MIDI是乐器和计算机使用的一种标准语言,是一套指令(即命令)的约定,它指示乐器(即MIDI设备)要做什么,怎么做,是将数字式电子乐器的弹奏过程记录下来。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。,MIDI标准优点:生成的文件比较小 容易编辑 声音的配音方便,(二)MIDI术语 音乐合成器(Musical Synthesizer):用来产生并修改正弦波形并叠加,然后通过声音产生器和扬声器发出特定的声音.复调声音:简称为复音(Polyphony),指合成器同时演奏若干音符时发出的声音。它着重于同时演奏的音符数。多音色(Timbre):指同时演奏几种不同乐器时发出的声音。它着重于同时演奏的乐器数。,(三)MIDI标准 MIDI电子乐器:能产生特定声音的合成器,其数据传送符合MIDI通信约定。MIDI消息(message)或指令:乐谱的一种记录格式,相当于乐谱语言。MIDI接口(interface):MIDI硬件通信协议。MIDI通道(channel):MIDI标准提供了16个通道,每种通道对应一种逻辑的合成器。MIDI文件:由控制数据和乐谱信息数据构成。音序器(Sequencer):用来记录、编辑和播放MIDI文件的软件。,(四)MIDI的技术规范 1988年MIDI制造商协会正式公布MIDI技术规范第一版(MIDI 1.0)。MIDI是由软件和硬件两部分共同组成的系统规范,它定义了相互连接性和通信协议。相互连接性定义了使这些不同的MIDI仪器能够相互连接的接线方式、连接器类型,和输入输出线路。通信协议定义了能够控制乐器声音和消息(包括:发出反应,发出状态,及发出系统独有)的标准多字节消息。,1.MIDI硬件规范MIDI硬件规范要求5针DIN连接器,用于MIDI IN,MIDI OUT和MIDI THRU信号的引线面板安装。MIDI THRU连接器用于菊花式链接多个MIDI设备。对于菊花式链接设备,第一个设备(设备1)的MIDI THRU与第二个设备(设备2)的MIDI IN相连;设备2的MIDI THRU与设备3的MIDI IN相连,等等。另一种方法是把设备(1)的MIDI OUT与设备(2)的MIDI IN相连等等。,2.MIDI的互连,MIDI设备的复杂连接,MIDI设备的简单连接,3.MIDI通信协议 MIDI通信协议使用多字节消息;字节数取决于消息的类型。有两种类型的消息:通道消息和系统消息,1)通道消息通道消息最多可以有三字节。第一个字节称为状态字节:其它两个字节称为数据字节。有两种类型的通道消息:声源消息:用来控制乐器(或设备)的声音。音高搭配消息用来改变所有音符的音高。方式消息:方式消息用于指定16条通道与声音的关系。开启全部方式使装置能接受所有通道上的声音消息。,2)系统消息 有三种类型的系统消息:公用消息:这些消息对于整个系统来说是公用的。系统实时消息:这些消息用于设定系统的实时参数。系统独占消息:这些消息含有制造商特定的数据。,MIDI规范规定,MIDI键盘为128键,编号为0127。MIDI消息可以描述每个音符的信息,包括对应的键号,按键的持续时间、音量和力度。MIDI接收器中有16个通道,它们可以同时向声音合成器传送16路不同的通音(书P18图2-11)。通道编号为116,它在MIDI消息中的编号为015,0声道也称基本通道。同一MIDI文件使用不同的合成器播放时可能产生不同的效果。,MIDI文件解释:每一个MIDI消息由若干字节组成,第一个字节为状态字节,其后则为一个或两个数据字节。状态字节的特征是最高位为“1”;数据字节的特征是最高位为“0”。例如:当MIDI键盘发送一个三字节组成的消息:90 3C 40。其中90是状态字节,它表示一个字符开始,且向0号声道传送;3C表示击键位置;40表示击键的速度。松开键后,MIDI键盘立即又发出一个三字节消息:90 3C 00。前两个字节含义与前面相同,第三个字节“00”表示速度为0,即这个键已中止。,(五)MIDI音乐的产生计算机上MIDI音乐的产生过程,用PC构成的MIDI系统,计算机上MIDI音乐的产生过程,(六)WAVE和MIDI两种音频方式的比较 与波形声音相比,MIDI声音有许多优点,最主要的是占用数据量小。第二个优点是声音的配音方便。第三,MIDI声音编辑修改方便灵活,可以随意修改曲子的速度、音调,也可以改换乐器的种类,从而产生合适的音乐。(见WORD文档“WAVE文件和MIDI文件的比较”),(七)GS、GM和XGGS、GM和XG是一类音色排列方式的标准解决不同型号的设备回放同一首乐曲时出现的音色偏差。GS由ROLAND公司制定并推出,它完整的定义了128种乐器的统一排列方式,并规定了MIDI设备的最大复音数不可少于24个等详尽的规范。GM标准比较符合众多中小厂商的口味,成为了业界广泛接受的标准 XG由YAMAHA公司推出,完全兼容以上两大标准。,MIDI小结是一种在计算机和音乐合成器之间交换音乐信息的标准协议。MIDI不是声音信号,在MIDI电缆上传递的是指令MIDI音乐常用作游戏音乐或背景音乐,典型应用就是手机音乐,第8节 语音识别,一语音识别技术 语音识别系统的分类方式及依据:根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。,面向任务的语音识别系统的一般方块图,语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。(1)语音识别单元的选取:语音识别单元有单词(句)、音节和音素三种 单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统 音节单元多见于汉语语音识别 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用,(2)特征参数提取技术对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。(3)模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数模式匹配是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术、隐马尔可夫模型和人工神经元网络(ANN)。,二困难与对策 困难主要表现在 语音的多变性 语音识别系统的适应性差 高噪声环境下语音识别进展困难 如何把知识量化、建模并用于语音识别,还需研究 对听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,三语音识别的应用 比较典型而成功的语音识别系统有ATT于1992年开发的VRCP系统。该系统是有五个单词(collect,person,third number,operator和calling card)的非特定人,小词汇量语音识别系统,可以代替话务员完成五种呼叫类型:collect call(受话人付费电话)person-person-call(定人呼叫)third-party-billing-call(第三方付费电话)operator-assisted call(话务员协助呼叫)credit card call(信用卡呼叫),该系统所具有的关键词检测技术可从句子中查找到五个命令字中的一个,从而使用户在讲话时更加自然,如可以讲“collect call please”。已经实用的系统还有AT T 800语音识别服务系统,NTT ANSWER语音识别银行服务系统,Northen Telecom股票价格行情系统,使得原本手工操作的工作用语音就可方便地完成。,四未来展望IBM的“超人类语音识别”项目。总体目标是使机器语音识别能力赶上并超越人类。另一个研究重点是MALACH项目。,第9节 音频应用,一.音频卡的应用声卡可支持11.025kHz、22.05kHz、44.1kHz三种采样频率,16位采样精度和选择单/双声道对模拟声音波形信号进行数字化采样,生成WAVE文件。,(一)音频卡的功能 音频卡的关键技术包括数字音频、音乐合成和MIDI。声卡应具有以下功能:录制和编辑音频文件合成和播放音频文件压缩和解压缩音频文件具有与MIDI设备和CD-ROM驱动器的连接功能,(二)声卡的基本组成声卡上一般有以下几个功能单元:数字信号处理器:解释、处理和控制送往声卡的指令 CD音频连接器:将CD-ROM驱动器的音频输出与声卡相连接 音频控制芯片:控制声音的录制和播放过程 混音器:混合和处理来自不同音轨或通道的音频,CD-ROM接口:利用CD-ROM接口将CD-ROM驱动器连接到声卡上,使存储在CD-ROM上的大容量多媒体信息传输到计算机内存或硬盘上 MIDI接口:利用MIDI接口可以录制和播放MIDI文件,连接游戏杆来操纵电子游戏 跳接器:跳接器是一种外部为塑料包裹,内部为金属桥形状的插件,用来连接卡上的成对的插针,以形成回路。其主要功能是用以选择声卡的硬件设置,I/O端口:Line In(声音信号输入)Mic In(麦克风输入)Line Out(声音信号输出)Speak Out(扬声器输出)以上所述的10个组成单元仅是各种声卡的基本组成部分,不是全部组成单元。对于一个特定的声卡,可能仅包含其中的几个组成单元。,什么是手机和弦,乐理上定义:按照一定音程关系结合起来的三个或三个以上的同时发音,叫做和弦。手机MIDI音乐中包含着音轨(单音音轨)。播放声音时,根据MIDI指令去查询音色库中音效,然后合成播放。由于手机中音色库大小有限,所以和弦生成利用三个单轨音的合成来实现。,