语音识别输入系统设计.doc
《语音识别输入系统设计.doc》由会员分享,可在线阅读,更多相关《语音识别输入系统设计.doc(56页珍藏版)》请在三一办公上搜索。
1、目录目录1第一章语音识别简介31.1语音识别的研究历史及现状31.2语音识别系统的分类41.3语音识别系统的基本原理41.4语音识别的基本构成51.5语音识别的几种基本方法51.5.3改进的HMM-DDBHMM61.5.4人工神经元网络(ANN)71.6语音识别技术面临的技术难点及对策7第二章语音信号的预处理82.1概述82.2分帧102.3预加重112.4加窗122.4.1窗函数的定义122.4.2窗函数的三种主要类型122.4.3窗函数的选择13第三章端点检测143.1端点检测概述143.2短时能量153.3短时过零率153.4双门限端点检测163.5程序实现173.5.1计算短时过零率1
2、73.5.2计算短时能量173.5.3端点的截取18第四章语音识别参数提取224.1LPC和LPCC系数224.1.1lpc及lpcc系数的简介224.1.2lpc系数的基本计算原理234.2MFCC系数24第五章DTW算法实现275.1模式的匹配275.2DTW算法原理285.3DTW算法改进305.3.1搜索宽度限制305.3.2放宽端点限制30第六章matlab编程结果326.1实验程序文件326.2语音识别仿真结果32结论34致谢35参考文献36附录371.DTW程序372.DTWTEST程序403.MFCC程序414.TRAIN程序435.VAD程序446.ENFRAME函数程序49
3、引言语音识别技术就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴。其研究目标是让计算机“听懂”人类口述的语言,这是人类自计算机诞生以来梦寐以求的想法。随着计算机软硬件和信息技术的飞速发展,这种想法更加明显,人们越来越迫切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。语音识别起源于20世纪50年代ATT贝尔实验室的Audry系统,它第一次实现了10个英文数字的语音识别,这是语音识别研究工作的开端。60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划和线性预测分析技术(LP),其中
4、后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。70年代,语音识别领域取得了突破。LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论,并实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。80年代,实验室语音识别研究产生了巨大突破,一方面各种连接词语音识别算法被开发,例如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。进入90年代以后,人工神经网络技术的应用成为语音识别的一条新途径,它具有自适应性、并行性
5、、非线性、鲁棒性、容错性和学习特性,在结构和算法上都显示出了很大的潜力,而且还在细化模型的设计、参数提取和优化,以及系统的自适应技术上取得了关键进展。语音识别技术进一步成熟,语音识别系统从实验室走向实用。语音识别技术是非常重要的人机交互技术,应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品如声控拨号电话、语音记事本等已经应用,基于特定任务和环境的听写机也已经进入应用阶段,这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利。第一章语音识别简
6、介1.1语音识别的研究历史及现状语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(
7、HMM)理论。80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEEKai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。进入90年代后,语音识别技术进一步成熟,并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水
8、平。进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人大词汇量的连续语音识别系统。我国语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智
9、能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。1.2语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。(3)多人的识别系统。通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。如果从说话的方式考虑,
10、也可以将识别系统分为三类:(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。如果从识别系统的词汇量大小考虑,也可以将识别系统分为三类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分
11、类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。1.3语音识别系统的基本原理目前,大多数语音识别系统都采用了模式匹配的原理。根据这个原理,未知语音的模式要与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。图1-1是基于模式匹配原理的自动语音识别系统方框图。语音输入预处理特征提取模式匹配判别规则模板库训练练识别识别结果图1-1语音识别原理图该图中,待识别语音先经话筒变换成语音信号,然后从识别系统前端输入,再进行预处理。预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等
12、,并涉及到语音识别基元的选取和端点检测问题,有时还包括模数转换器。特征提取部分用于提取语音中反映本质特征的声学参数,常用的特征有短时平均能量或幅度、短时平均跨零率、短时自相关函数、线性预测系数、清音/浊音标志、基音频率、短时傅立叶变换、倒谱、共振峰等。训练在识别之前进行,是通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按一定规则对数据加以聚类,形成模式库。模式匹配是整个语音识别系统的核心,是根据一定的准则以及专家知识(例如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度,判断出输入语音的语意信息,断定相似度最高的模板为输入的语音信息。所以,模板库的
13、广大和清晰度是衡量模板库的两个标准。清晰度和广泛度越高的模板库可以更好的提高语音识别的准确率。1.4语音识别的基本构成语音识别系统的典型实现方案为:输入的模拟语音信号首先要进行预处理,包括预滤波,采样和量化,加窗,端点处理,预加重等。语音信号经过预处理后,重要的一环就是特征参数的提取。对特征参数的要求是:1) 提取的特征参数能有效的代表语音特征,具有良好的区分性。2) 各阶参数具有良好的区分性。3) 特征参数要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。在训练阶段,将特征参数进行预处理后,每个词条都得到一个模型,保存为模板库。在识别阶段,语音喜好经过相同的通道的到语音参数,生成测
14、试模板,与参考模板进行匹配,将匹配分数最高的模板作为识别结果,同时,还可以在许多先验知识的帮助下,提高准确率。1.5语音识别的几种基本方法语音识别方法主要有动态时间归正技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐含马尔可夫模型(DurationDistributionBasedHiddenMarkovModel,DDBHMM)和人工神经元网络(ANN)。1.5.1DTW和VQDTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识
15、别系统,目前已被HMM模型和ANN代替。VQ技术从训练语音提取特征矢量,得到特征矢量集,通过LBG算法生成码本,在识别时从测试语音提取特征矢量序列,把它们与各个码本进行匹配,计算各自的平均量化误差,选择平均量化误差最小的码本,作为被识别的语音。但同样只适用孤立词而不适合连续语音大词汇量语音识别。1.5.2HMM模型HMM模型是语音信号时变特征的有参表示法,它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markov链,另一个是与Markov链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markov链的特征要靠可观测到的信号特征揭示。这样,
16、语音时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markov链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM)。一般来讲,在训练数据足够的情况下,CHMM优于DHMM和SCHMM。HMM模型统一了语音识别中声学层和语音学层的算法结构,以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起,极大地增强了连续语音识别
17、的效果。1.5.3改进的HMM-DDBHMM王作英教授提出了一个基于段长分布的非齐次隐含马尔可夫模型DDBHMM,以此理论为指导所设计的语音识别听写机系统在1998年的全国语音识别系统评测中取得冠军,从而显示了这一新模型的生命力和在这一研究领域内的领先水平。语音学的研究表明,语音单位在词中的长度有一个相对平稳的分布。正是这种状态长度分布的相对平稳性破坏了HMM模型的齐次性结构,而王作英教授提出的DDBHMM模型解决了这一缺陷。它是一个非齐次的HMM语音识别模型,从非平稳的角度考虑问题,用状态的段长分布函数替代了齐次HMM中的状态转移矩阵,彻底抛弃了“平稳的假设”,使模型成为一种基于状态段长分布
18、的隐含Markov模型。段长分布函数的引入澄清了经典HMM语音识别模型的许多矛盾,这使得DDBHMM比国际上流行的HMM语音识别模型有更好的识别性能和更低的计算复杂度(训练算法比流行的Baum算法复杂度低两个数量级)。由于该模型解除了对语音信号状态的齐次性和对语音特征的非相关性的限制,因此为语音识别研究的深入发展提供了一个和谐的框架。1.5.4人工神经元网络(ANN)人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不具有HMM模型的动态时间归
19、正性能。因此,人们尝试研究基于HMM和ANN的混合模型,把二者的优点有机结合起来,从而提高整个模型的鲁棒性,这也是现在研究的一个热点。1.6语音识别技术面临的技术难点及对策语音识别面临的主要困难是理论上没有突破,虽然各种新的修正方法不断涌现,但其普遍适用性都值得商榷。另外,语音识别系统在商品化的进程中还要解决诸如识别速度、拒识问题以及关键词(句)检测等具体问题,主要表现在两个方面:一是对环境的依赖性强。语音识别系统在某些环境下采集的语音进行训练后,必须在相同的环境下进行识别,否则性能急剧下降,例如自适应性差,最近凸现出的方言或口音、背景噪音、口语发音的“新三难”问题等,都会影响识别的准确性。目
20、前可采用麦克风阵列技术消除单一麦克对语音的影响,同时在预处理阶段通过语音增强算法,使语音的可懂度和信噪比增强。二是模型和算法都存在一定的缺陷。随着HMM语音识别方法研究工作的深入,人们也越来越认识到经典HMM语音识别模型在一些重要方面存在严重的缺陷,既不符合语音信号的实际情况,又使得模型的训练量和存储量太大。目前提出了各种各样的HMM改进算法,还加入了遗传算法、并行算法和神经网络等新技术,使得HMM的训练和识别更加准确。第二章语音信号的预处理2.1概述语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号特征的参数,才能利用这些参数进行高效的语音识别处理。贯穿于语音分析全过程的是“短
21、时分析技术”。语音信号从整体开看其特征和表征其特征的参数是随时间变化的,所以它是一个非平衡态过程,不能用处理平衡信号的数字处理技术对其进行分析处理。但是在一个段时间范围内(一般认为在10-30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看成斯一个准稳态过程,即语音信号具有短时平稳性。不论分析怎样的参数即采用什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经常使用的,共同的短时分析技术必须预先进行,如语音信号的数字化,语音信号的预加重,加窗和分帧。在Matlab环境中,利用其中的几个音频处理函数进行操作。如,用Wavread函数对语音信号进行采样,记录采样频率和采样点数
22、。可以利用soundview函数进行放音等。以本实验中的10个输入的语音训练文件中的“40.wav”文件进行操作,使其显示“40.wav”文件的波形图,和其语音起始处和结束处的放大波形图如图2-1。实验程序:disp(显示原始波形图);t=0:1/fs:(length(k)-1)/fs;subplot(3,1,1);plot(t,k);axis(0,(length(k)-1)/fs,min(k),max(k);title(I)“40.wav”语音信号波形);xlabel(Time:s);ylabel(Amplitude(normalized);disp(显示语音起始处放大波形图);t1=0.2
23、:1/fs:0.3;k1=k(0.2*fs:0.3*fs);subplot(3,1,2);plot(t1,k1);axis(0.2,0.3,min(k),max(k);title(II)“40.wav”语音起始处放大波形图);xlabel(Time:s);ylabel(Amplitude(normalized);disp(显示语音结束处放大波形图);t1=0.4:1/fs:0.5;k1=k(0.4*fs:0.5*fs);subplot(3,1,3);plot(t1,k1);axis(0.4,0.5,min(k),max(k);title(III)“40.wav”语音结束处放大波形图);xlab
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 输入 系统 设计
链接地址:https://www.31ppt.com/p-4297212.html