连续语音识别中半连续HMM的研究及实现硕士学位论文.doc
《连续语音识别中半连续HMM的研究及实现硕士学位论文.doc》由会员分享,可在线阅读,更多相关《连续语音识别中半连续HMM的研究及实现硕士学位论文.doc(71页珍藏版)》请在三一办公上搜索。
1、密级:内部连续语音识别中半连续HMM的研究及实现Research and Implement ofSCHMM in CSR(申请清华大学工学硕士学位论文)独 创 性 声 明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得清华大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签 名:日 期: 关于论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复
2、印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。签 名: 导师签名: 日 期: 摘 要SCHMM作为一种有效的语音识别技术,它充分地吸收了离散HMM和连续HMM的优点,具有识别精度高搜索速度快等特点。特别是它的码本绑定策略,由于从全局的角度来共享和调整码本,所生成的码本性能更好,能够有效地反映语音空间的特征,因此只要少量的码本就能使系统达到较好的性能,大大减轻了码本计算的复杂性,提高了系统识别的速度。研究内容包括如下几个方面:1. 在初始码本生成中引入了随机松弛算法,SCHMM的初始码本生成是一个矢量量化的问题,量化的困难是量化结果通常会
3、陷入局部最优,采用随机松弛算法能够比较好地克服这个缺点。2. 在连续语音训练中,通过减去句子单元信息,克服了Baum-Welch算法训练不同类型句子时发生数据奇异的缺陷。3. 改进了SCHMM的搜索算法,通过对码本进行剪枝,Beam剪枝等措施,在保证一定识别率的前提下,大大减少了搜索在时间和空间上的消耗,加快了搜索的速度。4. 实现了一个基于SCHMM的连续语音训练和识别系统。关键词:语音识别,半连续HMM,码本,随机松弛,搜索AbstractAs an efficient technology of speech recognition, Semi Continuous HMM (SCHMM
4、) integrates the advantages of discrete HMM and continuous HMM, and provides a high recognition accuracy and satisfactory speed. In particular, since the sharing and modification of codebooks in global scope, the code-binding strategy makes it possible to generate much better codebooks that could de
5、scribe the feature of acoustic space more accurately. In such a case, small codebooks can provide satisfactory performance so that the computational complexity is reduced and the recognition speed is increased.The key research contains the follows1. The algorithm of stochastic relaxation is introduc
6、ed into codebook initialization. Codebook initialization of SCHMM is a problem of vector quantification, whose trouble is that the quantification result often reaches the local minimal point. The introduction of stochastic relaxation overcomes this problem in our experiments.2. In continuous speech
7、training, the disadvantage that Baum-Welch algorithm could be thrown into data oddity because of different sentences gives various weights to the estimation is resolved by subtracting sentence information.3. Through codebook selection, beam pruning, the search algorithm of SCHMM is modified so that
8、the cost of search is reduced in terms of both time and space, in case of no accuracy lost evidently. 4. A continuous speech recognition system based on SCHMM in real world is implemented.目 录第一章 概述11.1 语音识别11.1.1 语音识别的应用价值21.1.2 语音识别的理论意义41.2 国内外发展状况41.3 本文主要工作71.4 本文内容安排8第二章 语音识别的基本模型92.1 语音识别的基本结构
9、及方法92.2 HMM的基本结构102.3 HMM的三个基本问题122.4 HMM的分类162.4.1 DHMM(离散HMM)172.4.2 CHMM(连续HMM)172.4.3 SCHMM(半连续HMM)18第三章 SCHMM的训练方法193.1 SCHMM初始码本生成193.1.1 聚类的基本原理及方法193.1.2 译码器扰动简化随机松弛聚类算法(SR-D)213.1.3 小结233.2 SCHMM的训练233.2.1 基于Baum-Welch的前后项训练方法243.2.2 溢出的分析及解决273.2.3 句子单元信息31第四章 SCHMM的连续语音搜索方法334.1 连续语音的Vite
10、rbi解码算法344.2 N-Best搜索算法354.3 静音处理方法364.3.1 基于时域的端点检测方法374.3.2 基于HMM的音节间检测方法384.4.提高搜索速度的几种方法384.4.1 码本剪枝策略384.4.2 Beam剪枝策略404.4.3 降低精度策略42第五章 系统与实验445.1 数据库的建立445.2 系统的实现455.2.1 训练程序465.2.2 识别程序495.3 实验和分析525.3.1 码本数对识别结果的影响535.3.2 状态数对识别结果的影响535.3.3 帧长对识别结果的影响545.3.4 系统的性能和评价54第六章 总结57参考文献60个人简历64致
11、谢65第一章 概述1.1 语音识别现代语音识别是用电子计算机从人的语音信号中提取信息,确定其语言含义的过程。它是一门交叉学科,多个领域的研究工作者参与其中,因此又可被归于多个大学科。在计算机大学科中,它是智能计算机的智能接口科学;在信息处理大学科中,它是信息识别的一个重要分支;在通信及电子系统、电路、信号及系统等大学科中,它属于信息或通信系统的信息处理学科;在自动化学科中,它是模式识别的一个重要研究对象。同时语言学家和生理学家也对这种用机器识别人类语言的技术不断作出自己的贡献。于是,语音识别成为一门与人工智能、数字信号处理理论、模式识别理论、统计信息理论、最优化理论、计算机科学以及声学、语言学
12、、语义学、脑科学、生理学等众多学科紧密相连的综合学科。目前,语音识别系统有多种工作方式,人们常常从不同的角度对识别系统进行分类:1. 按说话方式及语言规则:l 孤立词(Isolated Word)识别:被识别的基本单位的语音之间有明显的停顿间隔。这种系统的识别正确率最高,但输入语音速度较慢,而且使用者常常感到语音输入方式不自然;l 连接词(Connected Word)识别:被识别的基本单位的语音可连续输入而不必停顿,同时对输入的基本单位的顺序没有限制。如:象电话号码这样的数字串就可用连接词识别法。它的缺点是应用范围不广,而且识别正确率较低。l 连续语音(Continuous Speech)识
13、别:被识别的基本单位的语音可连续输入而不必停顿,同时对输入的基本单位的顺序有语法语义上的限制。连续语音的输入方式比较接近自然,输入语音速度较快,但识别正确率远远低于对孤立词和连接词的识别。l 自然口语(Natural Speaking)识别:可以看作一种更高级的连续语音输入方式。说话者完全用自己习惯的自然方式输入语音。语音完全口语化语音可以随意地连续、停顿和快慢变化,可以有无关的内容(如:咂嘴的声音、“嗯”等),可以有重复、错误和修改(如:“他住在四一三,噢,四一四房间”),语法上没有书面语那样较严格的限制。自然口语识别是语音识别的最高阶段,也是现在的一个研究热点。尽管这四种语音输入方式有或多
14、或少的区别,但实际系统常常包含了许多相同或相似的模块和算法。如:语音信号预处理部分有时可以通用于这四种系统,这四种系统可以使用相同的声学模型,连续语音系统和自然口语系统也可以共享一些语言后处理的算法,等等。2. 按词汇量大小:l 小词汇量(small vocabulary)识别:可识别词数少于500个;l 中词汇量(medium vocabulary)识别:可识别词数大于500但小于2000个;l 大词汇量(large vocabulary)识别:可识别词数大于2000个。随着词汇量的增加,在特征空间中相邻词的距离减小了,而词与词交叉重叠的机会增大,所以识别也越困难。3. 按被识别人范围:l
15、特定人(speaker dependent)识别:语音识别系统专门为特定人定制,当对这个人进行语音识别时,系统可达到一定令人满意的识别正确率;l 非特定人(speaker independent) 识别:系统可以对所有人的语音产生较好的识别结果。实际上,许多非特定人的识别系统都具有自适应功能,可以用一个使用者的输入对系统参数继续进行训练,以对这个人达到更好的识别效果,这样非特定人似乎就变成了特定人识别系统。所以非特定人系统和特定人系统往往没有一个绝对的界限。1.1.1 语音识别的应用价值语音识别有极其巨大的应用价值,这主要表现在以下几方面:1. 一种非常自然的文字输入方法人类希望将自己的语言记
16、录下来,传统上可以通过书写等物理手段进行具体的保留。现在,更准确、可靠和容易加工的手段是输入计算机以抽象数据编码的形式进行记录。最常用的方式是用键盘输入,这要求使用者必须经过专门的训练,而对普通用户又不太现实。尤其对于使用汉语的中国人的来说,困难就更大,因为汉字是象形文字,不象英语等拼音文字那样每个字母都有键盘按键直接对应。虽然现在汉语已有五笔字型等高效输入编码方式,但对于一般人来说很难熟练掌握。另一方面,口语是人类生存的一个重要手段,虽然它不是与生俱来的,但一个健康人在他的早年即已习得,可以认为口语是绝大部分人最自然的交流方式。有时,书写也可以作为人们的交流方式,不幸的是书写速度还是比普通的
17、说话速度慢,所以口语应该成为最自然、快速的文字输入方式。2. 语音控制在很多场合下,人们希望有手动控制以外的控制方式。有时是为了安全,比如在驾驶车辆时,司机为了使用移动电话,分散精力用手拨号就是很危险的;有时是为了方便,比如现在的掌上电脑体积很小,用普通电脑的按键方式使用很困难;还有时是特殊环境的要求,比如我们在黑暗的场所操纵诸多开关、按钮时,会发现并不容易。而语音在这些方面却不受限制,我们可以用语音识别进行拨号,进行掌上机的输入,进行开关的控制。语音控制可以解放我们的双手,帮助我们克服各种操作的困难,还可以使我们的生活、工作更方便和舒适。比如:在联网的智能家电中装上语音识别模块,我们就可以从
18、办公室打电话了解家里的情况,并控制家电的工作。另外,对残疾人来说,语音控制可能会使他们能像健康人一样地自理生活。总之,语音控制的应用前景非常广阔。3. 对话系统(订票系统,天气查询等)将语音识别、自然语言理解、对话控制、语言生成、语音合成、数据库等技术综合起来可以构成对话系统。对话系统现在已开始用于订票系统,普通用户可以通过电话进行语音订票或预定旅馆房间;另外还出现了带有对话系统的天气查询系统1,用户同样可以通过普通电话进行语音查询。对话系统可以在任何时候被大负荷的访问,不象人一样会疲劳,总能给用户亲切、快捷的服务。预计语音识别在这一方面的应用还要进一步扩大。4. 口语翻译系统随着人们的交流日
19、益频繁,对口语翻译的需求越来越大。为此很多机构在研究自动口语翻译系统。口语翻译的第一步就是要听清用户在说什么,这部分的工作离不开语音识别系统。5. 计算机辅助教学在常规的课堂教学中,老师和学生之间经常要进行交流,以提高教学的质量,解决学生的疑问。在计算机辅助教学领域,人们也希望人机之间有相似的交流和反馈。目前,语音识别已开始进入这一领域,比如:有一些英语学习软件就通过语音识别来判断学生发音的准确性。由于交流的重要性,可以断言,未来大部分计算机辅助教学系统都离不开语音识别。6. 身份确认现在进行自动身份确认的方式很多,比如:键盘输入密码、指纹、掌纹、人脸、虹膜、视网膜图像等等,而语音常常是一个非
20、常好的方式。人们可以口述密码、回答特殊的问题,还可以与目前的说话人确认技术(Speaker Verification)结合,形成一种自然、方便和可靠的确认系统。它可以广泛地用于楼宇安全系统,以及电子商务等领域。以上只是目前可以预见到的一些应用,尽管这样,已经让我们对未来充满了憧憬。语音识别将与其它各种技术熔合在一起,渗透到社会的各个角落,相信有一天,人们会发现自己的生存已离不开语音识别。1.1.2 语音识别的理论意义语音识别也有很强的理论价值。人类语音信息与其它的自然界或人工信息有相当程度的相似性。因此其它领域的研究也可以得益于语音识别。首先,语音识别中有些技术手段直接或稍加修改便可应用于其它
21、声音或振动波形的识别中。比如:地震波性质识别、利用机械声波识别来判断机械故障、利用脑电波的识别作病理诊断等。其次,语音识别中的一些思想和方法与更广泛的模式识别(如手写体识别、指纹识别等)有一定的共性。因此,也可能推广到更广泛的领域。另外,在语音识别中遇到的一些问题,同样可以成为数学、信号处理、人工智能等领域研究的新课题,从而对这些学科的发展起到一定的推动作用。1.2 国内外发展状况语音识别技术从五十年代初期起步,到今天已发展了四十年,在此期间经历了若干个重要阶段。下面给出了一些代表性的技术和系统的发展情况。五十年代电子信号频谱分析仪器开始被用于从语音信号中识别简单、少量的音节和音素。其中有代表
22、性的是1952年美国Bell Laboratories的实验装置,它通过提取元音中的共振峰来识别简单的音节。稍晚还有1956年RCA Laboratories的单音节词识别装置2,该装置的基本原理是用模拟滤波器组对元音进行谱分析。五十年代可以认为是现代语音识别技术的启蒙阶段。六十年代人们进行了一些重要的基础研究工作。一、对语音产生的研究,Fant3, 4 和Flanagan5的工作使人们对语音产生的机理有了一个较系统的了解。二、对人类听觉的生理和心理进行了研究,其中一个重要的成果就是发现了人耳对声音中的不同频率成分有不同的分辨力的反应力,这对后来的听觉模型6研究很有指导意义。三、模板匹配的研究
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 连续 语音 识别 HMM 研究 实现 硕士学位 论文
链接地址:https://www.31ppt.com/p-4069269.html