毕业论文基于连续隐马尔科夫模型的语音识别.doc
《毕业论文基于连续隐马尔科夫模型的语音识别.doc》由会员分享,可在线阅读,更多相关《毕业论文基于连续隐马尔科夫模型的语音识别.doc(89页珍藏版)》请在三一办公上搜索。
1、 SHANGHAI UNIVERSITY毕业设计(论文)UNDERGRADUATE PROJECT (THESIS)论文题 目基于连续隐马尔科夫模型的语音识别学 院 专 业 学 号 学生姓名 指导教师 起讫日期 目 录摘要 -2ABSTRACT -2绪论 -3第一章 语音知识基础-6第一节 语音识别的基本内容-6第二节 语音识别的实现难点-9第二章 HMM的理论基础-10第一节 HMM的定义-10第二节 隐马尔科夫模型的数学描述-10第三节 HMM的类型-12第四节 HMM的三个基本问题和解决的方 -15第三章HMM算法实现的问题 -21第一节HMM状态类型及参数B的 选择-21第二节HMM训
2、练时需要解决的问题 -23第四章 语音识别系统的设计 -32 第一节 语音识别系统的开发环境-32 第二节 基于HMM的语音识别系统的设计-32 第三节 实验结果-49第五章 结束语 -67致谢 -68参考文献 -69 摘要语音识别系统中最重要的部分就是声学模型的建立,隐马尔可夫模型作为语音信号的一种统计模型,由于它能够很好地描述语音信号的非平稳性和时变性,因此在语音识别领域有着广泛的应用。隐马尔可夫过程是一个双重随机过程:一重随机过程用于描述非平稳信号中短时平稳段的统计特征;另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性。为了能够对HMM有一个全面的认
3、识并能够将其应用于解决实际问题当中,本文介绍了HMM的基本理论以及其如何将其应用于语音识别中,在解决HMM的三个基本问题以后,还谈论了在具体应用时需要考虑的其他问题,如初始模型参数的选取、数据下溢、HMM之间距离的度量等等,并给出了相应的解决方法。这个语音识别系统是用HMM模型来实现的,用HMM来做语音识别的识别率是很高的,其中用到了HMM的三个算法。 关键词:语音识别,HMMABSTRACTThe most important part of a recognition system is the acoustic model construction. As a statistic mod
4、el for signal, HMM can describe the pronunciation signal non-stability and the variability well.For the sake of understand HMM systematically and apply it to solve real-world problem, this paper introduces the basic theory of HMM and how to use it in the speech recognition. After three basic problem
5、 solved,some other important issues in the application, for instance, selecting parameters of the initial model, data over-fitting and the distance degree between HMM, are discussed, then methods for settling those issues are put forward. In addition, it also explains design of the topology and its
6、parameters optimization ways.This recognition system use HMM models come true. It is easier recognizable to use HMM recognize.In this system I use the three arithmetic of HMM. Keyword: Speech recognition,HMM 绪论计算机技术的飞速发展,使人与机器用自然语言进行对话的梦想逐渐接近现实。人类的语言在人类的的智能组成中充当着极其重要的角色,人与人之间的交流和沟通70%意商是通过语言的方式有效的完成
7、。作为人与人之间交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。语音识别就是研究计算机听懂人类语言的一门科学。也是人机交互最重要的一步。进入九十年代之后,出现了诸多实用化的研究方向。语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能满足通常应用的要求。由于大规模集成电路技术的发展,这下复杂的语音识别系统也已经完全可以制成芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些电话机、手机已经包含了语音识别拨号的功能,是有语音记事本、语音智能玩具等产品也包括了语音识
8、别与语音合成的功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%意商的人对语音识别信息查询服务系统的性能表示满意。可以预测在近五十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,我们只能朝着改进语音识别系统的方向逐渐地前进。我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项
9、,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。第一章 语音识别基础第一节 语音识别的基本内容语音识别是一种集声学、语音学、计算机、信息处理、人工智能等于一身的综合技术,可广泛的应用在信息处理、通信与电子系统、自动控制等领域。语音识别主要包括语音单元的选取,特征提取技术,模式匹配准则及模型训练技术三方面内容。语音识别的原理框图如图1-1所示: 图1-1 语音识别的原理框图一、识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词、音节和音素三种,具体选哪种,由具体的研究任务决定。单词单元广泛应用于中小词汇语音识别系统,但不是和大词汇系统,原因在于模型库规模太庞大,
10、训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,数量相对较少,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于大、中词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的;音素单元以前多见于英语语音识别系统的研究中,但目前大、中词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母和韵母构成,且声韵母的声学特性相差很大。实际应用中常把声母的不通而构成细化声母。由于协同发音的影响,音素单元的不稳定,所以如何获得稳定的音素单元,还有待研究。 二、特征参数
11、提取技术语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息是由特征提取完成的。特征参数提取的目的是对语音信号进行分析处理,提取对语音识别有用的信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑个方面的因素,如成本、性能、响应时间、计算量等。非特定人语音识别系统一般侧重提取反应语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。线性预测分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基
12、于LP技术提取的倒谱参数。但线性预测模型是纯数学模型没有考虑人类听觉系统对语音的处理特点;Mel参数和基于感知线性预测分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明采用这种技术语音识别系统的性能有一定提高。三、模式匹配和模型训练技术模型训练是按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔科夫模型(HMM)和人工神经元网络(ANN)。DTW是较早的一种模式匹配
13、和模型训练技术,它应用动态归划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN代替。HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随即过程共同描述的统计特征,其中一个是隐蔽的具有有限状态的Markov链,另一个是与Markov链的每一个状态相互关联的观察矢量的随即过程。隐含Markov链的特征要依靠可观测到的信号特征表示。这样,语音等时变信号某一段的特征就由对应的观察符号的随即过程描述,而信号随时间的变化由隐蔽Markov链的转移概率描述。模型参数包括HMM拓朴结构、状态
14、转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔科夫模型和连续隐马尔科夫模型以及半连续隐马尔科夫模型。一般来说,在训练数据足够是,CHMM优于DHMM和SCHMM。HMM,模型的训练和识别都已经研究出有效的算法,并不断完善,以增强HMM模型的鲁棒性。人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不具有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁
15、棒性。ANN和DTW的结合以及ANN和HMM的结合是当前语音识别研究的一个方向。第二节 语音识别的实现难点语音信号的声学特征随与之前后的语音不同而有很大变化,且连续语音流中各种语音单位之间不存在明显的界线。语音特征随发音人的不同、发音人生理和心理状态的变化而有很大的差异。环境噪声电和传输设备的差异也将直接影响语音特征的提取。一个语句所表达的意思与上下文内容、说话时的环境条件及文化背景等因素有关,而语句的语法结构又是多变的,并且语境信息几乎是计算机语音识别无法利用的,所有这些都给语意的理解带来了和大的困难。第二章 HMM的理论基础第一节 HMM的定义 一、信号模型 隐马尔科夫过程是一个双重随机过
16、程:一重用于描述非平稳信号的短时平稳的统计特征(信号的瞬态特征,可直接观测到);另一个重随机过程描述了每个短时平稳如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中)。基于这两重随机过程,HMM即可有效解决怎样辨识具有不同参数的短时平稳信号段,怎样跟踪它们之间的转化问题。人的语言过程也是这样一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的(不可观察的)、根据言语需要和语法识别(状态选择)、所发出的音素(词、句)的参数流,同时,大量实验表明,HMM的确可以非成精确地描述语音信号的产生过程。第二节 隐马尔科夫模型的数学描述一、马尔科夫链定义随机序列Xt,
17、在任何时刻t,可以处在状态1,2,n,且在t+k时刻的状态qt+k的概率,只与它在t时刻的状态qt有关,而与t时刻以前它所处在的状态无关。P(Xt+kqt+k|Xtqt,Xtqt)P(Xt+kqt+k|Xtqt)K步转移概率:Pij(t,t+k)P(qt+kj|qtj)当Pij(t,t+k)与t无关时,称马尔科夫链为齐次马尔科夫链。可写为:Pij(t,t+k)Pij(k)当k1时,Pij(1)为一步转移概率,记为aij(1=I,j=N)。所有转移概率矩阵aij构成一个转移概率矩阵。二、HMM的基本思想HMM是一个双重随机过程,一个是马尔科夫链(基本随机过程,描述状态的转移),另一个随机过程描述
18、状态和观察值之间的统计对应关系(站在观察者的角度,只能看到观察值,不能看到状态,而是通过一个随机过程去感知状态的存在及其特性)。三、HMM的定义HMM参数的定义如下:(1)N,隐马尔科夫模型的状态数。虽然在HMM中状态数是隐含的,但在实际应用中它是有切确的物理含义的。N个状态为1n,记t时刻马尔科夫链所处的状态为qt。(2)M:每个状态对应的可能的观察值数目,记M个观察值为V1Vm,记t时刻观察值为Ot,观察值序列Oo1,oT,其中T为观察值序列长度。(3)状态转移概率分布Aaij,其中aijP(qt+1j|qti)(4)观察值概率分布Bbj(k),其中bj(K)P(OtVk|qtj),1j=
19、N;1=k=M(5)初始状态转移概率i,其中P(q1i)1=i=N基于这些特征参数,HMM产生观察序列Oo1,oT的过程可以作如下描述。 (1)根据初始状态概率分布,选择一个初始qi i 。 (2)置观察时间t1。 (3)根据当前状态下观察值的概率分布B,选择otvk。 (4)根据状态转移概率分布A,从当前状态qti转移倒下一个状态qt+1j 。 (5)置tt+1,如果tT(观察值时间序列为t1,2,,T),则回到第(3)步否则结束。综上所述,一个HMM完全可以由2个模型参数N,M和3个概率分布参数A,B,来确定。为了方便起见,通常将隐马尔科夫模型定义为(A,B,)。HMM可以分为两个部分:马
20、尔科夫链,由、A描述,产生的输出为状态序列;一个随机过程,由B描述,产生的输出为观察值序列。依据观察值的概率分布特点(离散还是连续),HMM可分类为离散隐马尔科夫模型和连续隐马尔科夫模型。第三节 HMM的类型 一、由左至右模型 有跨越由左至右模型:状态转移只能从左至右,而不能反过来,这中模型很适合对语音信号建模,因为语音信号的性质随时间变化,随时间增加状态索引也增加保持不变。图2-1(a)所示模型的状态转移矩阵具有下面的形式。 容易看出当ji+。如在2-1(a)中,2,表示不允许一次跳跃经过两个以上的状态。图2-1(b)是一种更常用,更简单的马尔科夫链,与图2-1(a)相比,它不存在跨越状态,
21、因而成为无跨越由左至右模型。 图2-1典型马尔科夫链示意图二、全连结或个态遍历HMM这种模型中从每个状态都可以一步到达其他状态。如图2-2所示:图2-2 全连结HMM在这种模型中每个系数aij都是正值。对应的转移矩阵如下:虽然可将HMM划分为全连结和由左至右模型,但还存在很多种可能的变化和组合。如图2-3所示的右左至右交叉耦合连接的HMM,严格的说,这种模型属于由左至右模型,因为它满足所有aij约束;但它具有由左至右模型所不具有的灵活性。图2-3 左至右交叉耦合连接的HMM由重估公式可以看出,如果HMM的任何参数造初始使设置为0,那么在整个重新估计过程中它仍然保持为零,所以这些加在由左至右或约
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业论文 基于 连续 隐马尔科夫 模型 语音 识别

链接地址:https://www.31ppt.com/p-4014001.html