语音识别在交通等待提醒中的应用研究毕业论文.doc
-
资源ID:3993217
资源大小:828KB
全文页数:35页
- 资源格式: DOC
下载积分:8金币
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
语音识别在交通等待提醒中的应用研究毕业论文.doc
毕 业 设 计设计题目: 语音识别在交通等待提醒中的应用研究 学生姓名: 学 号: 20104873 专业班级: 电子科学与技术10-1班 指导教师: 院系名称: 电子科学与应用物理学院 目录中文摘要····························································1英文摘要····························································21 绪论·····························································3 1.1 设计背景······················································3 1.2 任务目的······················································3 1.3 设计思路······················································32 语音识别概述·····················································5 2.1 语音识别的基本原理············································5 2.2 目前仍存在的问题··············································5 2.2.1 语音识别的方言和口音问题································6 2.2.2 信道问题················································6 2.2.3 背景噪音问题············································6 2.2.4 自然语音理解领域········································6 2.2.5 语音合成················································6 2.3 语音识别的基本过程···········································6 2.4 语音识别技术的前景与发展·····································73 基于隐马尔科夫模型的语音识别系统·································10 3.1 语音识别的系统结构···········································10 3.1.1 语音识别的整体层次模型··································10 3.1.2 语音识别的框架··········································10 3.1.3 语音信号的产生模型······································10 3.2 语音信号预处理···············································11 3.2.1 语音信号模数变换和滤波··································11 3.2.2 预加重··················································12 3.3 语音特征参数提取·············································12 3.3.1 线性预测倒谱系数LPCC····································12 3.3.2 MEL倒谱系数MFCC·········································13 3.3.3 MFCC系数和LPCC系数的比较································13 3.4 HMM应用于语音识别············································14 3.4.1 HMM模型的选取···········································14 3.4.2 拓扑形式和状态个数选取··································14 3.4.3 HMM的训练···············································15 3.5 语音识别·····················································15 3.5.1 基于HMM汉语数码孤立词识别·······························15 3.5.2 连续语音识别·········································154 语音识别的实现··················································17 4.1 硬件电路设计················································17 4.2 STC90LE52RC单片机···········································18 4.3LD3320语音识别模块··········································18 4.4 语音报站的实现··············································19 4.4.1 创建MP3播放文件········································19 4.4.2 程序的编写·············································19 4.4.3 程序的烧录·············································21 4.4.4 报站的实现·············································22结束语·····························································24致谢·······························································25参考文献···························································26 语音识别在交通等待提醒中的应用摘要:语音识别技术Automatic Speech Recognition(ASR),其目标是将人类语言 的词汇内容转换为计算机可读的输入,例如按键、二进制编码以及字符序列。 语音识别技术是一种可以让机器通过识别和理解把语音信号转变为相应的 文本或命令的高技术,也就是我们通常所说的让机器可以听懂人类的语言。 现如今,交通拥堵日趋严重,因此服务于地铁的各种电子产品也相继出现。 本文以解决乘客做过站的问题为目的,提出了将语音识别应用于交通等待提 醒的解决方案。本文中唤醒系统以STC90LE52RC单片机板和LD3320语音识 别模块为核心,辅以内存卡、MP3播放器等器件,通过对报站语音的识别来 判断所到达的站点,并对所识别的语音进行判断,实现识别特定语音给出提 醒,达到唤醒功能。 关键词:语音识别;STC90LE52RC;语音识别模块;唤醒系统 Speech Recognition In The Application Of Traffic Wating To RemondAbstract:The speech recognition technology automatic speech recognition(ASR),the goal is to convert the lexical of human language to computer readable input. For example,key-press the binary code and key character sequence.The speech recognition technology is to allow the machine by identifying and understanding the process of the technology of voice signal into a command or corresponding text that is let the computer understand human language .Nowdays,traffic congestion is becoming more and more serious,so the service in the various electronic products emerge as the times require.This paper solves the passengers for some reason and did the sites solution to the problem,the speech recognition can be applied to traffic wating remend,the realization of a wake-up system.The wake-up system with STC90LE52RC single chip board and a speech recognition module as the core,with the memory card,audio player device.Through the recognition of speech to stop judging by the arrival of the site,and to judge the speech recognition, identification of the specific speech and give advise,to wake up function.Keywords:Speech recognition;STC90LE52RC;The speech recognition modul;wake-up system1绪论1.1 设计背景自从人类可以制造和使用各种机器以来,人们就有一个理想,那就是让各种机器能后听懂人类的语言并能按照人的口头命令来行动,从而实现人机的语言交流。随着科学技术的不断发展,语音识别(Speech Recognition)技术的出现,使人类的这一理想得以实现,语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术的结合,使人们能够甩掉键盘,通过语音命令进行操作,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今,语音识别产品在人机认交互应用中已经占到越来越大的比例。随着经济的发展和城市化进程的加剧,城市交通面临巨大的压力。而为了缓解交通的拥堵局面,各地纷纷兴建城市轨道交通,其中最主要的地铁。本文就将研究一种面向于地铁乘客的唤醒器,地铁与公交已经成为我们出行不可分割的一部分,为我们的生活提供极大的便利。但是我们有可能因为坐过站而造成不必要的麻烦。本文旨在通过语音唤醒来提醒乘客是否到站,让乘客能够避免错过站。1.2 任务目的 本文旨在模拟实现基于语音识别的地铁唤醒系统。通过对报站语音的识别,并分析其识别结果,判定是否为所需要的站点。若为所需要的结果,则系统通过语音提醒乘客到站,从而达到唤醒功能。否1.3 设计思路是 唤醒语音识别 模块 识别结果 结果判断 输入 图1-1地铁乘客唤醒器流程 本文的设计流程如图1.1所示。该系统的核心是语音识别模块,首先通过程序设定需要唤醒的站点,然后利用语音识别模块对输入语音进行识别并对比识别结果,如果识别结果为设定结果,则提示到站的语音,提醒到站。若识别结果不是所需的结果则不进行唤醒并进入下一次识别状态。2 语音识别概述近些年来,随着计算机、通讯技术的飞速发展,语音识别技术的重要性进一步得以体现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。现在,语音技术的应用已经成为一个具有竞争力的高新技术产业,语音识别正逐步成为信息技术中人机接口的关键技术。将语音识别技术应用于机器人,使机器人能够按照人的语音命令进行操作,这就是机器人听觉。机器人听觉是机器人智能水平的一个重要标志。因此,学习语音识别技术的基本原理和方法,对进一步研究开发智能机器人的功能有重要作用。2.1 语音识别的基本原理 一般的语音识别系统都采用了模式匹配的原理。从图2-1中可以看出语音识别一般分两个步骤。第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型,即构建参考模式库。第二是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所需要的语音特征参数,按照一定的准则和测度与参考模式库中的模型进行比较,通过判决得出结果。识别 模式匹配结果输入语音 预处理特征提取 参考模式库 图2-1语音识别系统的原理结构2.2 目前仍存在的问题21世纪作为“语音的世纪”除了蕴含无限的商机以外,也表明了它们存在发展的空间。概括地讲,有这样一些问题急需解决。 2.2.1 语言识别的方言和口音问题中文有八大方言区,现在很多语音识别系统,对标准普通话的识别性能很好,但是一旦有方言或者口音,性能就会马上下降。解决这个问题有着非常重要的意义,这将极大地拓展该技术的使用空间,因此必须下力气解决好这个问题。 2.2.2 信道问题我们知道在无线互联应用中,涉及到的信道种类可能会很多,比如固定电话、手机、IP、网络、车载系统等等,各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。 2.2.3 背景噪音问题语音识别、声纹识别、语音理解等系统往往在有背景噪音时就不能正常工作了,这是由于背景噪音破坏了原始语音的频谱,或者说把原始语音部分或全部掩盖在噪音当中,因而无法准确地分离出来的缘故。解决好背景噪音的问题也是技术上面临的挑战之一。 2.2.4 自然语音理解领域我们必须有很好的理论和技术去解决口语语言现象,比如口语中的重复、改正、强调、倒叙、省略、拖音、韵律等等。 2.2.5 语音合成应该说现在的语音合成技术做得很好,能够把给它的文本正确地发出声音来,但是其中存在着一个很大的问题,就是它的声音不够自然。语音合成当中,怎样能够很好地把感情色彩、情绪等正确地表达出来,也需要进一步去研究。首先要解决的一个问题就是必须先对这句话(甚至整个段落)进行理解,理解之后才能够知道如何把韵律加进去,如何表达感情和情绪等。2.3 语音识别的基本过程 任何语音识别系统的基本识别过程如图2-2所示。 由图可见,语音识别的基本过程包括: (1)采样,将模拟信号数字化; (2)确定输人信号(单元或词)的起始端和终止端,通过语音检测器对语音信号的幅度值是否超过最低限值来判定; (3)由数字滤波器直接地或由模拟滤波器间接地计算语音谱; (4)音调轮廓图估价; (5)分解输人信号,鉴定语音的特征; (6)单词识别,既可利用“自底朝上”技术将输人的语音特征与所需要词汇的特征比较而确定,也可以利用“自顶朝下”技术在数据库的模式中确定全部输人单元代表的词语; (7)对输人信息做出响应,即显示相应的词汇或字符串等。说话者或语音 发生器 拾音器 噪声采样和量化确定输入单元首尾计算语音谱估价音调轮廓分解语音特征单词识别(产生词典式或数码式书写的形式)对信息的响应信息存储输入的正字法表示图2-2 语音识别的基本过程2.4 语音识别技术前景与发展 1952年,AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年,Fry和Denes等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关键技术。 语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交换机、电话机、手机已经包含了语音识别拨号功能、语音记事本、语音智能玩具等产品,同时也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息。调查统计表明,多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测在近5年内,语音识别系统的应用将更加广泛,各种各样的语音识别系统产品将不断出现在市场上。语音识别技术在人工邮件分拣中的作用也日益显现,发展前景诱人。一些发达国家的邮政部门已经使用了这一系统,语音识别技术逐渐成为邮件分拣的新技术。它可以克服手工分拣单纯依靠分拣员记忆力的不足,解决人员成本过高的问题,提高邮件处理的效率和效益。就教育领域来讲,语音识别技术的最直接的应用就是帮助用户更好地练习语言技巧。语音识别技术的另一个发展分支就是电话语音识别技术的发展,贝尔实验室是这方面的先驱,电话语音识别技术将能够实现电话查询、自动接线以及一些专门业务如旅游信息等的操作。银行应用了语音理解技术的声讯查询系统后,可不分昼夜地为客户提供二十四小时的电话银行理财服务。而证券业方面,若是采用电话语音识别声讯系统的话,用户想查询行情便可以直接讲出股票名称或代码,而系统确认用户的要求后,会自动读出最新的股票价,这将大大方便用户。目前在114查号台还有大量的人工服务,如果采用语音技术,就可让计算机自动接听用户的需要,然后回放查询的电话号码,从而节约了人力资源。 3 基于隐马尔科夫模型的语音识别系统面向不同任务的语音识别系统有多种可选设计方案,但系统的结构和模型思想大致相同。本章首先从隐马尔科夫模型角度切入介绍语音识别的整体层次模型,同时结合孤立词语音识别设计,对语音信号的预处理、特征函数提取、DTW算法原理作详细介绍。3.1 语音识别的系统结构 3.1.1 语音识别的整体层次模型对人类语音通信过程的分析表明,人类产生、理解语音的过程是逐步进行的,尽管这个过程中的一些机理还没有完全被弄明白(例如听觉机理、神经系统控制和模拟),我们仍可认为:语音识别就是将语义信息从声波上“解调”的过程,语音识别系统可类比于通信系统的接收机(语音合成系统相当于发射机)。这样给我们一个信息:我们可否仿照通信系统中的OSI(开放系统互连)模型的建立,将语音识别定义为层次模型,这样可以更清晰化的理解语音识别的整体结构。实际上,在许多已有的语音识别系统中,研究人员或多或少地采用了分层处理的方式来设计语音识别系统。 3.1.2 语音识别的框架 语音识别系统本质属于模式识别的范畴,识别中的语音层、语言层知识都涵盖在模式匹配的模型中。计算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板。然后,据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 3.1.3 语音信号的产生模型 讨论语音识别系统实现前,将语音信号的产生模型作为独立模块拿出。作为语音信号处理的基础之一,在后面章节的讨论中,线性预测、预加重、同态信号处理等概念都依赖于语音信号产生模型。 语音信号可以看作是激励信号激励一个线性系统而产生的输出。其中,浊音信号是由一个周期性的J脉冲串激励线性系统成生输出,这个线性系统由声门脉冲模型、声道模型、辐射模型级联而成。系统传输函数为: (3-1) 激励信号是一个周期性的脉冲串:,那么浊音信号就是两者的卷积结果,即: (3-2) 而清音信号是由白噪声序列激励一个线性系统而产生输出,这个线性系统由声道模型和辐射模型级联而成。系统传输函数为: (3-3) 激励信号假定为白噪声序列,于是有: (3-4) 语音信号是一种典型非平稳信号,特性是随时间变化的。但是在5ms50ms这样的短时内,其频谱和某些物理特征量可以看作是不变的,这就是语音信号处理短时平稳统计特性的基础。我们将语音信号分割为一些短段(分析帧),这些短段就好像来自一个具有固定特性的持续音片断,对该短段进行处理就相当于对固定特性的持续语音进行处理。通常帧有一些叠接,使得帧与帧之间平滑过渡,保持语音信号的连续性。对每一帧的处理结果或是一个数或是一组数,经过处理以后产生个新的依赖于时间的序列,而用于描述语音信号。3.2 语音信号预处理 语音信号预处理是负责语音特征参数提取前的准备工作,包括:抗混叠滤波、模数变换、分帧、预加重处理等。 3.2.1 语音信号模数变换和滤波 计算机分析人的语音,需将话筒中传来的语音信号转换成计算机所能处理的数字信号。根据Nyquist采样定理,信号的采样频率只需大于信号带宽两倍以上()即可保证信号的采集不会丢失信息。模数转换前的滤波主要作用: 1高通滤波器抑制50Hz电源噪声干扰。 2、低通滤波器滤除语音信号中频率分量超过采样频率一半的部分,防止采样信号混叠。 语音信号的音频范围在20Hz到20kHz之间,其中绝大部分能量是集中在以内,一般语音信号的采样频率为lOkHz或16kHz,这样做对语音信号的清晰度有损害,但只是少数辅音损失,语音信号本身有较大的冗余度,少数辅音清晰度下降并不影响语音的理解。例如ITU数字电话G.71l协议,采样频率为8kHz,只利用了3.4kHz以内的语音信号。 3.2.2 预加重 语音产生的辐射模型中,由辐射引起的能量损耗正比于辐射阻抗的实部,辐射模型是一阶类高通滤波器结构,语音信号从嘴唇辐射后有(倍频程)的衰减。因此,对语音信号进行分析之前,一般要对语音信号加以提升。提升的方法有两种:一是模拟电路实现:再是用数字电路实现。采用数字电路实现高频加重滤波器的形式为: (3-5) (3-6) X(n)原始信号序列,Y(n)预加重后序列,预加重系数,通常取值0.98或1.0,H(z)幅特性和相位特性通过预加重滤波器后,语音信号的频谱变得平坦,使得在全频带范围内使频谱的S/N归一化。3.3 语音特征参数提取 语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。在语音识别中,我们不能将原始波形直接用于识别,必须通过一定的变换,提取语音特征参数来进行识别,而提取的特征必须满足: 1特征参数应当反映语音的本质特征,对于非特定人语音识别,特征参数则应尽量不含有说话人的信息。 2特征参数各分量之间的耦合应尽可能地小,以起到压缩数据的作用。 3特征参数要计算方便,最好有高效的算法。 语音特征参数可以是能量、基音频率、共振峰值等语音参数,目前在语音识别中较为常用的特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC)。二者都是将语音从时域变换到倒谱域上,前者从人的发声模型角度出发,利用线性预测编码(LPC)技术求倒谱系数。后者则构造人的听觉模型,以语音通过该模型(滤波器组)的输出为声学特征,直接通过离散傅利叶变换(DFT)进行变换。 3.3.1 线性预测倒谱系数LPCC在之前我们提到了语音信号分析过程中经常要用到一个重要的语音产生模型声道模型。声道模型是将人从喉到嘴唇这一段发音腔体用一系列截面积不同的均管来模拟。根据声管的声学模型,利用物理学知识,我们可以计算出这段声管模型与信号处理中的全极点模型相类似。因此,我们可以应用信号处理中已有的算法对其进行处理。在这个语音产生的声道模型中,语音中的浊音部分可以认为是由一连串有规律的周期信号(此周期与浊音的基音周期相吻合)来激励不同形状的声道模型而产生;而清音部分则被认为是由一连串无规律的白噪声信号激励声道模型而产生的。凶此,若能准确地估计出声道的形状或模型参数,我们就有望用此模型参数作为语音信号的特征来完成语音信号的识别任务。数字信号处理中,可以用LPC(线性预测编码)的算法来估计出此全极点模型的参数。线性预测是最佳线性向前一步预测,语音信号线性预测的基本思想是:语音信号的每个取样值,可以用它过去若干个取样值的加权和(线性组合)来表示;各加权系数的确定原则是使预测误差的均方值最小。 在语音识别系统中,利用同态处理方法,通过对LPC系数求离散傅立叶变换(DFT)后取对数,再求反变换iDFT可得到线性预测倒谱系数LPCC。 3.3.2 MEL倒谱系数MFCCMEL倒谱系数(Mel Frequency Cepstrum Coefficient)的提出是基于人的听觉模型,MEL是音高单位,音高是一种主观心理量,是人类听觉系统对声音频率的感觉,近似公式可以表述为: (3-7) 根据生理学的研究结果,人耳对不同频率的声波有不同的听觉灵敏度,从200Hz到5kHz之间的语音信号对语音的清晰度影响最大。低音掩蔽高音容易,反之则难,在低频处的声音掩蔽的临界带宽较高频端要小,当两个频率相近的音调同时发出时,人只能听到个音调,临界带宽就是这样一种令人的主观感觉发生突变的带宽边界,MEL刻度是对这一临界带宽的度量方法之一。据此,人们从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器日。对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征。 3.3.3 MFCC系数和LPCC系数的比较与LPCC参数相比,MFCC参数具有以下优点:1语音的信息大多集中在低频部分,而高频部分易受环境噪声干扰。MFCC参数将线性频标转化为Mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰。LPCC参数是基于线性频标的,所以没有这一特点。2MFCC参数无任何前提假设,在各种情况下均可使用。而LPCC参数假定所处理的信号为AR信号,对于动态特性较强的辅音,这个假设并不严格成立。另外,当噪声存在时,AR信号会变为ARMA信号: 其中为受噪声污染的信号功率谱,1为AR信号功率谱,为噪声功率。这会给LPC分析的结果带来较大误差。因此,MFCC参数的抗噪声能力也优于LPCC参数。3.4 HMM应用于语音识别 语音在短时内(5ms50ms)认为是平稳的,可用一些线性模型来描述。而从整体上来说,语音信号是时变的,用模型表示时,参数要时变。因此,简单的考虑方法:短时内用线性模型参数来表示,然后将这些短时线性模型在时间上串接,这就是Markov链:通过另一个随机过程描述状态和观察值之间的统计对应关系。HMM通过状态转移概率对基元发音速率建模,通过依赖状态的观察输出概率对基元发音的声学变化建模,这就是HMM应用于语音识别的思想。 3.4.1 HMM模型的选取 上一节中提到HMM三个问题的解决及其算法是针对离散隐马尔可夫(Discrete HMM)进行的,需要与矢量量化(VQ)相配合。在DHMM中,观测序列O经过矢量量化后,系统一旦通过训练建立了VQ码本的离散概率,输出概率仅需要查表就可以完成,但由矢量量化引起的误差不利于提高模型的精度。因此DHMMVQ适合训练样本较少、计算、存储资源有限的场合。 连续密度HMM(Continuous Density HMM)和离散HMM的区别就在于输出概率函数的形式不同,CDHMM允许状态输出的观测矢量是连续的,这种模型性能的好坏取决于假定的概率分布是否符合实际情况。通常选取几个中心不同、离散度不同的高斯混合密度函数,即用多个高斯分布的加权和来近似观测矢量的真实概率分布,大大扩充了HMM的建模能力。 3.4.2 拓扑形式和状态个数选取 HMM的状态转移矩阵(爿参数)的不同,决定了HMM的不同结构。左右模型的状态转移只能是从左到右进行或驻留原来转态,雨不能出现返回到以前状态的情况。在状态转移矩阵上具有上三角阵形式:,。 即状态转移必须从第一个状态开始。对于考虑随时间变化的信号,利用从左到右模型来建模比较合适,因为其能反映时序结构。在语音识别中一般使用从左自右的HMM模型,同时,模型的选取虽然限制了系统转移概率,但对HMM的三个问题并没有产生任何影响。 基于状态的HMM系统中,任何一个状态下停留时间的分靠并没有在系统的参数组中表示出来,在某个状态停留时间服从指数衰减分布,这显然与实际语音中稳定段相对应持续时间的长度规律并不相符。解决方法提出引入状态时间持续函数作为HMM模型来描述语音,其固然增加模型的准确度,但计算量急剧增加。 3.4.3 HMM的训练 相对于识别过程,语音数据的训练要复杂的多,一般要求系统很高的计算能力。同时有很强的理论指导,才能得到良好的训练结果。 在经典的Baum-Welch算法中,参数重估公式是在假设只有个观察序列的条件下推导出来的。而在实际应用中,都是有大量的观察序列参与训练,也就是对每个HMM模型,都会收集到大量的语音数据,分别计算出各自的特征参数序列再用来对HMM的参数进行重估。3.5 语音识别 3.5.1 基于HMM汉语数码孤立词识别