语音端点检测算法的研究及matla程序仿真与实现毕业设计.doc
摘要语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和结束点,它的目的是为了使有效的语音信号和无用的噪声信号得以分离,因此在语音识别、语音增强、语音编码、回声抵消等系统中得到广泛应用。 目前端点检测方法大体上可以分成两类,一类是基于阈值的方法,该方法根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征,然后把这些特征值与设定的阈值进行比较,从而达到语音端点检测的目的,该方法原理简单,运算方便,所以被人们广泛使用,本文主要对基于阀值的方法进行研究。另一类方法是基于模式识别的方法,需要估计语音信号和噪声信号的模型参数来进行检测。由于基于模式识别的方法自身复杂度高,运算量大,因此很难被人们应用到实时语音信号系统中去。端点检测在语音信号处理中占有十分重要的地位,直接影响着系统的性能。本文首先对语音信号进行简单的时域分析,其次利用短时能量和过零率算法、倒谱算法、谱熵算法进行语音端点检测,并对这几种算法进行端点检测,并进行实验分析。本文首先分别用各算法对原始语音信号进行端点检测,并对各算法检测结果进行分析和比较。其次再对语音信号加噪,对不同信噪比值进行端点检测,分析比较各算法在不同信噪比下的端点检测结果,实验结果表明谱熵算法语音端点检测结果比其他两种方法好。关键词语音端点检测;语音信号处理;短时能量和过零率;倒谱;谱熵AbstractEndpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and un-useful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used.In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method based on the different characteristics of speech signal and the noise signals, a voice signal for each extracted feature, and then set the values of these thresholds compare with the values to achieve the endpoint detection purposes, This method is simple, it convenient operation, it is widely used, the main in this paper is based on the method of threshold method. Another method is based on the method of pattern recognition , it needs to estimate the speech signal and the noise signal model parameters were detected. Because is based on the method of pattern recognition and high self-complexity, a large amount of computation, so it is difficult to be use in real-time voice signal system for people.The Endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points. Firstly, the algorithm were used to the original speech signal detection, and the algorithm to analyze and compare results. Secondly, the speech signal and then adding noise, SNR values for different endpoint detection, analysis and comparison of various algorithms under different SNR endpoint detection results, experimental results show that the spectral entropy of speech endpoint detection algorithm results better than the other two methods. Keywordsvoice activity detection;Signal processing; Average energy use of short-term and short-time average zero-crossing rat; cepstrum; spectral entropy 毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、理解、表达情况 优 良 中 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日目 录摘要IAbstractII第1章 绪论11.1 课题背景11.2 语音端点检测现状11.3 相关工作21.4 本文主要研究内容3第2章 语音信号时频域分析及预处理42.1 语音信号简述42.2 语音信号分析42.2.1 时域分析52.2.2 频域分析52.3 语音信号分析处理72.3.1 预加重72.3.2 加窗分帧82.4 本章小结9第3章 语音端点检测算法研究103.1 语音端点检测103.1.1 简述103.1.2 语音端点检测原理103.1.3 语音端点检测算法及实施方案123.2 基于短时能量和短时过零率的语音端点检测143.2.1 短时平均能量143.2.2 短时过零率163.2.3 基于短时能量和短时过零率的双门限端点检测173.2.4 双门限语音端点检测实验193.3 基于倒谱特征的语音端点检测203.3.1 倒谱特征203.3.2 倒谱距离203.3.3 倒谱距离的检测算法流程233.3.4 基于倒谱特征的语音端点检测试验分析253.4 基于谱熵的语音端点检测263.4.1 谱熵特征263.4.2 基于谱熵的端点检测流程273.4.4 基于谱熵特征的语音端点检测试验分析283.5 算法比较303.6 本章小结33结 论35参考文献36致 谢37附录139附录245附录353附录461附录569第1章 绪论1.1 课题背景语音端点检测在语音识别中占有十分重要的地位。语音信号处理中的端点检测技术,是指从一句简单的话语中检测出每一个字体或字节的两个端点。是进行其它语音信号处理(如语音识别、讲话人识别等)关键的第一步。进行有效的语音端点检测能够对语音信号更好的进行分析和训练,这样语音识别才能有好的识别率1。实际运用中,通常要求首先对系统的输入信号进行判断,准确地找出语音信号的起始点和终止点。这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。目前,语音技术进入了一个相对成熟点,很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示,输入的硬件和软件平台环境也日益向高级化迈进,但语音技术比起人类听觉能力来还相差很远,其应用也才刚刚开始,进一步规范和建设语音输入的硬件通道、软件基本引擎和平台,使语音技术能集成到需要语音功能的大量软件中去。而且语音产业需要更加开放的环境,使有兴趣和实力的企业都能加入到这方面的研究和开发中,逐步改变。随着声控电子产品的不断研发,语音识别技术在开发和研究上还有大量的工作需要做。1.2 语音端点检测现状一个比较好的语音识别或者语音端点检测,不仅仅在其所用到的算法。大多数的语音识别都是对整个系统影响是非常大的,不仅仅是语音识别,也包括语音端点检测。平常的用于实验的也许差不多少,但对于一些高精度的检测或者识别则谬以千里。语音识别都是基于不同算法而进行的,所以每一种识别都要与不同算法相匹配。因此从信号段中检测出语音信号或者语音端点是语音识别的必要的预先处理过程2。随着科技的进步,技术的发展。语音识别、语音检测、语音合成都进入了一个跟高的阶段,语音识别在手机电脑上的应用也虽着科技进步而上升。然而,在一些比较嘈杂的环境下,或者专业一点的技术上的识别,随着信噪比的降低,噪声污染的多样性,噪声环境下的语音识别会大大的降低4。如,在我们身处的环境下,开门声、风扇、水声等等,都算背景噪声。而语音信号所处理的信号时一些纯语音信号,或者是把一些背景噪声降下去。而语音端点检测就是在语音中检测出语音信号和非语音信号,并把语音信号的两个端点给标记处理。语音端点检测是语音识别、语音增强以及语音编码等中的一个非常重要的环节而且必不可少的。有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后面工作的性能得以较大提高5,6。随着越来越多的学者对语音端点检测技术的关注,大量的新的语音端点检测算法相继被提出,而基于同一种算法又有不同的方法。例如对于熵值参数特征的检测算法,有基于信息熵7,8、基于自适应子带谱熵9、子带二次谱熵10、基于小波能量熵11、基于样本熵等的方法12。信息愈来愈趋近多样化。同样也有检测不同参数特征相结合来进行语音端点检测13,比如倒谱的方法14,15和熵谱相结合而形成的算法16。尽管算法和方法多种多样,都是为了更简便、更易于实现、运算量小、鲁棒性好等特点,并且对于不同的信噪比具有较好的效果。1.3 相关工作随着生活品质的不断提高,对声控产品的要求越来越高。基于语音端点检测的识别系统则有不可替代的作用,在不同的声控产品语音识别系统中,有效准确地确定语音段端点不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足。对于语音信号在低信噪比时的端点检测的研究有待进一步深入研究。当前,语音端点检测技术还处于比较初级阶段,许多领域还有待解决,还远远跟不上现代科技发展的脚步。对于现在噪声污染的环境的加重,还有信噪比的一直变化,语音端点检测还有待更深一步的研究。我们常常寻求新的方法,新的算法,或者在新算法上研究新的方法,更容易对人类声音的识别,或者更适于人耳听觉系统的算法。但这些算法都是基于一些旧的理论上研发出来的,因此这种领域是很难有更大的进步,但也正是考验创新的能力17。根据语音信号参数的特点可以从两个较大方向入手。一个是努力寻求新型的特征参数,再一个就是利用现有的特征参数采用多特征融合。这两大问题将是以后研究的主要对象18。1.4 本文主要研究内容第二章 ,简述了语音信号的一些基础知识,包括预处理、分帧、加窗。分析了语音信号的时域和频域,介绍了几种语音端点检测算法,简述了我的实施方案。第三章,从每一种算法的方程式入手,以原理简便、运算量小等方面为标准,通过大量的文献调研与实际研究,本课主题要研究语音起点和终点的检测,以短时能量和短时过零率相结合的双门限语音端点检测算法以及倒谱分析和谱熵技术等进行语音端点检测,并分析各算法在低信噪比和高信噪比条件下的检测效果进行对比。对这种信号进行Matlab进行编程,对于不同信噪比的声音片段,最后用前后的噪声信号进行对比以得出结论。第2章 语音信号时频域分析及预处理语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面,但是其前提和基础是对语音信号进行分析。语音端点检测是语音识别系统的前期处理,而语音信号的分析则是语音端点检测的前期处理。2.1 语音信号简述 通过对人们所说的语音进行研究和对语音频谱的分析,发现人们包括男女老少的语音频谱很集中,大部分都集中在3003400Hz范围内。我们可以对语音通过带通滤波器来得到我们所需要的频谱,就可以得到相应频谱所对的语音。然后对频谱范围内的语音进行采集采样,一般是8kHz左右的采样率,这样我们就可以得到离散时域的语音信号。如果想要更为精准的采样或者更为完全的采样域,我们可以相应的提高采样率或者提高采样范围,现在的语音检测现状都不在时传统的采样率,而是调整为自适应。语音信号有另一个非常重要的特性,就是要保持它的短时特点,所有的关于信号处理都是基于它的短时特性而研发的。因为语音信号只有在短时内才能保持它的稳定和平滑。就如同我们经常见到的短时能量、短时过零率,还有一些如同短时频谱和短时自相关函数。我们在进行语音处理过程中,所用到的参数都是短时内的参数特征,因此在预处理过程,必须有使信号保持短时的过程,即分帧,就是分为一个一个的短时。常常分的帧为几十毫秒,在这几十毫秒内,我们认为语音信号是保持平稳的。语音信号还有一个比较简单的分类,是基于人类发音的音素所分类的。一般可以分为清音和浊音两类。虽然中国与外国人的发音有所不同,但从音素上来说都是一样的。如果从短时性上来分析,就会很直观的发现清音和浊音的不同,一般来说,浊音在短时能量上拥有较高的波峰,而清音则一般就低一点。还有一类是无声,而无声是处于波谷。2.2 语音信号分析平常的语音信号处理包括一些语音识别、语音检测、语音编码、说话人识别等方面,这所有的检测都是基于对语音信号的识别,所以必须先对人们所说语音信号进行分析,则需要对语音信号短时性的特征参数进行提取分析。参数的提取,方法的创新,这都基于语音科技的发展。语音信号的处理归根还是对语音短时内的分析,语音端点检测的好坏、语音识别的精准度,这都根据语音信号分析的准确度。2.2.1 时域分析从一般的语音信号处理仿真来看,横坐标都是为时间,所以说,语音信号是时域信号,经常处理的语音信号也是基于时域来分析的,这种方法一般就是利用仿真的波形来处理。通常分析方法有基于短时能量、短时频谱、短时过零率、短时自相关函数等,这些短时性参数更为直观的显示语音信号的特性,因此在语音信号数字处理技术占有很重要的地位。进行语音信号分析时,先接触到并且直观的就是它的时域波形。时域分析常用于基本的参数分析,语音信号的分割、预处理与检测。这种分析方法的特点有:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算量少;(3)可得到语音的一些重要参数;(4)采用示波器通用设备进行观测等。取样之后对信号进行量化采样,而量化过程会产生量化误差,即量化后的信号与原信号之间的差值。2.2.2 频域分析语音信号频域分析,主要是对一些频域参数进行分析,常用一些频域参数的有频谱、功率谱等等,最常用频域分析的方法有傅立叶变换法、线性预测法等。2.2.2.1 傅立叶变换法 傅里叶变换是语音信号频域分析中最广泛使用的方法,并且是分析线性系统和平稳信号稳态特性最有力的手段。对加窗分帧后的语音信号,进行傅里叶变换后再逆傅里叶变换,可以相应的得到频谱、功率谱、倒谱距离、熵谱等特征。由于语音信号的特性是随着时间变化,所以采用短时傅里叶变换,相应的求得的特征为短时频域特征,这里的窗函数都采用汉明窗。(1)短时频谱和短时功率谱 设信号经过傅里叶变换后在频域记为,则与关系如公式(2-1): (2-1)语音的频谱为的幅度,则有: (2-2)语音的短时功率谱的是幅度的平方,其公式为: (2-3)(2)倒谱距离 语音信号的倒谱分析是通过同态处理来实现的。同态信号处理也称为同态滤波,是将非线性问题转为线性问题进行处理的方法。由于语音信号可以视为声门激励信号和声道冲击响应进行的卷积,随后可以对语音信号进行解卷。倒谱能很好表示语音的特征,在噪声环境下,可通过倒谱系数而求得倒谱距离,使用倒谱距离来作为语音端点检测的特征。信号的倒谱也可以定义为信号的能量谱密度函数的对数的傅里叶级数展开式的系数,见式2-4: (2-4)即为倒谱系数,通过倒谱系数求得倒谱距离为: (2-5)(3)熵 熵(用表示)是物质的概率程度的一种反映。熵代表的信息量,当的分布概率相等时,熵取最大值,也就是说,的概率分布越随机,越难判断,值也就越大。设是取有限个值的随机变量则取的概率函数通常表示为: (2-6)则的熵为: (2-7)2.2.2.2 线性预测法 线性预测分析的基本原理如下:语音信号分帧采样后,各个语音样点之间存在着联系,可以用前几帧的采样点来预测当前帧或者后几帧的样点值,即可以用先前的帧的参数值通过线性组合来近拟后面的帧的采样值。这样通过抽样和线性组合得到的采样值只有唯一的组合系数。这组预测系数就反应了语音信号与噪声不同的参数特征,根据这种参数特征,就可以进行语音端点检测和语音识别等一系列语音信号的处理。将线性预测应用与语音信号分析,不仅仅是因为它的预测功能,而且更为重要的是由于它可以提供一个非常好的声道模型和模型参数估计方法。线性预测的原理与语音信号数字模型相关。2.3 语音信号分析处理为了消除人类发声器官本身和一些采集语音信号的设备等所引发的混叠、高次谐波失真现象,在对语音信号进行分析及处理之前,须对其进行预处理。语音信号的预处理应保证处理后得到的信号更平滑、均匀,而且能提高语音的质量。2.3.1 预加重在进行语音信号数字处理时,它们的功率谱随频率的增加而减小,其大部分能量集中在低频范围内。这就造成消息信号高频端的信噪比可能降到不能容许的程度。但是由于消息信号中较高频率分 量的能量小,很少有足以产生最大频偏的幅度,因此产生最大频偏的信号幅度多数是由信号的低频分量引起。平均来说,幅度较小的高频分量产生的频偏小得多。为此在预处理中先进行预加重处理。目的是提升高频部分,使信号变得平坦、平滑,使之不仅在低频而且在高频的整个频带中,可以用相同信噪比求频谱如图2.1:采样量化预加重加窗分帧参数提取语音信号图2.1 语音信号的预处理预加重是在语音信号数字量化之后,用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它通常是一阶的数字滤波器: (2-8)式中的取值一般取1左右。有时需要恢复原信号,需要从做过预加重的信号来求实际的频谱,需要对测量值进行去加重处理,即加上6dB/倍频程的下降的频率特性来恢复原来的特性。2.3.2 加窗分帧语音端点检测首先要进行加窗分帧处理,然后依次判断每一帧的信号是否为语音的起点或终点。而在语音端点检测时如果采用大的窗长,则帧长长,帧数少,这样计算量会小些,而且进行语音端点检测时速度会快些,但是这样语音端点检测的误差会增加。如果采用小的窗长,则计算量增加,语音识别的速度可定会降低。所以我们在语音端点检测时,采用适量的窗,可以确切判断语音的起始点,会有比较快的速度,也不会有太大的运算量。但至于选帧,则需要根据实时而定,不同的算法也会有不同的窗长。在进行了预加重后,要对语音信号进行加窗分帧处理。通常将语音信号划分为许多短时的语音时段,每个短时的语音段称为一个帧。帧和帧之间可以连续,也可以重叠。重叠是为了是语音信号各帧之间保持平滑,差别不至于太大,更符合人们的语音特征。为了能够符合实际而且能精准的描述语音信号能量的实际中的变化规律,通常将窗宽选为几十毫秒左右。分帧一般采用交叠分段的方法,这就是为了使帧与帧之间能够很好的平滑过渡,使其保持连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般在00.5之间。分帧用可移动的窗口长度进行加权实现,即用窗函数乘以语音信号s(n),从而形成加窗的语音信号: (2-9)由于窗函数一般取为S(n)中间大两头小的光滑函数,这样的冲激响应所对应的滤波器具有低通特性,其带宽和频率取决于窗函数的选取。用得最多的三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。它们的定义如下: 矩形窗: (2-10)汉明窗: (2-11)汉宁窗: (2-12)式中N为窗长,窗函数的选取(形状和长度)对于短时分析参数的特性影响很大,为此应该选择合适的窗口,使其短时参数能更好地反映语音信号的特性变化。2.4 本章小结本章分析了语音信号的时域和频域的一些特征,并列举了语音的几个特征参数,如熵、短时能量、倒谱特征等。介绍了语音信号前期处理的两个步骤:预加重、加窗分帧。有时要恢复原信号,则需要从做过预加重的信号频谱来求实际的频谱时,并且要对测量值去加重处理,即加上6dB/倍频程的下降的频率特性来还原成原来的频谱特性。语音信号为时域信号,分帧则有助于计算语音信号的各个参数特征,可以对语音信号进行平滑处理,是进行语音端点检测必不可少的步骤。第3章 语音端点检测算法研究本章将重点介绍语音端点检测的原理,本章还对语音端点检测算法的进一步研究,列举了三种不同的语音端点检测算法,并对每一种语音端点检测算法进行了实验仿真,最后对各种算法优缺点进行了比较。3.1 语音端点检测3.1.1 简述语音端点检测是语音识别中的一个很重要的步骤,所谓语音端点检测就是将输入的语音信号从背景噪声和环境噪声中能够准确地判断出语音信号中各种语音的起始点和结束点。理想的端点检测算法应当具有以下几个特征:可靠性、自适应性、实时性、鲁棒性和精确性。在语音识别系统中,正确的检测出语音端点,不仅能够快速且准确的进行语音识别,而且能够减小计算量,排除无声段干扰,实验发现,不管在什么环境或者什么样信噪比的环境下,语音端点检测的错误将导致语音识别的错误。除此之外,在语音合成、编码等一系列语音信号处理系统中,较好的语音端点检测会影响语音识别系统的主要性能。因此,语音端点检测的速度和准确率在语音处理系统中会非常重要,因此进一步的对语音端点检测算法的研究,有一定的现实意义。3.1.2 语音端点检测原理语音端点检测的原理就是基于语音段和噪声段对于一些语音信号的参数会表现出不同的特征,通过对特征参数的区别就能对语音信号进行端点检测。得到一个语音信号,先对其进行预处理,使低频和高频在信噪比参数上表现的平滑,易于检测。然后加窗分帧,使之在短时特性上表现的连续、平滑。通常分帧时会有帧与帧之间的帧移,以防止信号的突变,影响端点检测。再后面就是对特征参数的提取,不同信噪比会有不同的易于区别噪声和语音的特征参数。端点判决就是根据噪声和语音特征参数的不同,设置一定的门限,再设置一些相应的最短语音段以方便检测。在检测过程中,参数提取和端点的判决尤为显得重要。参数提取意义在于提取的参数能够分辨出语音和非语音信号。本文所进行的语音端点检测,其就是检测出噪声与语音信号的差别,并标记出来。语音是人体所发出的声音,其物理原理是源于声带的振动。而噪声一般是源于外界物理碰撞所引起的振动。这两者在频率、能量上有很大的差别。如本文采用的短时能量和短时过零率相结合的算法是基于能量差别,而倒谱和谱熵则是基于其他的特征参数。人的语音又可以分为清音和浊音两类,其在能量上就可以分出来,而清音和浊音在短时过零率上可以分别出来。所以参数的提取,直接影响到语音端点检测的性能。语音端点检测流程如图3-1所示:预处理参数提取端点判决是否信号最后一帧后处理 信号输入 是 结果输出图3-1 语音端点检测流程图噪声信号常常为说话人周围的噪声,不同环境下的噪声信号也不同,所以特征参数会有变化。端点检测时通过估计后噪声比基于不同的噪声而设定的不同门限。设定一定的门限后,当超过设定值,而且超过最小语音段的几帧也可以超过设定值,则会被认为是语音信号。当最后几帧值低于设定值,而且后几帧的值低于设定值且大于最小噪声信号,则被认为是语音结束。最初为单门限,后逐渐改为双门限,随着科技的发展,又转变为模糊理论或者多特征参数相结合的方式。一种较好的语音端点检测算法通常应具备如下四个特征:(1)语音端点检测的准确率高,尤其对于清音段端点能够正确判决;(2)端点检测算法须具有对绝大多数噪声鲁棒性、抗干扰能力;(2)端点判决准应具有自适应性,而不是仅仅简单的门限判决;(4)检测算法应较简单,而且运算量较小,便于实现硬件仿真。以上特征分别是从语音端点检测的自适应性、准确性、稳定性、和运算量上对算法提出要求。3.1.3 语音端点检测算法及实施方案语音端点检测算法是各种语音信号分析的综合处理,到目前为止还没有很正规的分类方法。但我们可以按照实际应用的范围分类,当然也可以按照所使用的特征参数准则分类。按照所采用的特征参数或分析方法的不同,本论文将语音端点检测的算法或方法分为:(1)时域参数方法 主要是指基于短时能量、过零率和短时自相关及一些其他时域参数(如最小均方参数、对数能量、绝对值能量等)的方法。此外,基于自适应门限的方法也归入这一类;(2)变换域参数方法 包括基于频域参数、时频域参数及小波域参数的方法。此外,还包括一些基于Walsh谱能量分布和Hilbert-Huang变换的检测方法;(3)信息论方法 主要是根据概率等得出信号所包含的信息量,放到端点检测算法中去,本文所选取的谱熵也属于这类。(4)距离和失真测度方法 最常用的是倒谱距离,由梅尔系数推出倒谱系数,再得出梅尔倒谱距离,具有很好的语音检测;(5)人工神经网络方法 包括基于前馈网络、径向基函数网络、多层感知器网络、自组织循环自组织模糊推理神经网络和自适应线性神经元网络等的方法;(6)统计模型和模式分类方法 主要是指基于HMM模型。此外,还会有一些基于其他如多统计模型、似然检验、模式识别、模糊逻辑等方法;短时能量和过零率相结合的方法常用于高信噪比下,而现实生活中的语音信号常为低信噪比。谱熵的大小取决的是功率谱的方差不是其大小,如果谱的分布保持不变,信号幅值的大小不会影响归一化谱概率密度函数,因而谱熵对于噪声有一定的鲁棒性。倒谱能很好表示语音的特征,在强噪声环境下,常常采用倒谱系数来作为端点检测的特征量。因此在低信噪比下将选择熵值或者倒谱特征参数来进行语音端点检测。本文拟用