本科论文虚拟仪器技术语音识别系统.doc

上传人：仙人指路1688

文档编号：4025982

上传时间：2023-04-01

格式：DOC

页数：64

大小：1.56MB

《本科论文虚拟仪器技术语音识别系统.doc》由会员分享，可在线阅读，更多相关《本科论文虚拟仪器技术语音识别系统.doc（64页珍藏版）》请在三一办公上搜索。

1、1 绪论语音是人类进行相互通信和交流的最方便、最快捷的手段。在高度发达的信息社会中，用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网络中最重要、最基本的组成部分之一。非特定人连续语音识别在电话拨号系统、家电遥控、工业控制、信息查询系统等领域有广泛应用。在本文中，将虚拟仪器技术应用于语音识别系统，实现了仪器的软件化，真正体现了“软件就是仪器”的思想。利用计算机强大的图形环境和硬件资源建立的图形化的虚拟仪器面板，实现对语音信号的实时采集、分析处理与特征提取等，利用软件实现仪器功能的模块化、智能化，使其具有成本低廉、数据分析便利和设备管理良好等优点。本章综述了语音识别技术的学

2、科背景、发展历程，介绍了当前语音识别领域的主流技术、典型系统及其应用前景，特别分析了汉语语音识别的难点，阐明了本论文的研究框架和内容。1.1 语音识别的学科背景与发展历程语音是人类最自然、最常用的交流方式，语音识别是近半个世纪发展起来的新兴学科，其目标是使机器“听懂”人的自然语言。由识别得到的信息可作为控制信号在工业、军事、交通、医学、民用等各个方面都有着广阔的应用前景，例如声控电话交换、语音拨号系统、各类语音声讯服务（股票信息、天气预报等）、智能玩具、语音呼叫中心等。语音识别技术将大大改善人机交互界面，提高信息处理自动化程度，具有巨大的社会、经济效益。正因为如此，语音识别正迅速发展为“改变未

3、来人类生活方式”的关键技术之一。作为专门的研究领域，语音识别又是典型的交叉边缘学科，它要依赖众多学科的科研成果。从计算机学科角度来看，它属于智能计算机的智能接口部分；从信息处理学科来看，它属于信息识别的一个重要分支；从通信及电子系统、电路、信号及系统定学科来看，它又可视为信息和通讯系统的信源处理科学；而从自动控制学科来看，它则可堪称模式识别中的一个重要部分-时序模式识别；此外，语音识别与声学、生理学、心理学、语音学、语言学有着密不可分的联系，而且语音识别与语音压缩、语音合成、语音增强、说话人识别等语音研究有着更为直接、紧密的关系。语音识别是颇具挑战性的研究领域，仅从模式识别角度来看，语音信号属

4、于瞬时事件性信号，同时它又是时变的非平稳随机过程，有内在的多种可变性，这使得语音识别成为多维模式识别中一个很难的课题。语音识别系统根据对语音方式要求的不同，可以分为孤立字（词）语音识别系统，连接词语音识别系统以及连续语音识别系统；根据对说话人的依赖程度，可以分为特定人和非特定人语音识别系统；根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。不同的语音识别系统，虽然实现细节有所不同，但所采用的基本框架相类似，其关键技术主要包括特征提取技术、模式匹配和数据训练技术三个方面。语音识别的研究工作大约开始于20世纪50年代，当时AT&T贝尔实验室实现了第一个可识别10个英

5、文数字的语音识别系统。60年代，这时期的重要成果是提出了线性预测分析技术（LP）和动态规划（DP），前者较好的解决了语音信号产生模型的问题，后者则有效解决了不等长语音匹配问题，对于语音识别发展产生可深远的影响。70年代语音识别领域取得了突破：在理论上，LP技术得到进一步发展，DTW（Dynamic Time Warp）技术基本成熟，特别是提出了矢量量化（VQ）和隐马尔科夫模型（HMM）理论；在实践上，实现了基于LPC和DTW技术型结合的特定人孤立语音识别系统。80年代，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。语音识别算法从模版匹配技术

6、转向基于统计模型技术，语音模型也从规则描述转向统计描述。连接词语音识别系统、连续语音识别系统相继出现，其中1998年美国CMU大学基于VQ/HMM开发的997词非特定人连续语音识别系统SPHINX具有里程碑的意义。 90年代以来，语音识别技术在多项关键技术上更加成熟，同时在计算机技术、电信应用等领域飞速发展的带动下，出现了一批走向实用化的语音识别系统和语音服务应用。在嵌入式应用中，出现了可以语音拨号的手机、与人对话的智能玩具；在计算机应用中，出现了以IBM Via-Voice为代表的语音录入系统；在商业服务中，出现了以语音识别、语音合成为核心技术的呼叫中心（Call Center）、语音门户网

7、站等等。目前，语音识别研究时仍以HMM为主流，同时出现了多种技术方向并存的局面。特别是在语音识别系统的框架设计上、在实践序列建模上、在融合多层信息源的能力上，HMM仍有着很大的优越性。大多数语音识别系统以HMM为主框架，在系统局部辅以其他技术手段加以优化，例如通过采用听觉模型提取鲁棒性更高的声学特征，在HMM系统的底层利用ANN的非线性影射能力区分较小的语音单元（音素级）等等。1.2 汉语语音识别的难点经过50多年的发展，语音识别技术经历了从特定人、小词汇量、孤立词的语音识别到非特定人、大词汇量、自然语音识别的发展过程，取得了辉煌的成就。但是，现有的语音识别系统还面临着许多困难，远远达不到广泛

8、实用化的要求，具体来说，主要表现在以下几个方面：（1）语音识别系统的适应性差。全世界有近百种官方语音，每种语音有多达几十种的方言，随着语言环境的改变，系统性能会严重下降。（2）噪声问题：目前的语音识别系统大多只能工作在安静的环境下，在受环境噪声干扰时，语音识别系统性能变差。（3）端点检测：连续语流中语音单元间存在协同发音（co-articulation）,且各语音单位之间不存在明显的边界，因此很难分割。语音信号的端点检测是进行语音识别的重要部分，研究表明，即使在安静的环境下，语音识别系统一半以上的识别错误来自端点检测。（4）由于对人脑的记忆、听觉的神经生理学机理没有彻底的认识，使语音识别技术没

9、有突破性进展。汉语语音识别除具有一般语音识别系统的特点外，还有其独特的方面，因为汉语发音与英语发音比较有以下特点：（1）汉语字以单音节（Syllable）为单位，发音时间短，而英语以多音节为主。（2）汉语有大量的同音字，由60个左右的声母和韵母组成40多个无调音节和1200多个有调音节，音节与音节之间相似性大、易混淆。英语则不存在这方面的问题。（3）中国民族众多，不同地区之间发音变化很大，方言多。基于以上原因，与比较成熟的英语语音识别相比，汉语语音识别仍是一个富有挑战性的课题。1.3 虚拟仪器简介虚拟仪器（Virtual Instrument，简称VI）是现代计算机技术和仪器技术深层次结合的

10、产物，是当今计算机辅助测试（CAT）领域的一项重要技术。虚拟仪器是计算机硬件资源、仪器与测控系统硬件资源和虚拟仪器软件资源三者的有效结合。所谓虚拟仪器，就是在通用计算机为核心的硬件平台上，由用户设计定义、具有虚拟面板、测试功能由测试软件实现的一种计算机仪器系统。使用者用鼠标点击虚拟面板，就可操作这台计算机系统硬件平台，就如同使用一台专用电测量仪器。虚拟仪器的特点可归纳为：（1）在通用硬件平台确定后，由软件取代传统仪器中的硬件来完成仪器的功能。（2）仪器的功能是由用户根据需要由软件来定义的，而不是事先由厂家定义好的。（3）仪器性能的改进和功能扩展只需进行相关软件的设计更新，而不需购买新的仪器。（

11、4）研制周期较传统仪器大为缩短。（5）虚拟仪器开放、灵活，可与计算机同步发展，可与网络及其它周边设备互联。决定虚拟仪器具备上述传统仪器不可能具备的特点的根本原因在于：“虚拟仪器的关键是软件”。LabVIEW（Laboratory Virtual Instrument Engineering Workbench，实验室虚拟仪器工程平台）是美国NI公司(National Instrument Company)推出的一种基于G语言（Graphics Language，图形化编程语言）的虚拟仪器软件开发工具。LabVIEW软件工具的特点可归纳为：（1）图形化的编程方式，无须写任何文本格式的代码，是真正

12、的工程师语言。（2）提供了丰富的数据采集、分析及存储的库函数。（3）既提供了传统的程序调试手段，如设置断点、单步运行，同时又提供了独到的高亮执行工具，使程序动画式运行，利于设计者观察程序运行的细节，使程序的调试和开发更为便捷。（4）32bit的编译器编译生成32bit的编译程序，保证数据采集、测试和测量方案的高速执行。（5）囊括了DAQ、GPIB、PXI、VXI在内的各种仪器通信总线标准的所有功能函数，使得不懂总线标准的开发者也能够驱动不同总线标准接口设备与仪器。（6）提供大量与外部代码或软件进行连接的机制，诸如DLLs（动态连接库）、DDE（共享库）、ActiveX 等。用LabVIEW设计

13、的虚拟仪器主要包括三个部分：（1）仪器前面板的设计仪器前面板的设计指在虚拟仪器开发平台上，利用各类子模板图标创建用户界面，即虚拟仪器的前面板。（2）仪器流程和算法的设计仪器流程或算法的设计是根据仪器功能要求，利用虚拟仪器开发平台所提供的子模板，确定程序的流程图、主要处理算法和所实现的技术方法。（3）I/O接口仪器驱动程序的设计I/O接口仪器驱动程序是控制硬件设备的驱动程序，是连接主控计算机与仪器设备的纽带。用LabVIEW设计的虚拟仪器可脱离LabVIEW开发环境，最终用户看见的是和实际的硬件仪器相似的操作面板。1.4 MATLAB语言MATLAB语言1是在20世纪80年代初期，由美国的Mat

14、h Works软件开发公司正式推出的一种数学工具软件。它拥有功能全面的函数库，把大量的函数封装起来，让用户脱离了复杂繁琐的程序计算过程，大大提高了工作效率。利用MATLAB可以实现科学计算、符号运算、算法研究、数学建模和仿真、数据分析和可视化、科学工程绘图以及图形用户界面设计等强大功能。同时MATLAB为用户提供了丰富而实用的资源，它涵盖了许多门类的科学研究，如数学、控制、通信、数字信号处理、数字图像处理、经济和地理等。其主要特点有：（1）简单易学。与C和FORTRAN等高级语言相比较，MATLAB语法规则简单，语言思维特点更符合人们在实际应用中的习惯。（2）先进的技术界面支持。MATLAB提

15、供给用户的是一种最简洁、最直观的程序开发环境。用MATLAB编程时，就如同在现实中的便签上列公式和求解一样。（3）开放式的体系结构。除了内部函数外，所有的MATLAB主包文件和各工具包文件都是对用户开放的源程序文件，用户可以通过修改源程序文件来构成新的适合自己使用的专用工具包。（4）丰富的函数工具箱。可以提供专门的对语音信号进行处理的工具箱。对于比较简单的和“一次性”问题，通过直棂窗中直接输入一组指令求解或许是比较简便、快捷的。但当待解决问题所需的指令较多而且所用指令结构较复杂时，或当一组指令通过改变少量参数就可以被反复使用去解决不同问题时，直接在直棂窗中输入指令的方法就显得繁琐、累赘和笨拙。

16、设计M脚本文件就是用来解决这个矛盾的。M脚本文件是指：（1）该文件中的指令形式和前后位置，与解决同一个问题是在指令窗中输入的那组指令没有任何区别。（2）MATLAB在运行这个脚本时，只是简单地从文件中读取那一条条指令，送到MATLAB中去运行。（3）与在指令窗中直接运行质量一样，脚本文件运行产生的变量都驻留在MATLAB基本工作空间中。（4）文件的扩展名是“.m”。其具体步骤如下：1) 编辑调试器的开启缺省情况下，M文件编辑器（Editor/Debugger）不随MATLAB的启动而开启，通常只在编写M文件时才启动如图的M文件编辑器窗口。M编辑器不仅可以编辑M文件，而且可以对M文件进行交互式调

17、试；M文件编辑器不仅可以处理带.m扩展名的文件，而且还可以阅读和编辑其他ASCII码文件。M文件编辑器的启动方法有以下几种：点击MATLAB桌面上的“”图标，或选中菜单项File：New：M-File，可以打开空白的M文件编辑器。点击MATLAB桌面上的“”图标，或选中菜单项File：Open，可引出Windows平台上标准的“Open”文件选择对话框，通过常规的工具条操作，找到待打开文件所在文件夹，点选那个文件名后，再点击打开键，就可引出相应文件夹的M文件编辑器。用鼠标左键双击当前目录窗口中的所需M文件，可直接引出展示相应文件加的M文件编辑器。2) 编辑器使用中的注意事项（1）编辑器的打印效

18、果设置。具体方法是：选中菜单项File：Page setup，引出一个页面设置对话框，可以对版面布局（Layout）、版头（Header）、字体（Fonts）等参数进行设置。“Layout”版面布局子项：勾选“Print header”,则打印的硬拷贝将出现页眉，显示文件所在的全部路径、文件建立日期、页数。“Header”版头设置子项：设置版头的具体形式，如页数的显示方式、版头的边界与布局等参数进行设置。“Fonts”字体设置子项：假如不点选“Use editor font”，那么硬拷贝中的字体将可能与编辑器显示的字体不同。通常硬拷贝中的字体较大。（2）编辑器的字体（形式、大小、颜色）、段落格

19、式、自动保存等都可由用户根据需要进行设置。具体方法是：选中菜单项File：Preferences,引出一个参数设置对话框；展开弹出对话框左栏中的“Editor/Debugger”项，出现以下4个子项。“Font&Colors”子项：在对应该项的右侧栏中，可以对字体类型、大小、颜色进行设置。“Display”子项：假如勾选“Enable datatips in edit mode”,那么将来当光标移动到该编辑器文件中某变量名时，就会引出一个现场菜单，显示出该变量内容的前提是，改变量存在于MATLAB的工作空间。“Keyboard & indenting”子项：对应栏用来设置快捷键习惯和文件段落缩

20、进习惯。“Autosave”子项：编辑器窗口中的文件发生改动后，文件会自动地进行备份。通过该子项中的“Save options”栏，可以设置自动备份的时间间隔等。说明：1运行M文件的方法很多，最常用的方法是：（1）在指令窗中运行M文件名（不带扩展名）；（2）在当前目录窗中，用鼠标右键单击待运行文件，再从引出的现场菜单中选择Run菜单项。2脚本文件第一注释行中的文件名应与实际存放在目录上的文件名相同。但这样做的目的仅是为了管理上的一致，也便于用户记忆和查询。实际上，*.m的存放和调用与注释行中的名称无关。3当使用M文件编辑器调试保存文件时，或当在MATLAB指令窗中运行M文件时，不必写出文件的扩

21、展名.m。4在M文件编辑调试器中，可用汉字注释，并总可获得正确显示。5注意：在MATLAB中，若发生汉字输入困难，可用鼠标右键点击，引出现场菜单；选中“属性”菜单项，引出“对话框”，或采取在微软输入法中勾选“逐键指示”，或在智能输入法中勾选“固定”。1.5 论文的主要内容及其组织全文具体安排如下：第一章介绍了语音识别的学科背景与发展历程，汉语语音识别的难点，本试验的软件平台，以及本文选题的依据和内容安排。第二章介绍了语音信号的实时采集及预处理，对语音信号的产生与数字化进行了分析，并详细介绍了语音信号的小波消噪及端点检测。第三章介绍了语音信号的特征提取，其中对当前应用较广泛的MFCC特征参数提取

22、过程做了详细的讨论。第四章介绍矢量量化模型(VQ)及其码本生成的基本原理，并对搜索算法进行了初步分析。第五章介绍了非特定人连续语音识别系统的实现问题，介绍了系统的具体设计步骤，及其模板的建立与读取，并对试验结果进行了分析。2语音信号的采集与预处理本章主要介绍了语音信号的实时采集及预处理过程，包括对语音信号的数字化及预加重，并对语音信号的产生与数字化进行了分析，详细讨论了语音信号的小波消噪及端点检测。2.1 语音信号的采集 2.1.1 语音信号的产生模型语音信号是一种典型的非平稳信号。但是，由于语音的形成过程是与发音器官的运动密切相关的，这种物理运动比起声音振动速度来讲要缓慢的多，因此语音信号常

23、常可假定为短时平稳的，即在10-20ms这样的时间段内，其频谱特性和某些物理特性参数可近似的看作是不变的2。这样，可以采用平稳过程的分析处理方法来处理，以后所有的处理方法都立足于这种短时平稳的假定。图2.1所示框图描述了语音信号的产生过程。语音信号可以看作是激励信号激励一个线性系统而产生的输出3-5。浊音信号是由一个周期性的脉冲串激励一个线性系统而产生的输出，这个线性系统由声门脉冲模型、声道模型和辐射模型级联而成。而清音信号是由白噪声序列激励一个线性系统而产生的出，这个线性系统仅由声道模型和辐射模型级联而成。图2.1 语音信号产生的线性模型浊音信号产生过程受声门脉冲形状g(n)、声道响应v(n

24、)和口唇辐射影响r(n)的共同作用，可等效为一个线性系统，称为声道系统，即: (2.1)其中，运算符号*代表卷积运算(下同)。相应的Z变换为: (2.2)而将激励信号看作是一个周期性的脉冲串： (2.3)那么浊音信号就是二者的卷积结果，即： (2.4)类似地，清音产生过程中声道响应v (n)和口唇辐射影响r (n)的共同作用可等效为一个线性系统: (2.5)相应的Z变换为: (2.6)而激励信号u (n)假定为白噪声序列，于是有: (2.7)2.1.2 语音信号的采集自然语音信号是连续模拟信号，无法对其做数字化处理，因此需要将模拟信号转化为数字信号，这个过程叫做模/数转换。正常人的发音的频率范

25、围在40Hz到3400Hz左右，根据奈奎斯特采样定律（Nyquist Sampling Theorem），采样频率应为原始语音频率的两倍以上，通常采用8KHz采样率(G.711标准)。将模拟音频信号转化为数字音频信号需要声音采集卡（声卡）的支持，不同声卡信噪比等指标差异较大，所以质量较高的声卡采集的语音信号对系统的识别率也有一定的影响。本文采用电脑自带的声卡进行了语音信号的采集，采集的语音信号以8KHz，16位，单声道格式录入存储，从而得到了需要的*.wav文件。语音信号的采集显示见图2.2，其程序框图如图2.3所示。图2.2 语音信号采集显示的前面板图图2.3 语音信号采集显示的程序框图2

26、.1.3 语音信号的数字化语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码。其中反混叠滤波的目的有两个:(1)抑制输入信号各频域分量中频率超出f /2的所有分量(人为采样频率)，以防止混叠干扰;(2)抑制50Hz的电源工频干扰。在本文中由麦克风将所用的语音从声压波形转换成电信号，然后用模数转换器以合适的采样率对模拟的声音信号进行采样，再以一定的量化精度进行量化，得到计算机能够处理的数字语音信号。为了防止混叠效应，采样频率必须满足Nyquist采样定理，常用的采样频率有fs1=8KHz, fs2=11KHz, fs3=16KHz等，在本文中采样率为8KHz。将原始语音模

27、拟信号变为数字信号，必须经过采样和量化两个步骤，从而得到时间和幅度上均为离散的数字语音信号。根据采样定理，当采样频率大于信号的两倍带宽时，采样过程不会丢失信息，利用理想滤波器可从采样信号中不失真地重构原始信号波形。在将语音信号进行数字化前，必须先进行防混叠滤波，滤除高于1/2采样率的信号成分或噪声。这种防混叠滤波通常与模数转换器做在一个集成块内，因此目前来说，语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都还可以，语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。2.2 语音信号的小波消噪处理许多情况下，我们所获得的语音信号是

28、被污染的，即在我们所采集的语音信号中掺杂着噪声，干扰了语音信号中携带的有效信息，影响了我们的听辨。尤其在实时采集过程中，由于线路带宽的限制，语音信号的采样频率往往比较低，加上周围设备产生的电噪声、冲击噪声和实验室环境的影响，使得语音信号的质量有时很低，所以需要对语音信号进行消噪处理，提高其听辨质量6。通常我们把噪声分为以下几种：带通噪声、冲激噪声、白色噪声等。(1) 带通噪声，也叫有色噪声，在某个频带上，信号的能量突然变大，比较典型的为交流电噪声，它的能量主要集中在50Hz左右。(2) 冲激噪声，其能量在时域内会突然变大。(3) 白色噪声，是在频域上不存在信号能量突然变大的频带，在时域上也找不

29、到信号能量突然变大的时间段，即它在频域和时域上的分布是一致的。对于标准白噪声，它的均值为零，方差为一个常数，即。传统消噪方法对前两种噪音的去除有很好的效果，但对于白噪声，既不能在某个频段上修改语音信号，也不能在时频内修改语音信号。使用太多消噪方法都很难达到令人满意的效果，使得语音信号的信噪比不但没有提高，反而会引起原语音信号的严重失真。其主要原因有下面两点：(1) 白噪声频带很宽，几乎占据了整个频域，与语音信号相互重叠，且没有规律性，无法准确区分语音和白噪声。(2) 语音信号是一种准周期的随机信号，特别是语音信号中的清音部分，其性质同白噪声差不多，很难区分。小波消噪的基本思想是根据噪声与信号在

30、各尺度（即各频带）上的小波谱具有不同表现这一特点，将各尺度上由噪声产生的小波谱分量，特别是将那些噪声小波谱占主导地位的尺度上的噪声小波谱分量去掉，则保留下来的就是原信号的小波谱，此过程可称为小波谱的重构或还原，然后再利用小波变换重构算法，重构出原信号。2.2.1 小波变换的消噪方法本文提出了基于小波变换的硬阈值滤波法 7，先对语音信号进行小波变换，经过小波变换后语音信息主要集中在小波变换尺度较大的低频部分，而白噪声主要集中在小波变化尺度较小的高频部分，然后对各子波信号设定一个阈值，根据子波信号的阈值大小调整子波信号，最后对调整过的子波信号进行小波反变换就得到消噪后的语音信号。调整阈值可以获得满

31、意的消噪处理结果。由以上分析可知，小波消噪的关键是如何滤除由噪声产生的小波谱分量。针对语音信号中各种噪声类型，给出了相应的基于小波变换的消噪方法。(1) 对含噪的语音信号进行小波变换，得到各个不同频带的子波信号，将语音信号和白噪声粗略分开。第一步：确定小波基。由于不同的小波基在时域和频域上的局部性能不同，使得小波变换在时域和频域上表征信号局部特点的能力不同，所以选择适当的小波基就显得特别重要。Daubehies小波、Symlets小波、Coiflet小波是集中非常常见的小波基。他们表征信号局部特点的能力都比较强，有利于检测信号的瞬态或奇异点，所以语音消噪中常常会使用这些小波基。第二步：确定小波

32、基的阶数。对于某种特定的小波基，阶数的不同表征信号局部特点的能力也不同。一般阶数越高表征信号局部特点的能力就越强，但计算量会相应变大，而且实验表明对于以上提到的三种小波基，当阶数高于5时，提高小波基阶数对提高小波基表征语音信号局部性能力的影响并不大。所以在实际操作过程中不会选取太高的小波基阶数，一般选取5到8阶左右。第三步：确定小波变换次数。根据语音信号和白噪声信号的小波变换的模极大值与李氏指数之间的关系可以知道，语音信号的小波变换模极大值随着小波变换尺度的增大而增大，白噪声的小波变换模极大值随着小波变换尺度的增大而减小。所以，当语音信号中白噪声含量多时，小波变换尺度要大一些，即小波变换次数要

33、多一些，但计算量也会相应变大；当语音信号中白噪声含量少时，小波变换尺度可以小一些，即小波变换次数可以少一些，计算量也会相应减少。第四步：小波变换。根据以上对小波变换参数的介绍，选定合理的参数进行小波变换，就可得到各个不同频带的子波信号。(2) 确定各层子波的滤波阈值。选取阈值是否适当对消噪效果影响很大。本文确定阈值的方法如下： (2.8)(3) 滤波。确定阈值后就可以对各个子波信号进行滤波，公式描述如下： (2.9) 其中为滤波后的子波信号。(4) 小波反变换。对已经处理过的各个子波信号进行反变换就可以得到消噪后的语音信号，即干净的语音信号段。2.2.2 小波消噪方法的分析小波分析是一种有效的

34、信号分析处理技术，它在时域和频域同时具有良好的局部化特性，既能够在整体上提供信号的主要特征，又能提供任一局部时间或频域内信号变化剧烈程度的信息，因而成为分析非平稳信号的锐利工具。实验结果表明，小波变换语音增强较以往的传统消噪方法具有以下的优点：(1) 小波变换在低信噪比情况下的消噪效果较明显，增强后语音的识别率较高，为应用提供了极大的方便。(2) 小波变换方法特别适合于时变信号和突变信号的消噪，因此能够较好地应用到语音消噪中去，这是传统的消噪方法无法比拟的。同时，小波消噪也存在一定的缺陷：(1) 计算量较大，并且在应用中要根据实际的采样率改变离散小波变换的尺度范围。(2) 滤波时阈值的选择在很

35、大程度上影响了消噪后的效果。综上所述，小波变换为语音这样一种非平稳信号中的信噪分离提供了新的滤波方法。对输入语音信号进行适当的降噪处理非常有必要，处理效果的好坏直接影响到语音识别系统的识别率，意义重大。随着理论的完善和实践的深入，小波消噪方法将逐渐成熟，并获得更加广泛的应用。2.3 语音信号的预处理语音信号的预处理过程一般包括预加重处理、分帧处理、加窗处理、端点检测几个部分，如图2.4 描述了整个预处理过程。图2.4 语音信号预处理过程示意图2.3.1 语音信号的预加重预加重是对信号进行平滑，即高频提升。因为从唇端产生的声音随着频率的增加会有一个6dB/倍频程幅度率递减8 ，所以在提取特征前需

36、要对语音信号作+6dB/倍频程的高频提升，这样使得语音全通带输出占有相同的电平范围。因此预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。一般地，预加重是在语音信号数字化之后，在参数分析之前。在计算机里用具有6dB/倍频程提升高频特性的预加重数字滤波器来实现，它一般是一阶的数字滤波器: (2.10)其中的值一般在0.94-0.98之间，在本文中取0.970。2.3.2 语音信号的分帧及加窗处理语音信号具有短时稳定性，即语音信号为非平稳信号，但在10-50ms内可认为是平稳的。故可以把语音信号分为一个个语音分析帧，

37、以便于作短时分析，从而进行语音特征值的计算。若每帧信号有N个样本点，各帧间位移为M点，则第i帧，第n个样本语音信号与原始语音信号的关系为: (2.11)式中在本文中采样率为16KHz，帧长N为256点，帧间位移M为128点，其中采用帧间位移是为了解决时、频域对帧长选择的不同要求 9，10。为了得到短时的语音信号，要对其进行加窗操作，使窗函数平滑地在语音信号上滑动，从而将语音信号分成帧。在语音信号数字处理中常用的窗函数是矩形窗、汉明窗和汉宁窗，它们的表达式如下(其中N为帧长):矩形窗： (2.12)汉明窗： (2.13)汉宁窗： (2.14)由于窗函数一般取为中间大两头小的光滑函数，这样冲激响应

38、所对应的滤波器具有低通特性，其带宽和频率响应取决于窗函数的选择。在本文中选用了汉明窗。这样，经过上面介绍的处理过程，语音信号就已经被分割成一帧一帧的加过窗函数的短时信号，然后再把每一个短时语音帧看成平稳的随机信号，利用数字信号处理技术来提取语音特征参数。在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，以此类推，最后得到由每一帧参数组成的语音特征参数时间序列。2.3.3 语音信号的端点检测语音信号录制进来后，不论是识别单字还是识别连续字都必须做语音分段，即语音端点检测，找出语音段的开始和结尾，这可借助于语音信号的短时能量和过零率。有声语音的能量值较大，无声语音(如摩擦音)的过零率较

39、高11，因此可以通过计算短时能量大致判断出语音的端点，然后使用过零率找到语音端点的相对精确位置，分解出每一个语音段。从背景噪声中找出语音的起止点，是语音处理中最基本的问题。通常的语音端点检测中，都是分别用短时能量和短时平均过零率作为是否超过阈值，再通过“与”和 “或”运算作是否为语音端点的判定。除非是在信噪比较高的声学环境中，这种方法对语音信号有无分辨能力都不是很理想的。近年来，在语音信号的预加重、分帧和加窗处理后，用基于能量及过零率改进的相应起止点识别方法和状态转移法可以进行有效的语音判别。其中有效语音段截取是语音预处理的重要一步，端点检测的准确性对识别的效率和结果有直接影响11。整个语音信

40、号的端点检测可以分为四段：静音、过渡段、语音段、结束。程序中使用一个变量来表示当前所处的状态。在静音段，如果能量或过零率超过了低门限，则开始标记起始点，进入过渡段。在过渡段，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只有两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。如果在过渡段中两个参数中的任何一个超过了高门限，就可以确信进入语音段了。一些突发性的噪声也可能引起短时能量或过零率的数值很高，但不能持续足够长的时间。如门窗的开关、物体的碰撞等引起的噪声，这些都可以通过设定最短时间门限来判别。当前状态处于语音段时，如果两个参数的数值降低到低门限以下，且总的计时长度小于最

41、短时间门限，则认为这是一段噪音，继续扫描以后的语音数据。否则就标记好结束端点，并返回。图2.5完整的描述了系统实现端点检测的程序流程：图2.5 硬件实现端点检测程序流图下面将逐一介绍短时能量法、过零率法和能频值法。1、端点检测的短时能量法语音信号的短时能量反映了语音信号幅度随时间的变化，计算公式为12： (2.15)亦可表示为： (2.16)其中。此式表明，短时能量相当于语音信号平方通过一个单位函数相应为h(n)的线性滤波器的输出。由于式（2.15）是卷积形式的，因此可以理解为离散信号经过一个单位脉冲的FIR低通滤波器产生的输出。为使算法简化，避免它对高信号电平的敏感，采用平均幅度函数：

42、来代替短时能量函数12。这时能量的主要意义在于，能量函数可用来大致定出浊音语音变为清音语音的时刻，可用来区分声母与韵母，无声与有声。2、端点检测的短时过零率法离散时间情况下，若相邻的抽样具有不同的代数符号，就称为发生了过零。一段语音波形中，单位时间内信号通过零线的次数称为过零率。它可作为信号频率的一个度量。由于语音信号是宽带信号，故采用了短时平均过零率来粗略估计其谱特性13。具体计算公式为： (2.17)其中 (2.18) (2.19)语音信号中，浊音语音能量集中在较低的频率段内 (3KHz以下)，清音语音能量多集中在较高频率段内，而频率的高低又意味着过零率的高低，所以据此可以大致判断出

43、清音与浊音。3、端点检测的能频值法能频值(EFV, Energy Frequency Value)定义为：短时能量乘上短时过零率。因为汉语音节具有简单的声韵母结构，声母具有比较高的过零率，能量比较低，韵母具有比较高的能量，过零率比较低，这样能频值既顾及了声母的高过零率又顾及了韵母的高能量，从而提高了语音信号与背景噪声的分辨力。实验表明能频值是一个很好的参数，有着较好的稳定性和较高的语音噪声分辩力。使用能频值进行语音端点检测和音节切割使得系统更接近于连续语音识别13，14。这种方法相当于在传统方法中，以背景噪声的短时能频值为基准对绝对门限阈值作调整；另外，对语音的分帧考察使端点检测具有整体性和

44、连续性，而不像传统方法那样逐点进行考察。因而该方法对环境的适应能力很强13。能频值端点检测的算法步骤如下:(1) 按语音帧计算短时能量和短时过零率，并计算两者乘积得到短时能频值序列；(2) 对能频值序列进行中值平滑的滤波17，即可以得到平滑后的能频值序列，；(3) 对于某一时刻，其对应的能频值为，寻找满足下式的能频值峰点，且 (2.20)式中为寻找峰点时的最大帧数；(4) 算比值r (2.21)(5) 如果 (为相对门限阈值)，则时刻对应的语音不是起点，令,转(3)；否则，就认为时刻对应的语音为起点，语音终止点的判定与此类似，只是判定时从时刻向前搜索。3 语音信号的特征提取语音信号的特征提取是语音识别的基础，是关系到识别系统性能好坏的一个关键技术，语音特征向量选择的好坏会直接影响识别系统的性能。特征提取的基本思想是将预处理过的信号通过一次变换，去掉冗余部分，而把代表语音本质的特征参数抽取出来。此后所有处理都是建立在特征参数之上的，一旦特征参数不能很好的反映语音信号的本质，识别就不能成功。连续语音识别系统所用的特征包括:(1) 语音帧能量；(2) 基音周期：现已证实，基音周期及其派生参数携带有较多的个人特征信息，特别是对汉语这种“有调”语种，一个字的基音周期的变化即声调，就