本科论文虚拟仪器技术语音识别系统.doc
《本科论文虚拟仪器技术语音识别系统.doc》由会员分享,可在线阅读,更多相关《本科论文虚拟仪器技术语音识别系统.doc(64页珍藏版)》请在三一办公上搜索。
1、1 绪论语音是人类进行相互通信和交流的最方便、最快捷的手段。在高度发达的信息社会中,用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网络中最重要、最基本的组成部分之一。非特定人连续语音识别在电话拨号系统、家电遥控、工业控制、信息查询系统等领域有广泛应用。在本文中,将虚拟仪器技术应用于语音识别系统,实现了仪器的软件化,真正体现了“软件就是仪器”的思想。利用计算机强大的图形环境和硬件资源建立的图形化的虚拟仪器面板,实现对语音信号的实时采集、分析处理与特征提取等,利用软件实现仪器功能的模块化、智能化,使其具有成本低廉、数据分析便利和设备管理良好等优点。本章综述了语音识别技术的学
2、科背景、发展历程,介绍了当前语音识别领域的主流技术、典型系统及其应用前景,特别分析了汉语语音识别的难点,阐明了本论文的研究框架和内容。1.1 语音识别的学科背景与发展历程语音是人类最自然、最常用的交流方式,语音识别是近半个世纪发展起来的新兴学科,其目标是使机器“听懂”人的自然语言。由识别得到的信息可作为控制信号在工业、军事、交通、医学、民用等各个方面都有着广阔的应用前景,例如声控电话交换、语音拨号系统、各类语音声讯服务(股票信息、天气预报等)、智能玩具、语音呼叫中心等。语音识别技术将大大改善人机交互界面,提高信息处理自动化程度,具有巨大的社会、经济效益。正因为如此,语音识别正迅速发展为“改变未
3、来人类生活方式”的关键技术之一。作为专门的研究领域,语音识别又是典型的交叉边缘学科,它要依赖众多学科的科研成果。从计算机学科角度来看,它属于智能计算机的智能接口部分;从信息处理学科来看,它属于信息识别的一个重要分支;从通信及电子系统、电路、信号及系统定学科来看,它又可视为信息和通讯系统的信源处理科学;而从自动控制学科来看,它则可堪称模式识别中的一个重要部分-时序模式识别;此外,语音识别与声学、生理学、心理学、语音学、语言学有着密不可分的联系,而且语音识别与语音压缩、语音合成、语音增强、说话人识别等语音研究有着更为直接、紧密的关系。语音识别是颇具挑战性的研究领域,仅从模式识别角度来看,语音信号属
4、于瞬时事件性信号,同时它又是时变的非平稳随机过程,有内在的多种可变性,这使得语音识别成为多维模式识别中一个很难的课题。语音识别系统根据对语音方式要求的不同,可以分为孤立字(词)语音识别系统,连接词语音识别系统以及连续语音识别系统;根据对说话人的依赖程度,可以分为特定人和非特定人语音识别系统;根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。不同的语音识别系统,虽然实现细节有所不同,但所采用的基本框架相类似,其关键技术主要包括特征提取技术、模式匹配和数据训练技术三个方面。语音识别的研究工作大约开始于20世纪50年代,当时AT&T贝尔实验室实现了第一个可识别10个英
5、文数字的语音识别系统。60年代,这时期的重要成果是提出了线性预测分析技术(LP)和动态规划(DP),前者较好的解决了语音信号产生模型的问题,后者则有效解决了不等长语音匹配问题,对于语音识别发展产生可深远的影响。70年代语音识别领域取得了突破:在理论上,LP技术得到进一步发展,DTW(Dynamic Time Warp)技术基本成熟,特别是提出了矢量量化(VQ)和隐马尔科夫模型(HMM)理论;在实践上,实现了基于LPC和DTW技术型结合的特定人孤立语音识别系统。80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。语音识别算法从模版匹配技术
6、转向基于统计模型技术,语音模型也从规则描述转向统计描述。连接词语音识别系统、连续语音识别系统相继出现,其中1998年美国CMU大学基于VQ/HMM开发的997词非特定人连续语音识别系统SPHINX具有里程碑的意义。 90年代以来,语音识别技术在多项关键技术上更加成熟,同时在计算机技术、电信应用等领域飞速发展的带动下,出现了一批走向实用化的语音识别系统和语音服务应用。在嵌入式应用中,出现了可以语音拨号的手机、与人对话的智能玩具;在计算机应用中,出现了以IBM Via-Voice为代表的语音录入系统;在商业服务中,出现了以语音识别、语音合成为核心技术的呼叫中心(Call Center)、语音门户网
7、站等等。目前,语音识别研究时仍以HMM为主流,同时出现了多种技术方向并存的局面。特别是在语音识别系统的框架设计上、在实践序列建模上、在融合多层信息源的能力上,HMM仍有着很大的优越性。大多数语音识别系统以HMM为主框架,在系统局部辅以其他技术手段加以优化,例如通过采用听觉模型提取鲁棒性更高的声学特征,在HMM系统的底层利用ANN的非线性影射能力区分较小的语音单元(音素级)等等。1.2 汉语语音识别的难点经过50多年的发展,语音识别技术经历了从特定人、小词汇量、孤立词的语音识别到非特定人、大词汇量、自然语音识别的发展过程,取得了辉煌的成就。但是,现有的语音识别系统还面临着许多困难,远远达不到广泛
8、实用化的要求,具体来说,主要表现在以下几个方面:(1)语音识别系统的适应性差。全世界有近百种官方语音,每种语音有多达几十种的方言,随着语言环境的改变,系统性能会严重下降。(2)噪声问题:目前的语音识别系统大多只能工作在安静的环境下,在受环境噪声干扰时,语音识别系统性能变差。(3)端点检测:连续语流中语音单元间存在协同发音(co-articulation),且各语音单位之间不存在明显的边界,因此很难分割。语音信号的端点检测是进行语音识别的重要部分,研究表明,即使在安静的环境下,语音识别系统一半以上的识别错误来自端点检测。(4)由于对人脑的记忆、听觉的神经生理学机理没有彻底的认识,使语音识别技术没
9、有突破性进展。汉语语音识别除具有一般语音识别系统的特点外,还有其独特的方面,因为汉语发音与英语发音比较有以下特点:(1)汉语字以单音节(Syllable)为单位,发音时间短,而英语以多音节为主。(2) 汉语有大量的同音字,由60个左右的声母和韵母组成40多个无调音节和1200多个有调音节,音节与音节之间相似性大、易混淆。英语则不存在这方面的问题。(3)中国民族众多,不同地区之间发音变化很大,方言多。基于以上原因,与比较成熟的英语语音识别相比,汉语语音识别仍是一个富有挑战性的课题。1.3 虚拟仪器简介虚拟仪器(Virtual Instrument,简称VI)是现代计算机技术和仪器技术深层次结合的
10、产物,是当今计算机辅助测试(CAT)领域的一项重要技术。虚拟仪器是计算机硬件资源、仪器与测控系统硬件资源和虚拟仪器软件资源三者的有效结合。所谓虚拟仪器,就是在通用计算机为核心的硬件平台上,由用户设计定义、具有虚拟面板、测试功能由测试软件实现的一种计算机仪器系统。使用者用鼠标点击虚拟面板,就可操作这台计算机系统硬件平台,就如同使用一台专用电测量仪器。虚拟仪器的特点可归纳为:(1)在通用硬件平台确定后,由软件取代传统仪器中的硬件来完成仪器的功能。(2)仪器的功能是由用户根据需要由软件来定义的,而不是事先由厂家定义好的。(3)仪器性能的改进和功能扩展只需进行相关软件的设计更新,而不需购买新的仪器。(
11、4)研制周期较传统仪器大为缩短。(5)虚拟仪器开放、灵活,可与计算机同步发展,可与网络及其它周边设备互联。决定虚拟仪器具备上述传统仪器不可能具备的特点的根本原因在于:“虚拟仪器的关键是软件”。LabVIEW(Laboratory Virtual Instrument Engineering Workbench,实验室虚拟仪器工程平台)是美国NI公司(National Instrument Company)推出的一种基于G语言(Graphics Language,图形化编程语言)的虚拟仪器软件开发工具。LabVIEW软件工具的特点可归纳为:(1)图形化的编程方式,无须写任何文本格式的代码,是真正
12、的工程师语言。(2)提供了丰富的数据采集、分析及存储的库函数。(3)既提供了传统的程序调试手段,如设置断点、单步运行,同时又提供了独到的高亮执行工具,使程序动画式运行,利于设计者观察程序运行的细节,使程序的调试和开发更为便捷。(4)32bit的编译器编译生成32bit的编译程序,保证数据采集、测试和测量方案的高速执行。(5)囊括了DAQ、GPIB、PXI、VXI在内的各种仪器通信总线标准的所有功能函数,使得不懂总线标准的开发者也能够驱动不同总线标准接口设备与仪器。(6)提供大量与外部代码或软件进行连接的机制,诸如DLLs(动态连接库)、DDE(共享库)、ActiveX 等。用LabVIEW设计
13、的虚拟仪器主要包括三个部分:(1)仪器前面板的设计仪器前面板的设计指在虚拟仪器开发平台上,利用各类子模板图标创建用户界面,即虚拟仪器的前面板。(2)仪器流程和算法的设计仪器流程或算法的设计是根据仪器功能要求,利用虚拟仪器开发平台所提供的子模板,确定程序的流程图、主要处理算法和所实现的技术方法。(3)I/O接口仪器驱动程序的设计I/O接口仪器驱动程序是控制硬件设备的驱动程序,是连接主控计算机与仪器设备的纽带。用LabVIEW设计的虚拟仪器可脱离LabVIEW开发环境,最终用户看见的是和实际的硬件仪器相似的操作面板。1.4 MATLAB语言MATLAB语言1是在20世纪80年代初期,由美国的Mat
14、h Works软件开发公司正式推出的一种数学工具软件。它拥有功能全面的函数库,把大量的函数封装起来,让用户脱离了复杂繁琐的程序计算过程,大大提高了工作效率。利用MATLAB可以实现科学计算、符号运算、算法研究、数学建模和仿真、数据分析和可视化、科学工程绘图以及图形用户界面设计等强大功能。同时MATLAB为用户提供了丰富而实用的资源,它涵盖了许多门类的科学研究,如数学、控制、通信、数字信号处理、数字图像处理、经济和地理等。其主要特点有:(1)简单易学。与C和FORTRAN等高级语言相比较,MATLAB语法规则简单,语言思维特点更符合人们在实际应用中的习惯。(2)先进的技术界面支持。MATLAB提
15、供给用户的是一种最简洁、最直观的程序开发环境。用MATLAB编程时,就如同在现实中的便签上列公式和求解一样。(3)开放式的体系结构。除了内部函数外,所有的MATLAB主包文件和各工具包文件都是对用户开放的源程序文件,用户可以通过修改源程序文件来构成新的适合自己使用的专用工具包。(4)丰富的函数工具箱。可以提供专门的对语音信号进行处理的工具箱。对于比较简单的和“一次性”问题,通过直棂窗中直接输入一组指令求解或许是比较简便、快捷的。但当待解决问题所需的指令较多而且所用指令结构较复杂时,或当一组指令通过改变少量参数就可以被反复使用去解决不同问题时,直接在直棂窗中输入指令的方法就显得繁琐、累赘和笨拙。
16、设计M脚本文件就是用来解决这个矛盾的。M脚本文件是指:(1)该文件中的指令形式和前后位置,与解决同一个问题是在指令窗中输入的那组指令没有任何区别。(2)MATLAB在运行这个脚本时,只是简单地从文件中读取那一条条指令,送到MATLAB中去运行。(3)与在指令窗中直接运行质量一样,脚本文件运行产生的变量都驻留在MATLAB基本工作空间中。(4)文件的扩展名是“.m”。其具体步骤如下:1) 编辑调试器的开启缺省情况下,M文件编辑器(Editor/Debugger)不随MATLAB的启动而开启,通常只在编写M文件时才启动如图的M文件编辑器窗口。M编辑器不仅可以编辑M文件,而且可以对M文件进行交互式调
17、试;M文件编辑器不仅可以处理带.m扩展名的文件,而且还可以阅读和编辑其他ASCII码文件。M文件编辑器的启动方法有以下几种:点击MATLAB桌面上的“”图标,或选中菜单项File:New:M-File,可以打开空白的M文件编辑器。点击MATLAB桌面上的“”图标,或选中菜单项File:Open,可引出Windows平台上标准的“Open”文件选择对话框,通过常规的工具条操作,找到待打开文件所在文件夹,点选那个文件名后,再点击打开键,就可引出相应文件夹的M文件编辑器。用鼠标左键双击当前目录窗口中的所需M文件,可直接引出展示相应文件加的M文件编辑器。2) 编辑器使用中的注意事项(1)编辑器的打印效
18、果设置。具体方法是:选中菜单项File:Page setup,引出一个页面设置对话框,可以对版面布局(Layout)、版头(Header)、字体(Fonts)等参数进行设置。“Layout”版面布局子项:勾选“Print header”,则打印的硬拷贝将出现页眉,显示文件所在的全部路径、文件建立日期、页数。“Header”版头设置子项:设置版头的具体形式,如页数的显示方式、版头的边界与布局等参数进行设置。“Fonts”字体设置子项:假如不点选“Use editor font”,那么硬拷贝中的字体将可能与编辑器显示的字体不同。通常硬拷贝中的字体较大。(2)编辑器的字体(形式、大小、颜色)、段落格
19、式、自动保存等都可由用户根据需要进行设置。具体方法是:选中菜单项File:Preferences,引出一个参数设置对话框;展开弹出对话框左栏中的“Editor/Debugger”项,出现以下4个子项。“Font&Colors”子项:在对应该项的右侧栏中,可以对字体类型、大小、颜色进行设置。“Display”子项:假如勾选“Enable datatips in edit mode”,那么将来当光标移动到该编辑器文件中某变量名时,就会引出一个现场菜单,显示出该变量内容的前提是,改变量存在于MATLAB的工作空间。“Keyboard & indenting”子项:对应栏用来设置快捷键习惯和文件段落缩
20、进习惯。“Autosave”子项:编辑器窗口中的文件发生改动后,文件会自动地进行备份。通过该子项中的“Save options”栏,可以设置自动备份的时间间隔等。说明:1运行M文件的方法很多,最常用的方法是:(1)在指令窗中运行M文件名(不带扩展名);(2)在当前目录窗中,用鼠标右键单击待运行文件,再从引出的现场菜单中选择Run菜单项。2脚本文件第一注释行中的文件名应与实际存放在目录上的文件名相同。但这样做的目的仅是为了管理上的一致,也便于用户记忆和查询。实际上,*.m的存放和调用与注释行中的名称无关。3当使用M文件编辑器调试保存文件时,或当在MATLAB指令窗中运行M文件时,不必写出文件的扩
21、展名.m。4在M文件编辑调试器中,可用汉字注释,并总可获得正确显示。5注意:在MATLAB中,若发生汉字输入困难,可用鼠标右键点击,引出现场菜单;选中“属性”菜单项,引出“对话框”,或采取在微软输入法中勾选“逐键指示”,或在智能输入法中勾选“固定”。1.5 论文的主要内容及其组织全文具体安排如下:第一章介绍了语音识别的学科背景与发展历程,汉语语音识别的难点,本试验的软件平台,以及本文选题的依据和内容安排。第二章介绍了语音信号的实时采集及预处理,对语音信号的产生与数字化进行了分析,并详细介绍了语音信号的小波消噪及端点检测。第三章介绍了语音信号的特征提取,其中对当前应用较广泛的MFCC特征参数提取
22、过程做了详细的讨论。第四章介绍矢量量化模型(VQ)及其码本生成的基本原理,并对搜索算法进行了初步分析。第五章介绍了非特定人连续语音识别系统的实现问题,介绍了系统的具体设计步骤,及其模板的建立与读取,并对试验结果进行了分析。2语音信号的采集与预处理本章主要介绍了语音信号的实时采集及预处理过程,包括对语音信号的数字化及预加重,并对语音信号的产生与数字化进行了分析,详细讨论了语音信号的小波消噪及端点检测。2.1 语音信号的采集 2.1.1 语音信号的产生模型语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢的多,因此语音信号常
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 论文 虚拟仪器 技术 语音 识别 系统
链接地址:https://www.31ppt.com/p-4025982.html