计算机科学与技术毕业论文语音识别系统的设计与实现.doc

上传人：laozhun

文档编号：3992634

上传时间：2023-03-30

格式：DOC

页数：30

大小：403.50KB

《计算机科学与技术毕业论文语音识别系统的设计与实现.doc》由会员分享，可在线阅读，更多相关《计算机科学与技术毕业论文语音识别系统的设计与实现.doc（30页珍藏版）》请在三一办公上搜索。

1、潍坊科技学院本科毕业设计（论文）题目语音识别系统的设计与实现院（系）中印计算机软件学院专业计算机科学与技术学号 200801450010 学生姓名指导教师起讫日期设计地点中印计算机软件学院中文摘要Microsoft speech SDK 是微软提供的软件开发包，其中包含了语音识别和合成引擎相关组件、帮助文档和例程，它是个语音识别和合成的二次开发平台。我们可以利用这个平台，在自己开发的软件里嵌入语音识别和合成功能，从而使用户可以用声音来代替鼠标和键盘完成部分操作，实现真正的“人机对话”。本文先从本课题研究的背景开始介绍，紧接着讲解了speech SDK和文语转换（TTS

2、）的一些基本概念，然后重点介绍了如何设计实现语音识别和语音朗读功能。最后对此次语音识别的设计进行了总结。关键字：speech DSK，文语转换（TTS），语音识别AbstractMicrosoft speech SDK is software development kit provided by Microsoft, which includes speech recognition and synthesis engine related components, to help document and routines, it is a speech recognition and sy

3、nthesis of secondary development platform. We can use this platform to develop their own software in embedded speech recognition and synthesis, so that users can use voice to replace the mouse and keyboard to complete part of the operation, to achieve real man-machine dialogue. This paper begins wit

4、h background to the study of this subject , followed by some basic concepts to explain the speech SDK, text to speech (TTS), and then focuses on how to design a Chinese and English mixed text to speech, as well as functions to achieve. Finally, summarize the design of the text to speech. Key words:

5、speech SDK, text to speech(TTS),Chinese and English mixed text to speech目录第1章绪论51.1 研究背景51.2 章节安排5第2章基本概念介绍62.1 Speech SDK简介62.1.1 语音识别引擎接口62.1.2 语音合成引擎接口72.2 Speech SDK 5.1的工作原理72.3 文语转换（TTS）简介8第3章语音识别系统的实现103.1 软件设计103.1.1 需求分析103.1.2 系统功能描述103.2 软件设计流程103.2.1 设计流程图103.2.2 语言开发平台配置113.2.3 导入对象到

6、.NET中123.2.4 SAPI SDK的导入123.2.4语音朗读-SPVOICE类133.3 功能实现143.3.1 添加控件143.3.2 智能朗读功能的实现143.3.3 代码的编写15第4章朗读功能204.1 朗读器用法介绍204.2 功能演示20第5章总结23致谢24参考文献24附件25第1章绪论1.1 研究背景语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件

7、大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，我国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究

8、的热点，发展迅速。就在这种形式下，国内许多单位纷纷投入到这项研究工作中去。 1986年3月我国高科技发展计划(863计划)启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下，我国开始了有组织的语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段1.2 章节安排全文总体分为三个部分：第一部分介绍Microsoft Speech SDK各部分构成的原理和语音识别和合成功能的开发；第二部分介绍基于Microsoft Speech SDK的中英混合文本朗读器主要功能的设计；第三部分介绍设计的中英

9、混合文本朗读器的界面以及各个按键功能，并对这次的毕业设计进行总结。第2章基本概念介绍2.1 Speech SDK简介微软的Speech SDK是是微软提供的软件开发包，其中包含了语音识别和合成引擎相关组件、帮助文档和例程，它是个语音识别和合成的二次开发平台。我们可以利用这个平台，在自己开发的软件里嵌入语音识别和合成功能，从而使用户可以用声音来代替鼠标和键盘完成部分操作，例如：文字输入、菜单控制等，实现真正的“人机对话”。Speech SDK是基于COM的视窗操作系统开发工具包。这个SDK中含有语音应用程序接口（SAPI），微软连续语音识别引擎（MCSR）以及串联语音合成（又称文本到语音）引擎

10、（TTS）等等。SAPI中还包括对于低层控制和高度适应性的直接语音管理，训练向导，事件，语法，编译，资源，语音识别管理以及文本到语音管理，其结构如图所示。图2.1 SAPI框架图图2.1中，语音框架主要靠SAPI运行来实现应用程序与语音引擎之间的协作，而SAPI提供各种接口实现不同的语音功能，SAPI使得应用程序和语音引擎之间高度紧密的结合，实时处理各种语音引擎在底层工作中的细节。2.1.1 语音识别引擎接口(1)识别上下文(1spRecoContext)接口：是主要的语音识别程序接口，主要用于发送和接收与语音识别相关的消息通知，创建语法规则对象。(2)语音识别引擎(1spReeognizer

11、)接口：用于创建语音识别引擎的实例。SAPI拥有两种不同的语音识别引擎类型，一个是共享的语音识别引擎 (SharedRecognizer)。由于它可以与其他语音识别应用程序共享其程序资源，所以在大多数场合中被推荐使用。需要建立一个采用共享语音识别引擎的识别环境(IspRecoContext)。一个是独占(1nProcRecognizer)的引擎，它只能由创建的应用程序使用，而共享引擎可以提供多个应用程序使用。(3)语法规则(IspRecoGrammar)接口：定义引擎需要识别的具体内容，创建、载入和激活识别用的语法规则。(4)识别结果(IspVoice)接口：用于获取识别的结果，包括识别的文字

12、，识别的语法规则等。2.1.2 语音合成引擎接口语音合成(ISpVoice)接口：主要功能是实现文本到语音的转换。它的作用如使用IspVoice：Speak来从文本数据生成语音，从而使电脑会说话。当处于异步工作时，可以使用IspVoiee：CetStatus来获得发音状态及文本位置等。在接口中，有许多成员函数，通过这些成员函数可以实现对发音频率、发音音量等合成属性进行调整。在C#中，我们通过实现ISpVoice接口的SpVoice类来实现语音合成。具体步骤如下：(1)首先创建SpVoice类的对象；(2)利用对象成员函数设置语音属性，如果不设置，则按默认方式处理；(3)调用对象成员函数spea

13、k函数来朗读指定文本Speak函数需要两个参数，第一个参数指明需要朗读的文本。第二个参数指明发音方式。2.2 Speech SDK 5.1的工作原理Speech SDK的最高版本是5.1版。微软speech SDK 5.1全面支持中文语音应用程序的开发，SDK里提供了语音识别和合成引擎相关组件、应用程序层接口、详细的技术资料和帮助文档。它采用COM标准开发，底层协议都以C0M组件的形式完全独立于应用程序层，为应用程序设计人员屏蔽掉复杂的语音技术，充分体现了COM的优点，即语音相关的一系列工作由COM组件完成：语音识别由识别引擎(Recognition Engine)管理，语音合成由语音合成引擎

14、(Synthesis Engine)负责；程序员只需专注于自己的应用，调用相关的语音应用程序接口(SAPI)来实现语音能。语音识别的功能COM接口共同完成，而且遵守特定的工作程序。概括地说，语音识别的工作原理遵循C0M组件的工作原理和一般windows应用程序的工作原理(消息驱动机制)，具体如下：(1)首先，初始化COM平台；(2)定义各个语音接口对象(以特定的顺序)，设置识别语法、识别消息，使识别引擎处于工作状态；(3)当有语法规则被识别后，ISpRecoContext对象向应用程序发出语音识别消息，从而调用识别消息响应函数；在改消息函数中，通过ISpPhrase接口获取识别的结果。此步可以

15、循环，直到停止语法规则为止。(4)应用程序退出时，卸载COM平台。语音识别软件系统流程如下图所示，硬件只需在原来的机器人系统上配置麦克风COM平台，定义各个接口对象通过麦克输入语音指令SR引擎对象识别发送自定义消息，激活消息函数比较结果是否匹配输出结果是否图2.2 COM平台2.3 文语转换（TTS）简介TTS是Text To Speech的缩写，即“从文本到语音”。它是同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者

16、在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。所有声音采用真人普通话为标准发音，实现了120-150个汉字/秒的快速语音合成，朗读速度达3-4个汉字/秒，使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分MP3随身听具有了TTS功能。TTS是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出。TTS可以帮助有视觉障碍的人阅读计算机上的信息，或者只是简单的用来增加文本文档的可读性。现在的TTL应用包括语音驱动的邮件以及声音敏感系统。TTS经常与声音识别程序一

17、起使用。现在有很多TTS的产品，包括Read Please 2000， Proverbe Speech Unit，以及Next Up Technology的TextAloud。朗讯、 Elan、以及 AT&T都有自己的语音合成产品。除了TTS软件之外，很多商家还提供硬件产品，其中包括以色列WizCom Technologies公司的 Quick Link Pen，它是一个笔状的可以扫描也可以阅读文字的设备；还有Ostrich Software公司的Road Runner，一个手持的可以阅读ASCII文本的设备；另外还有美国DEC公司的DecTalk TTS，它是可以替代声卡的外部硬件设备，它

18、包含一个内部软件设备，可以与个人电脑自己的声卡协同工作。TTS文语转换用途很广，包括电子邮件的阅读、IVR系统的语音提示等等，目前IVR系统已广泛应用于各个行业（如电信、交通运输等）。TTS所用的关键技术就是语音合成(SpeechSynthesis)。早期的TTS一般采用专用的芯片实现，如德州仪器公司的TMS50C10/TMS50C57、飞利浦的PH84H36等，但主要用在家用电器或儿童玩具中。而基于微机应用的TTS一般用纯软件实现，主要包括以下几部分：文本分析-对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括文本的断句、字词切分、多

19、音字的处理、数字的处理、缩略语的处理等。语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形。语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形。韵律处理-合成音质(Qualityof Synthetic Speech)是指语音合成系统所输出的语音的质量，一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率；自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然；连贯性用来评价合成语句是否流畅。要合成出高质量的语音，所采用的算法是极为复杂的，因此对机器的要求也非

20、常高。算法的复杂度决定了目前微机并发进行多通道TTS的系统容量。第3章语音识别系统的实现3.1 软件设计3.1.1 需求分析声音是携带信息的极其重要的媒体，是多媒体技术研究的一个重要的内容。而声音又包括人的话音、乐器声、动物发出的声音、及其产生的声音以及自然界声音。本文设计一个针对于用户声音的语音识别器，使计算机可以把语音转换为文本，并且可以把文本内容朗读出来。这种技术有广泛的应用前景，比如IVR（Interactive Voice Response），电子政务，语音短信，以及计算机软件的语音交互。声音、图像、视频如果能够出现在软件的界面上，定为软件增色不少，增加界面的友好性。不少软件设计者

21、花了很多时间在用户界面希望能做成更友好的界面，但未见有很大的改善。在软件编程中，要把界面做得更友好，声音是一种吸引用户的方式，特别是计算机能够根据文字朗读发声的程序。 TTS技术将在新一代的通信技术和业务中扮演举足轻重的角色，在计算机语音集成应用中，没有TTS技术将难有作为。事实上，TTS技术对系统开发人员和业务运营者同等重要。正因为这个原因，我们开发并设计了基于DSP技术的汉语普通话文语转换产品，并把它主要定位在通信网应用领域，以支持大容量、高密度的计算机语音集成应用。随着计算机性能的提高，使语音技术有了发挥其优势的硬件基础，语音技术会成为计算机应用领域的一大热点。3.1.2 系统功能描述(

22、1)语音识别：系统可以准确的识别出用户发出的声音。(2)语音朗读：当用户对某个文本文件或者某段文字感兴趣，可以直接通过此功能复制到指定位置并可以实现朗读。(3)保存为.WAV文件：当用户朗读过某段文字后，需要将其保存为语音，便可通过此种功能实现。3.2 软件设计流程3.2.1 设计流程图根据VS 2008平台应用程序开发流程，并使用C#作为编程语言，我们开始系统的具体开发实现。本系统的开发过程如图3.1所示：搭建VS C#应用程序开发环境创建工程编写代码实现基本功能实现语音识别功能实现文本中英混合可读，完成提升功能软件测试图3.1 软件设计流程图3.2.2 语言开发平台配置设计语音识别工具，

23、我使用的软件工具是：Microsoft Visual Studio 2008。语音识别和朗读接口我们需要安装以下工具： (1) Microsoft Speech SDK5.1 (68MB)(2) Microsoft Speech SDK5.1 Language Pack (81.5MB)3.2.3 导入对象到.NET中SAPI5.1的基于Windows平台的，通过COM接口进行调用。在.Net平台下要应用SAPI5.1，我们可以利用.Net Framework自带的强大工具TlbImp.exe来把SAPI SDK的COM对象导入到.Net中。TlbImp.exe产生一个管制的包装类，管理客户端

24、可以使用它。包装类管理实际的COM对象的参考数。当包装类当作收集的垃圾时，包装类释放掉它包装的COM对象。当然，你也可以在VS.NET环境中通过从项目参考对话框选择COM对象，实现COM对象的导入，这个过程也是通过TlbImp.exe来完成的。在开始程序中找到vs的菜单，里面有Visual Studio Tools，然后打开Visual Studio 2008 命令提示。输入命令D:Program FilesCommon FilesMicrosoft SharedSpeechTlbimp sapi.dll /out:Interop.SpeechLib.dll,忽略警告和错误。在安转SDK以后，

25、可以在D:Program FilesCommon FilesMicrosoft SharedSpeech目录下面找到SAPI.dll，这里面定义了SAPI的COM对象，用Tlbimp.exe工具将该dll转换成.net平台下的Assembly-Interop.SpeechLib.dll，转换的过程会提示不少的警告(warning)，但这部影响我们的开发，可以忽略。最后，我们可以用ildasm查看Interop.SpeechLib.dll里面的对象。 3.2.4 SAPI SDK的导入首先，新建一个C#的Windows Application工程SpeechApp，在开发环境的右边的解决方案管理

26、器(Solution Explorer)中，添加Interop.SpeechLib对象库。右键点击Reference(参考)，选择Add Reference（添加参考），在弹出的文件选择对话框中找到刚才生成的Interop.SpeechLib.dll。图3.2 SAPI SDK的导入打开Form1.cs代码文件,在代码开头添加名字空间（注意大小写）。using Interop.SpeechLib;这样就实现了SAPI SDK的导入。3.2.4 语音朗读-SPVOICE类Voice：表示发音类型，相当于进行朗读的人，包括Microsoft Mary，Microsoft Mike，Microso

27、ft Sam和Microsoft Simplified Chinese四种。其中前三种只能读英文，最后一种可以读中文，也可以读英文，但对于英文单词只能将其包括的各个字母逐一朗读出来。下面的程序中我们将会想办法解决这个问题。Rate：语音朗读速度，取值范围为-10到+10。数值越大，速度越快。Volume：音量，取值范围为0到100。数值越大，音量越大。SpVoice有以下主要方法：Speak：完成将文本信息转换为语音并按照指定的参数进行朗读，该方法有Text和Flags两个参数，分别指定要朗读的文本和朗读方式（同步或异步等）。Pause：暂停使用该对象的所有朗读进程。该方法没有参数。Resum

28、e：恢复该对象所对应的被暂停的朗读进程。该方法没有参数。3.2.5 语音识别有关类IspeechRecoGrammar：建立语法规则类3.3 功能实现3.3.1 添加控件添加了开始，中文朗读，英文朗读，将内容录为声音文件按键。图3.3 控件的添加3.3.2 语音识别功能的实现就像ISpVoice是语音合成的主接口，IspRecoContext是语音识别的主接口。像ISpVoice一样，它是一个IspEventSource接口，这意味着它是语音程序接收被请求的语音识别事件通知的媒介。一个应用程序必须从两个不同类型的语音识别引擎(ISpRecognizer)中选择一种。一种是可以与其它语音识别程

29、序共享识别器的语音识别引擎，这在大多数识别程序中被推荐使用。为了为IspRecognizer建立一个共享的ISpRecoContext接口，一个应用程序只需要用CLSID_SpSharedRecoContext调用COM的 CoCreateInstance方法。这种方案中，SAPI将建立一个音频输入流，把它设置为SAPI默认的音频输入流。对于大型服务器程序，它可能在单独在一个系统上运行，性能是关键，一个InProc语音识别引擎更适合。为了为InProc ISpRecognizer建立一个IspRecoContext，程序必须首先用CLSID_SpInprocRecoInstance调用CoCr

30、eateInstance来建立属于它自己的InProc IspRecognizer。然后程序必须调用ISpRecognizer:SetInput(见 also ISpObjectToken)来建立一个音频输入流。最后程序可以调用ISpRecognizer:CreateRecoContext来得到一个IspRecoContext。下一步是建立程序感兴趣的事件通知，因为IspRecognizer也是一个IspEventSource，IspEventSource实际上是IspNotifySource，程序从它的ISpRecoContext可以调用IspNotifySource的一个方法来指出IspR

31、ecoContext的哪里的事件应该被报告。然后它应该调用ISpEventSource:SetInterest来指出哪些事件应该通报。最重要的事件是SPEI_RECOGNITION，指出和IspRecoContext相关的IspRecognizer已经识别了一些语音。其他可用到的语音识别事件的详细资料参见SPEVENTENUM。最后，一个语音程序必须建立，加载，并且激活一个IspRecoGrammar，本质上就是指出哪些类型的发言被识别，例如口述或一个命令和控制文法。首先，程序用ISpRecoContext:CreateGrammar建立一个IspRecoGrammar，然后程序加载适合的文法

32、，下面两个方法中调用其中一个：口述模式的调用方法ISpRecoGrammar:LoadDictation，命令和控制模式的则调用方法ISpRecoGrammar:LoadCmdxxx。最后为了激活这些文法以开始进行识别，程序为口述模式调用ISpRecoGrammar:SetDictationState或者为命令和控制模式调用调用ISpRecoGrammar:SetRuleState或者ISpRecoGrammar:SetRuleIdState。当识别依靠通知机制返回到程序，SPEVENT结构的成员lParam将是一个IspRecoResult，程序可以确定什么被识别和使用了IspRecoCon

33、text的哪个IspRecoGrammar。一个IspRecognizer，无论是否是共享的还是InProc的，都可以有多个IspRecoContexts和它关联，并且每个都可以通过它自己的事件通知方法通知IspRecognizer。从一个IspRecoContext可以建立多个IspRecoGrammars，以便于识别不同类型的发言。3.3.3 代码的编写这里只说明部分功能的关键代码，完整代码可参考源文件。using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;us

34、ing System.Drawing;using System.Text;using System.Windows.Forms;using SpeechLib; namespace WindowsApplication1 public partial class Form1 : Form public Form1() InitializeComponent(); public class SpRecognition private static SpRecognition _Instance = null; private SpeechLib.ISpeechRecoGrammar isrg;

35、private SpeechLib.SpSharedRecoContextClass ssrContex = null; private System.Windows.Forms.Control cDisplay; public SpRecognition() ssrContex = new SpSharedRecoContextClass(); isrg = ssrContex.CreateGrammar(1); SpeechLib._ISpeechRecoContextEvents_RecognitionEventHandler recHandle = new _ISpeechRecoCo

36、ntextEvents_RecognitionEventHandler(ContexRecognition); ssrContex.Recognition += recHandle; public void BeginRec(Control tbResult) isrg.DictationSetState(SpeechRuleState.SGDSActive); cDisplay = tbResult; public static SpRecognition instance() if (_Instance = null) _Instance = new SpRecognition(); re

37、turn _Instance; public void CloseRec() isrg.DictationSetState(SpeechRuleState.SGDSInactive); private void ContexRecognition(int iIndex, object obj, SpeechLib.SpeechRecognitionType type, SpeechLib.ISpeechRecoResult result) cDisplay.Text = ; cDisplay.Text += result.PhraseInfo.GetText(0, -1, true); pri

38、vate void button1_Click(object sender, EventArgs e) try SpeechVoiceSpeakFlags SpFlags = SpeechVoiceSpeakFlags.SVSFlagsAsync; SpVoice sp = new SpVoice(); sp.Voice= sp.GetVoices(name=Microsoft Simplified Chinese, ).Item(0); sp.Speak(this.textBox1.Text, SpFlags); catch (Exception er) MessageBox.Show(捕捉

39、到异常！, SpeechApp, MessageBoxButtons.OK, MessageBoxIcon.Error); private void button3_Click_1(object sender, EventArgs e) SpRecognition x = new SpRecognition(); x.BeginRec(cDisplay); private void buttonTTStoWave_Click(object sender, EventArgs e) try SpeechVoiceSpeakFlags SpFlags = SpeechVoiceSpeakFlags

40、.SVSFlagsAsync; SpVoice Voice = new SpVoice(); SaveFileDialog sfd = new SaveFileDialog(); sfd.Filter = All files (*.*)|*.*|wav files (*.wav)|*.wav; sfd.Title = Save to a wave file; sfd.FilterIndex = 2; sfd.RestoreDirectory = true; if (sfd.ShowDialog() = DialogResult.OK) SpeechStreamFileMode SpFileMo

41、de = SpeechStreamFileMode.SSFMCreateForWrite; SpFileStream SpFileStream = new SpFileStream(); SpFileStream.Open(sfd.FileName, SpFileMode, false); Voice.AudioOutputStream = SpFileStream; Voice.Speak(textBox1.Text, SpFlags); Voice.WaitUntilDone(1); SpFileStream.Close(); catch (Exception er) MessageBox.Show(An Error Occured!, SpeechApp, MessageBoxButtons.OK, MessageBoxIcon.Error);