计算机科学与技术毕业论文语音识别系统的设计与实现.doc
《计算机科学与技术毕业论文语音识别系统的设计与实现.doc》由会员分享,可在线阅读,更多相关《计算机科学与技术毕业论文语音识别系统的设计与实现.doc(30页珍藏版)》请在三一办公上搜索。
1、潍坊科技学院本科毕业设计(论文)题 目 语音识别系统的设计与实现 院(系) 中印计算机软件学院 专业 计算机科学与技术 学 号 200801450010 学生姓名 指导教师 起讫日期 设计地点 中印计算机软件学院 中文摘要Microsoft speech SDK 是微软提供的软件开发包,其中包含了语音识别和合成引擎相关组件、帮助文档和例程,它是个语音识别和合成的二次开发平台。我们可以利用这个平台,在自己开发的软件里嵌入语音识别和合成功能,从而使用户可以用声音来代替鼠标和键盘完成部分操作,实现真正的“人机对话”。本文先从本课题研究的背景开始介绍,紧接着讲解了speech SDK和文语转换(TTS
2、)的一些基本概念,然后重点介绍了如何设计实现语音识别和语音朗读功能。最后对此次语音识别的设计进行了总结。关键字:speech DSK,文语转换(TTS),语音识别AbstractMicrosoft speech SDK is software development kit provided by Microsoft, which includes speech recognition and synthesis engine related components, to help document and routines, it is a speech recognition and sy
3、nthesis of secondary development platform. We can use this platform to develop their own software in embedded speech recognition and synthesis, so that users can use voice to replace the mouse and keyboard to complete part of the operation, to achieve real man-machine dialogue. This paper begins wit
4、h background to the study of this subject , followed by some basic concepts to explain the speech SDK, text to speech (TTS), and then focuses on how to design a Chinese and English mixed text to speech, as well as functions to achieve. Finally, summarize the design of the text to speech. Key words:
5、speech SDK, text to speech(TTS),Chinese and English mixed text to speech目录第1章 绪论51.1 研究背景51.2 章节安排5第2章 基本概念介绍62.1 Speech SDK简介62.1.1 语音识别引擎接口62.1.2 语音合成引擎接口72.2 Speech SDK 5.1的工作原理72.3 文语转换(TTS)简介8第3章 语音识别系统的实现103.1 软件设计103.1.1 需求分析103.1.2 系统功能描述103.2 软件设计流程103.2.1 设计流程图103.2.2 语言开发平台配置113.2.3 导入对象到
6、.NET中123.2.4 SAPI SDK的导入123.2.4语音朗读-SPVOICE类133.3 功能实现143.3.1 添加控件143.3.2 智能朗读功能的实现143.3.3 代码的编写15第4章 朗读功能204.1 朗读器用法介绍204.2 功能演示20第5章 总结23致谢24参考文献24附件25第1章 绪论1.1 研究背景语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件
7、大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,我国的语音识别研究工作一直处于缓慢发展的阶段。 进入80年代以后,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究
8、的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去。 1986年3月我国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,我国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段1.2 章节安排全文总体分为三个部分:第一部分介绍Microsoft Speech SDK各部分构成的原理和语音识别和合成功能的开发;第二部分介绍基于Microsoft Speech SDK的中英混合文本朗读器主要功能的设计;第三部分介绍设计的中英
9、混合文本朗读器的界面以及各个按键功能,并对这次的毕业设计进行总结。第2章 基本概念介绍2.1 Speech SDK简介微软的Speech SDK是是微软提供的软件开发包,其中包含了语音识别和合成引擎相关组件、帮助文档和例程,它是个语音识别和合成的二次开发平台。我们可以利用这个平台,在自己开发的软件里嵌入语音识别和合成功能,从而使用户可以用声音来代替鼠标和键盘完成部分操作,例如:文字输入、菜单控制等,实现真正的“人机对话”。Speech SDK是基于COM的视窗操作系统开发工具包。这个SDK中含有语音应用程序接口(SAPI),微软连续语音识别引擎(MCSR)以及串联语音合成(又称文本到语音)引擎
10、(TTS)等等。SAPI中还包括对于低层控制和高度适应性的直接语音管理,训练向导,事件,语法,编译,资源,语音识别管理以及文本到语音管理,其结构如图所示。图2.1 SAPI框架图图2.1中,语音框架主要靠SAPI运行来实现应用程序与语音引擎之间的协作,而SAPI提供各种接口实现不同的语音功能,SAPI使得应用程序和语音引擎之间高度紧密的结合,实时处理各种语音引擎在底层工作中的细节。2.1.1 语音识别引擎接口(1)识别上下文(1spRecoContext)接口:是主要的语音识别程序接口,主要用于发送和接收与语音识别相关的消息通知,创建语法规则对象。(2)语音识别引擎(1spReeognizer
11、)接口:用于创建语音识别引擎的实例。SAPI拥有两种不同的语音识别引擎类型,一个是共享的语音识别引擎 (SharedRecognizer)。由于它可以与其他语音识别应用程序共享其程序资源,所以在大多数场合中被推荐使用。需要建立一个采用共享语音识别引擎的识别环境(IspRecoContext)。一个是独占(1nProcRecognizer)的引擎,它只能由创建的应用程序使用,而共享引擎可以提供多个应用程序使用。(3)语法规则(IspRecoGrammar)接口:定义引擎需要识别的具体内容,创建、载入和激活识别用的语法规则。(4)识别结果(IspVoice)接口:用于获取识别的结果,包括识别的文字
12、,识别的语法规则等。2.1.2 语音合成引擎接口语音合成(ISpVoice)接口:主要功能是实现文本到语音的转换。它的作用如使用IspVoice:Speak来从文本数据生成语音,从而使电脑会说话。当处于异步工作时,可以使用IspVoiee:CetStatus来获得发音状态及文本位置等。在接口中,有许多成员函数,通过这些成员函数可以实现对发音频率、发音音量等合成属性进行调整。在C#中,我们通过实现ISpVoice接口的SpVoice类来实现语音合成。具体步骤如下:(1)首先创建SpVoice类的对象;(2)利用对象成员函数设置语音属性,如果不设置,则按默认方式处理;(3)调用对象成员函数spea
13、k函数来朗读指定文本Speak函数需要两个参数,第一个参数指明需要朗读的文本。第二个参数指明发音方式。2.2 Speech SDK 5.1的工作原理Speech SDK的最高版本是5.1版。微软speech SDK 5.1全面支持中文语音应用程序的开发,SDK里提供了语音识别和合成引擎相关组件、应用程序层接口、详细的技术资料和帮助文档。它采用COM标准开发,底层协议都以C0M组件的形式完全独立于应用程序层,为应用程序设计人员屏蔽掉复杂的语音技术,充分体现了COM的优点,即语音相关的一系列工作由COM组件完成:语音识别由识别引擎(Recognition Engine)管理,语音合成由语音合成引擎
14、(Synthesis Engine)负责;程序员只需专注于自己的应用,调用相关的语音应用程序接口(SAPI)来实现语音能。语音识别的功能COM接口共同完成,而且遵守特定的工作程序。概括地说,语音识别的工作原理遵循C0M组件的工作原理和一般windows应用程序的工作原理(消息驱动机制),具体如下:(1)首先,初始化COM平台;(2)定义各个语音接口对象(以特定的顺序),设置识别语法、识别消息,使识别引擎处于工作状态;(3)当有语法规则被识别后,ISpRecoContext对象向应用程序发出语音识别消息,从而调用识别消息响应函数;在改消息函数中,通过ISpPhrase接口获取识别的结果。此步可以
15、循环,直到停止语法规则为止。(4)应用程序退出时,卸载COM平台。语音识别软件系统流程如下图所示,硬件只需在原来的机器人系统上配置麦克风COM平台,定义各个接口对象通过麦克输入语音指令SR引擎对象识别发送自定义消息,激活消息函数比较结果是否匹配输出结果是否图2.2 COM平台2.3 文语转换(TTS)简介TTS是Text To Speech的缩写,即“从文本到语音”。它是同时运用语言学和心理学的杰出之作,在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者
16、在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。所有声音采用真人普通话为标准发音,实现了120-150个汉字/秒的快速语音合成,朗读速度达3-4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分MP3随身听具有了TTS功能。TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS可以帮助有视觉障碍的人阅读计算机上的信息,或者只是简单的用来增加文本文档的可读性。现在的TTL应用包括语音驱动的邮件以及声音敏感系统。TTS经常与声音识别程序一
17、起使用。现在有很多TTS的产品,包括Read Please 2000, Proverbe Speech Unit,以及Next Up Technology的TextAloud。朗讯、 Elan、以及 AT&T都有自己的语音合成产品。 除了TTS软件之外,很多商家还提供硬件产品,其中包括以色列WizCom Technologies公司的 Quick Link Pen,它是一个笔状的可以扫描也可以阅读文字的设备;还有Ostrich Software公司的Road Runner,一个手持的可以阅读ASCII文本的设备;另外还有美国DEC公司的DecTalk TTS,它是可以替代声卡的外部硬件设备,它
18、包含一个内部软件设备,可以与个人电脑自己的声卡协同工作。TTS文语转换用途很广,包括电子邮件的阅读、IVR系统的语音提示等等,目前IVR系统已广泛应用于各个行业(如电信、交通运输等)。TTS所用的关键技术就是语音合成(SpeechSynthesis)。早期的TTS一般采用专用的芯片实现,如德州仪器公司的TMS50C10/TMS50C57、飞利浦的PH84H36等,但主要用在家用电器或儿童玩具中。而基于微机应用的TTS一般用纯软件实现,主要包括以下几部分:文本分析-对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多
19、音字的处理、数字的处理、缩略语的处理等。语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形。语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形。韵律处理-合成音质(Qualityof Synthetic Speech)是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率;自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然; 连贯性用来评价合成语句是否流畅。要合成出高质量的语音,所采用的算法是极为复杂的,因此对机器的要求也非
20、常高。算法的复杂度决定了目前微机并发进行多通道TTS的系统容量。第3章 语音识别系统的实现3.1 软件设计3.1.1 需求分析声音是携带信息的极其重要的媒体,是多媒体技术研究的一个重要的内容。而声音又包括人的话音、乐器声、动物发出的声音、及其产生的声音以及自然界声音。本文设计一个针对于用户声音的语音识别器,使计算机可以把语音转换为文本,并且可以把文本内容朗读出来。这种技术有广泛的应用前景,比如IVR(Interactive Voice Response),电子政务,语音短信,以及计算机软件的语音交互。声音、图像、视频如果能够出现在软件的界面上,定为软件增色不少,增加界面的友好性。不少软件设计者
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机科学 技术 毕业论文 语音 识别 系统 设计 实现

链接地址:https://www.31ppt.com/p-3992634.html