毕业设计(论文)计算机语音人机交互研究一种基于网格方法控制光标定位的解决方案.doc
《毕业设计(论文)计算机语音人机交互研究一种基于网格方法控制光标定位的解决方案.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)计算机语音人机交互研究一种基于网格方法控制光标定位的解决方案.doc(40页珍藏版)》请在三一办公上搜索。
1、学号06150134编号2010150134研究类型应用研究分类号TP391.42HUBEI NORMAL UNIVERSITY学士学位论文Bachelors Thesis论文题目计算机语音人机交互研究 一种基于网格方法控制鼠标光标定位的解决方案作者姓名指导教师所在院系计算机科学与技术学院专业名称计算机科学与技术完成时间2010年5月25日计算机语音人机交互研究 一种基于网格方法控 制鼠标光标定位的解决方案王军(指导教师:童强)(湖北师范学院 计算机科学与技术学院 0601班 湖北 黄石 435002)摘要:语音识别是让机器听懂人的说话,并准确地识别出语音的内容和执行相应操作的技术.本文着重讨
2、论了语音控制鼠标光标的实现方法,并通过比较和总结找到一个较语音目标导航和语音方向导航有很大突破的网格法。这里通过33网格半透明窗体的屏幕覆盖将计算机屏幕划分为9块,让鼠标光标以该透明窗体为载体来移动,用户通过选择19网格区域号来实现光标移动,每进行一次选择窗体就缩小至选择区域,通过循环执行后可将鼠标光标移动至屏幕任意位置。最后,将网格法通过程序实现,并通过使用和测试说明网格法的使用价值和可能的应用前景。关键词:语音识别 语音人机交互 鼠标光标定位 网格法 中图分类号: TP391.42 Computer Speech Human-Computer Interaction Research Gr
3、id based solutions to control the mouse cursor positioning Wang Jun (Tutor:Tong Qiang) (College of Computer Science and Technology ,Hubei Normal University, Huangshi,435002)Abstract: Speech recognition is a kind of technology to allow machines to understand human speech, and accurately identify the
4、speechs content and implementation of appropriate operations. This article focuses on the implementation method of useing voice to control the mouse cursor , and by comparing and summing up to find a more objective speech navigation and significant breakthrough voice directions navigation that is gr
5、id method. Here a 3 3 grid semi-transparent screen cover will form the computer screen divided into nine, so that the mouse cursor attach to the transparent form for the carrier to move, users select the region number 1 to 9 to achieve the grid cursor, each time a choice to choose form to reduce the
6、 area after the execution. By circulating ,mouse cursor can be moved to anywhere on your screen. Finally, the grid method is achieved through the program, and there are also some instructions about the usefulness and possible applications by using the grid method and test. Keywords: Computer Speech
7、Human-Computer Interaction ; Speech recognition; grid; mouse cursor control 目 录 1 绪论11.1研究背景和意义11.2 课题发展现 状11.3 开发方法52 网格法控制光标定位理论研究92.1基于语音识别的光标控制类型92.2 网格法提出背景92.3 网格法提出112.4 网格法程序设计思想133 网格法控制光标定位程序设计与实现143.1 网格法光标定位程序开发目标143.2 关键算法设计154 以网格法为基础的简单语音人机交互系统设计与实现254.1 系统概要设计254.2 系统功能实现254.3 系统程序实现
8、274.4 系统运行与测试294.5 系统改进和优化325 总结和展望335.1 论文总结335.2 研究展望33致 谢35参考文献36计算机语音人机交互研究 一种基于网格方法控制鼠标光标定位的解决方案1 绪论1.1研究背景和意义语言是人际交流的最习惯、最自然的方式。声音是人们最熟悉、最习惯的传递信息的方式,为计算机增加声音交互,使人机交互向人与人交流那样自然友好一直是人类的美好愿望。因此,本文正是基于此方面的科研成果对计算机进行语音程序开发。在原有计算机控制系统中加入以Speech SDK5.1为核心的语音识别模块,使语音技术与计算机控系统有机地结合并实现简单的人机交互。在计算机语音控制过程
9、中,这里主要实现语音对鼠标的控制来达到控制计算机的目的,只要实现语音对鼠标的精确控制再加上语音输入法就可完成对计算机的完全控制,而且这种控制具有很强的通用性,目前这种技术已得到初步应用。许多研究者通过对使用情况调查发现,这项技术已让世界发生很大改变,比如残疾人也可以通过声音命令控制计算机。但与此同时,许多调查者也发现,语音识别在控制计算机的过程中产生的错误和时延也越来越多的影响人们的使用质量,如在控制鼠标过程中移动时的时延将使得鼠标的定位不精确及操作不方便,因此研究如何最大限度的减少甚至消除语音识别过程中的这些缺陷正成为研究这项技术的最大出发点。本课题也是基于这种目的而开始的,这里通过网格法实
10、现语音识别过程中鼠标的精确确定位和方便操作以实现更好的人机交互效果和使用效率,是一种在此类研究中十分有突破性的实现方案。1.2 课题发展现状1.2.1 语音识别概述 语音不仅是人类之间进行信息交流最自然、最有效、最方便的工具,而且也是人与机器之间进行通信的重要工具。语音识别(Automatic Speech Recognition,ASR)作为一门综合学科,以语音为研究对象,是语音信号处理的一个重要研究方向,它是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域。在美国, 八十年代末期, 由C M U推出的S P H I N X 系统, 克服了语音识别中非特定人
11、、连续语音、大词汇量三大难题。IBM公司推出了Tangora5000,其特定人5000词汇自然语言语法复杂度为160个词识别系统的首选识别率超过97%。Bell实验室开发的识别五个词VRCP系统和800语音识别服务系统,在电话业务中得到了较好的应用。在日本,NTT公司开发的ANSER系统,已经用于银行服务系统。在英国,剑桥大学开发的HTK大词汇量连续语音识别系统,在NIST和ARPA连续语音识别系统性能评测中识别率名列首位。在德国、法国等欧洲国家,语音识别也得到了足够的重视,建造了许多很有特色的连续语音识别系统。近年来,中文的语音识别取得很大的进展。我国语音识别研究工作一直紧跟国际水平,大词汇
12、量语音识别的研究被列入了国家“863”计划。鉴于中国未来庞大的市场,国外的研究机构和跨国公司也非常重视中文的语音识别研究,从IBM的ViaVoice到Microsoft的Speech SDK都支持中文语音识别,并且提供中文语音识别的开发包。1 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针
13、对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合
14、人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。11.2.2 语音识别技术原理 语音技术的概念实际包括两个技术:合成器和识别器。语音合成器将文本作为输入,并产生音频流作为输出。语音合成也称为“文本到语音”(text-to-speech,TTS)。另一方面,语音识别器的行为刚好相反。它将音频流作为输入,并
15、将其转换为文本副本。语音识别比语音合成更复杂。可以认为其具有一个前端和一个后端。前端处理音频流,从而分隔可能发声的声音片段,并将它们转换成一系列能够在信号中表示元音的数值。后端是一个专用的搜索引擎,它获取前端产生的输出并跨以下三个数据库进行搜索:一个发音模型、一个词典和一个语言模型。发音模型表示一种语言的发音声音,可通过训练来识别某个特定用户的语音模式和发音环境的特征。词典列出该语言的大量单词,以及关于每个单词如何发音的信息。语言模型表示一种语言的单词如何合并。这两种模型都很重要。准确指定什么语音听起来相似是不可能的。而且,人类的语音很少遵循可以轻松定义的严格且正规的语法规则。生成好模型的一个
16、必要因素是获得大量可表示的数据。另一个同等重要的因素是用于分析该数据以生成实际模型的技术的复杂性。当然,同一个单词不会存在两次发音完全相同的情况,因此识别器也无法找到一个准确的匹配。而且对于给定的声音片段,说话者的言语中可能包含了很多潜在含意。因此,识别器的质量取决于它提炼搜索、排除不适当匹配以及选择更类似匹配的能力。识别器的准确性依赖于它是否具有优秀的语言和发音模型,以及用于处理声音和跨模型搜索的算法。模型和算法越好,错误就越少,而且找到结果也越快。无庸置疑,这是一项非常困难的技术。虽然识别器的内置语言模型旨在表示一个广泛的语言域(例如,英文日常用语),但是任何给定的应用程序通常有非常具体的
17、语言模型要求。特定的应用程序通常只需要某些对它而言具有特定语义的说话方式。因此,除了使用通用语言模型外,应用程序还应该使用一种语法来限制识别器只收听应用程序关注的语音。这有很多好处:增加了识别的准确性,确保了所有识别结果对应用程序有意义,而且使识别引擎能够指定在识别文本中固有的语义值。图 1-1显示关于这些优势如何实际投入使用的一个示例。2图 1.1 使用针对应用程序输入的语音识别1.2.3 SAPI5.1 的工作原理 语音识别的功能由一系列的 COM 接口协调完成,下面先介绍语音识别的主要接口:IspRecognizer 接口:用于创建语音识别引擎的实例,在创建时通过参数选择引擎的种类识别引
18、擎有两种:独占(InProcRecognizer)的引擎和共享(Shared Recognizer)的引擎。独占的引擎对象只能由创建的应用程序使用,而共享的引擎可以供多个应用程序共同使用。IspRecoContext 接口:主要用于接受和发送与语音识别消息相关的事件消息,装载和卸载识别语法资源。3IspRecoGrammar 接口:通过这个接口,应用程序可以载入、激活语法规则,而语法规则里定义着期望识别的单词短语和句子。通常有两种语法规则:听写语法(Dictation Grammer)和命令控制语法(Command and ControlGrammer)。听写语法用于连续语音识别,可以识别出引
19、擎词典中大量的词汇,例如,可以识别报纸上的一篇文章、你的一段讲话、一个故事等,也就是说,可以用语音代替键盘进行文字输入;命令控制语法主要用于识别用户在语法文件里自定义的一些特定的命令词汇和句子,譬如,菜单命令(打开文件,保存文件,插入等),上网(当说出网址时候,电脑自动转到指定网址)。这些语法规则以 XML 文件的格式编写,通过 IspReco Grammar 接口载入、激活。Isp Phrase 接口:用于获取识别的结果,包字、识别了哪一条语法规则等。语音识别的功能由上面的 COM 接口共同完成特定的工作程序。概括地说,语音识别的工作原组件的工作原理和一般 Windows 应用程序的工作驱动
20、机制相似,具体如下:(1)首先,初始化 CO M;(2)接着要实例化各个语音接 口(以特定的顺别语法、识别消息,使识别引 擎处于工作状态);(3)当有语法规则被 识别后,语音接口向应用音识别消息;(4)在识别消息响应函数里,通过 IspPhrase 接收的结果;(5)应用程序退出时,卸载COM。 图1.2 微软 Speech SDK结构图中,该语音框架主要靠SAPI运行来实现应用程序与语音引擎之间的协作,而SAPI提供各种接口来实现不同的语音功能,如识别、朗读、训练等。1.3 开发方法1.3.1 开发工具 语音识别程序一般是基于语音开发工具包开发的,目前常用的工具包有Microsoft Spe
21、ech SDK 和IBM VoiceType两种。而前者毋庸置疑是基于Windows平台下开发该类应用程序的最佳工具,其SAPI(Microsoft Win32-compatible speech application programming interface)提供了实现文字-语音转换(Text-to-Speech)和语音识别(Speech Recognition)程序的基本函数,大大简化了语音编程的难度,降低了语音编程的工作量。因此Microsoft Speech SDK 备受语音识别程序开发者们青睐。同时在Microsoft Speech SDK中还包含一系列支持COM(组件对象模型)
22、组件的语音自动控制接口,只要具备支持OLE(对象连接与嵌入)自动控制的通用语言就可实现该类语音识别应用程序的开发。而VB语言正是具备以上条件的通用性语言,因此在VB6.0环境下实现语音识别程序的开发就变得十分简单,这是因为在一些基于Windows的语言开发工具中都会提供与语音识别引擎的良好接口,这使得在基于这些语言开发工具下开发语音识别程序变得异常方便。在Visual Basic环境下,利用事件驱动的编程机制、新颖易用的可视化设计工具,使用Windows内部的广泛应用程序接口(API)函数,动态链接库(DLL)、对象的链接与嵌入(OLE)、开放式数据连接(ODBC)等技术,可以高效、快速地开发
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 计算机 语音 人机交互 研究 一种 基于 网格 方法 控制 光标 定位 解决方案

链接地址:https://www.31ppt.com/p-3984935.html