《基于SpeechSDK的语音记事本设计和实现电子信息工程专业.docx》由会员分享,可在线阅读,更多相关《基于SpeechSDK的语音记事本设计和实现电子信息工程专业.docx(23页珍藏版)》请在三一办公上搜索。
1、中文摘要OAbstract1第一章课题背景211语日记事本的国内外研九现状21.1.1 语音输入的国内外研究现状21.1.2 语音合成的国内外研究现状31.2 1口日-V己白勺41.3 论文内容安排4第二章SPeeChSDK综述52.1 SpeechSDK简介52.1.1 SAPlSDK的介绍52.1.2 Text-To-SpeechAPI72.1.3 语音输入APl72.2 SpeechSDK安装82.3 .net框架8第三章语音记事本的设计93.1 SAPI-SpVoice93.1.1 SPVOiCe方法介绍93.1.2 SPVoiCe属性介绍103.2 软件框架和流程103.3 主界面介
2、绍113.3.1 主界面概述113.3.2 主界面设计113.4 功能子模块介绍143.4.1 文本操作模块143.4.2 语音合成模块163.4.3语音输入模块163.4.3附加功能模块17第四章总结20参考文献21致谢错误!未定义书签。中文摘要近年来,随着人工智能的逐渐兴起,人们对人机交互的要求也越来越高,能够使这一功能实现的基础的一点就是语音交互,我们可以利用SPeeChSDK这一平台,在软件中实现语音和文本之间的交互,完成语音合成及语音输入之间的功能的实现。将speechSDK的相关功能添加到本次设计的记事本中,能更加快捷的为使用者提供舒适便捷的使用环境。在本次设计中,通过使用C#语言
3、进行编写,能够完成设计记事本并使其具备语音合成以及语音输入的功能,以及其他一系列附加的功能,例如文本转换图片,背景音乐添加等。关键词:speechSDK,语音合成,语音输入,记事本AbstractInrecentyears,withtheemergingofartificialintelligence,peoplealsomoreandmorehightotherequirementofhuman-computerinteraction,realizethefunctionofonesvoiceinteraction,wecanusetheplatformoftheresearchedSDK,
4、realizetheinteractionbetweenthevoiceandtextinthesoftware,completetherealizationofthefunctionofspeechsynthesisandspeechinputbetween.AddtherelatedfunctionsofthespeechSDKtothenotepadofthisdesign,whichcanprovideuserswithconvenientandconvenientuseenvironment.Inthisdesign,throughtheuseofc#languagetowrite,
5、todesignanotepadandmakeithavethefunctionofspeechsynthesisandspeechinput,andotherseriesofadditionalfunctionality,suchastextconvertedimages,backgroundmusicadd,etc.KeywordsispeechSDK,speechsynthesis,speechrecognition,notepad.第一章课题背景1.1 语音记事本的国内外研究现状1.1.1 语音输入的国内外研究现状语音输入就是说,计算机可以将人们说的话的内容通过相应算法转换为计算机可以
6、理解的输入,例如二进制输入,语音输入和说话人的识别并不相同,说话人的识别主要是通过音色音调等相关参量来判断说话人是否满足条件,但是语音输入则不然,它不关注是谁发出的语音,它只关注发出语音的内容。语音输入就是为了让机器能够听明白并理解人们口头阐述的内容,而在这里有两种层次,其一是让机器听的懂人们发出的语言并逐字逐句的转化为书面语言,其二为对口头命令加以领会,并能够完成命令的正确回应,而不只是转化。在本次设计中,采用第一种方案,即当人们发出声音时,将其中所包含的内容转化为书面语言显示出来,方便人们在记事本中编辑。Audry系统是人们在1952年研发出的一个款能够识别特定的人语音的十个英文数字的语音
7、增强系统。1956年,美国普林斯顿大学RCA实验室的OISOn和BeIar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征,1959年,Fry和DeneS等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策,这样子极大的增强了语音输入的功效和准确性l,o在这之后,计算机的语音输入相关研究开始受到了全世界各个国家和地区的科研人员的广泛重视,并开始了一系列的新的研发。1960年左右,前苏联的科学家MaTIn等人提出了语音波束点的端点检测,以解决语音输入电平较低的缺点,这一发现使得当时的语音输入水平得到了长足的进步;与此同时,VintSyUk
8、提出了动态编程的相关概念,为以后的语音输入发展打下了良好的基础。在进一步发展的过程中,也发现并提出了一些重要成果,分别是信号预测编码(LPC)技术和动态时间规整(DTW)技术,这两项技术的发现,使得语音信号的特征提取和不等长语音匹配的相关问题得以迎刃而解。语音输入技术的主要作用在于它能够和语音合成技术结合起来,使得人们拜托鼠标键盘这些东西的约束,并改为语音输入这样便捷有效的具有人性化的输入方法,而且,语音输入在人们日常生活以及信息技术中扮演者越来越重要的角色。在我们国家,语音输入技术并不像世界上开始研究的那么早,而是在1950年左右才开始进行初步探索,但发展极为迅速,钻研对象也逐渐从实验室中的
9、埋头苦干中走向了生活应用实际相关联。自从863计划的实施,在1987年之后,国家曾专门为语音输入这一充满前景的技术设立专项,到目前为止,中国语音输入技术的研究水平己基本与国外同步,在汉语语音输入技术上还有自己的特点与优势,而且己经达到国际先进水平。为了保证中国语音输入的蓬勃发展,我国各大高校都在自己的研究机构内展开了对语音输入方面的研发。中国科学院自动化研究所及其附属模型技术公司(Pattek)于2002年发布了PatekASR,这是一款适用于不同计算平台和应用的中文语音产品系列。自1998年以来,中国语音输入产品的历史终于被外国公司所垄断。1.1.2 语音合成的国内外研究现状语音合成就是通过
10、计算机来产生人工语音的技术,又称为TTS技术,在本次毕业设计中,所能实现朗读记事本相关内容就是应用了TTS技术,也就是将计算机内部自己产生的数据流转化为人们可以直接听懂的流畅的口语输出的技术。从开始研究语音合成到现在,这门技术的研究已经有两百多年的历史,然而具有现实意义的现代语音合成技术的发展是跟着计算机的不断发展和DSP技术的不断发展而逐渐进步的,因为语音合成技术本身就是为了能够让计算机产生较高明朗度、较高自然度的持续的语音。在语音合成的早期的发展中,主要的研究方法是采用参数合成的方法。值得一提的是HOImeS的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),精心
11、仔细的调整参数后,这两个合成器都可以合成出非常自然的语音。从19世纪80年代末到现在,语音合成技术又有了十足的进步,尤其是在1990年提出的基音同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高也.国内的语音合成技术的汉语的研发相对于国外来说起步较为晚一些,但是从80年代初期就可以和国际接轨,研发基本同步发展。而在这些发展中,大致也经历了国外的各个方法的研究,一直到今天。在国家的重视和支持下,国家各个计划和有关项目的扶持下,我国的汉语言的文语相关转换系统在近些年以来得到了快速而又蓬勃的发展。其中不乏成功的例子:如中国科学院声学所的KX-PSOLA(1993),联
12、想佳音(1995);清华大学的TH_SPEECH(1993);中国科技大学的KDTALK(1995)等系统网。最近中国科技大学又推出了KD-2000汉语文语转换系统,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理的背景下,也体现了采用大量统计和监管方法,可以更好地解决三个主要处理阶段:特殊的符号处理,分词处理和拼接处理,极大地提高了中文文本到语音转换系统的整体性能。1.2 语音记事本的前景在科技日新月异的今天,语音交互的实现显得尤为重要,而作为语音与文本之间的交互,SPeeChSDK引擎为我们的设计提供了极大的便利,基于SPCeChSDK的语音记事本的开发,也使得我深刻认识到了,语音
13、交互在计算机方面的重要程度。语音记事本是一种可以将语音输入技术和语音合成技术集合为一体的软件,这款软件可以让你在输入文字到计算机之后,将你输入的文字通过语音合成技术转换为语音信号并读取出来。而随着我们逐步的迈入互联网时代,人们对于交互的体验要求也越来越高,因此,语音记事本的应用也越来越普及。在更广阔的未来,随着人工智能的不断发展,语音与文本之间的转换将会成为主流,对语音记事本的需求也会增强。语音记事本可以大幅度提高工作效率,这对于从事码字行业的朋友们来说尤为重要,它可以有效的防止人们在输入文字的时候犯下很多本来不该犯的了乱七八糟的错误。语音记事本的另外一种极其强大的用途就是可以将剪切的内容复制
14、到文本框中,然后点击朗读就可以听到内容,这样就可以防止自己再两眼昏花的浏览文字出现错误,毕竟听要比看省时省力。因此,研究语音记事本是很有必要的。而基于SPeeChSDK的设计,是非常方便的可以完成这些需求的。1.3 论文内容安排记事本是当今计算机的必备功能,在计算机的功能中发挥着不可或缺的作用。随着时代的发展,简单的记事本功能己经不足以满足人们的办公需求,为了改善这个问题,该毕业设计基于SpeechSDK,并设计了语音记事本,使记事本基本能够满足人机交互的需求。论文由以下几部分组成:第一张介绍课题的背景,第二章介绍.SpccshSDK.的综合应用,第三章介绍本次语音记事本的主体设计以及相关功能
15、,第四章给出本次论文的总结。第二章SPeedlSDK综述2.1 SpeechSDK简介2.1.1 SAPISDK的介绍我们都使用过电脑的发音播报功能,这其中就用到了WindoWS的TTS(TextToSPeeCh)语音引擎。TTS引擎就放在了微软的WindoWSSPeeChSDK的打包文件中。使用此打包文件,可以完成我们所需要的程序开发。在本次软件开发中,将对SDK的开发内容进行相关介绍。SAPL全部的名称是TheMicrosoftSpeechAPL就是微软的语音API,由WindowsSpeechSDK提供。WindowsSpeechSDK中包含在本次设计中所需要使用到的两种引擎,分别为语音
16、合成引擎和语音输入引擎,这两项引擎完成了本次设计中与语音相关的基本功能,因此WindowsSpeechSDK在本次设计中是不可或缺的。语音合成技术适用在将文本内容转换成语音内容进行输出;语音输入技术适用在识别人声的语音所发出的命令,并通过调用接口来实现命令的功能。SAPISDK是微软公司免费提供的语音应用程序开发工具包,这个SDK中包含了语音应用设计接口(SAPI)微软的连续语音输入引擎(MCSR)以及微软的语音合成(TTS)引擎等等。在本次设计中,采用SDK5.1,在本版本中,总共支持有三种语言的识别分析,分别为汉语,英语和日语;总共支持两种语言的合成,分别为英语和汉语,在本次设计中,英语和
17、汉语的合成功能以及汉语的识别功能正是所需要的。在语音应用设计接口中,还包括了一系列的对低层和高层的控制语音管理的语音资源、语音输入、语音合成及管理等功能完善的接口来进行设计。MicrosoftSpeechSDK的作用就是为编程者提供相关的语音处理的应用设计接口,即SAPL而在SAPI中,也为编程者提供了相关基础函数,还完成TTS和SR相关程序的设计,这极为方便的简化了编写语音相关程序的难度,更大大的降低了编程者制作语音程序的工作量,方便人们更加广泛的去利用SpeechSDKoSAPI结构的作用就是为了在应用程序和语音程序之间提供一连串的接口,SAPI结构本身并不能完成任何操作,它需要利用编程者
18、编写的语音相关引擎的支撑完整的运行下去。SAPl与应用程序和语音引擎之间的关系如下图所示:ApplicationApplicationAPlSAPIRuntimeDDTIRecognitionEngineTTSEngine图2-1SAPI5.1体系结构图SAPI包括以下几类接口:VoiceCommandsAPI、VoiceDictationAPI、VoiceTextAPRVoiceTelephoneAPIftAudioObjectsAPL在本次毕业设计中,我们需要用到的是VoiceTextAPL当前WindowsSpeechSDK的最常见的版本有三种:SDK5.1、SDK5.3和SDK5.4o
19、在本次设计中,使用的是SDK5.1。2.1.2 Text-To-SpeechAPI设计的语音记事本通过引用SyStem.speech,SpeechLib等相关组件了来完成TTS的设计。当完成了上述引用后,我们就能命名规定SpeechvoiceSpeakFlagsSPVoiCeeIaSS等相关类及属性了。在本次实验中,为了表述方便,将SPeeChVbiCeSPeakFIagS命名为SVSF,SPVbiCeClaSS命名为SVC。则调用svc.Vbice二svc.GetVoices(string.Empty,String.Empty).Item(O);方法即可使得语音记事本产生能够朗读指定文本框内
20、的文字的声音。在该引用中,还有其他一系列的方法来调整声音的合成内容及其特征,例如在本次设计中用来控制音量大小的控件svc.SetVolume(Convert.ToUInt16(trackBar1.Value),以及改变上述的Item(0)为1则可以改变输出语音,但是由于当前WindoWS系统的兼容性等相关问题,本次设计中不能增加新的语音,只有两种语音可供选择,因此此处对输出语音的改变不多做介绍。为了能够控制输出的语音的特性,在本次设计中,运用SVC类的各个方法进行处理,在下文中会有详细介绍。2.1.3 语音输入APl-System.speech,SPeeehLib等相关组件的引用一样,在本次设
21、计中,为了完成语音输入的设计,引用了USingSyStem.SpeechRecognition这一组件,该组件可在NERframwork3.0及以上版本中引用,在2.0中不可引用。在这之中,引用了SPeeChReCOgnitionEngine来作为本次实验的语音输入引擎,同时对System.Speech.Recognition这一组件内的控件以及自然语法进行相关引用设计,通过读取默认的音频输入设备,并根据关键字数组建立语法,实现语音输入的效果。当语音输入完成后,SpeechRecognitionEngine可以将识别出来的内容在指定的控件(本次设计为文本编辑框)内显示出来,达到语音转换文本的效
22、果。2.2 SpeechSDK安装在进行TTS及SR相关编程设计之前,我们需要先在电脑上安装MiscrosoftSpeechSDK,并将它放入系统之中,这样编程的时候才能引用SPeeChAPl相关控件。安装MiSCrOSOftSPeeChSDK后,只是单纯的进行英文的语音输入与合成,为了使其能够运行辨别中文语音操作,还需要将speechsdk51LangPack.exe下载,执行其中的MicrosoftSpeechSDK5.1LanguagePack.msi,将中、日文支持安装到系统中。上述步骤完成后,计算机就拥有了中文和英文的相关语音工作能力了。由于本次设计在WindOWSlO系统上进行,在
23、控制面板上自带语音控制程序,利用该控制程序即可完成对语音输出的相关操作,在本次设计中,就是讲该语音控制程序的控制内容实现在记事本内的控制。2.3 .net框架在本次实验中,为了引用SPeeCh组件,采用了引用.net框架的方法,将SPeeCh组件添加到窗体应用程序中。.NET框架是一个多语言组件开发和执行环境,它提供了一个跨语言的统一编程环境。.NET框架之所以被开发出来,就是为了可以方便的使研发人员更加便捷的建立起相关的Web应用程序和Web的服务,这样可以保证Internet内部的各个组件都能够运用同样的Web服务来完善沟通处理,使得编程效果进一步加强,编程难度进一步简化。从分层的角度来看
24、,.NETFramework包含三个主要组件:公共语言运行时(CLR:CommonLanguageRuntime)、服务框架(SerViCeSFrameWork)和上层的两类应用模板传统的Windows应用程序模板(WinForms)和基于ASRNET的面向Web的网络应用程序模板(WebForms和WebServices)ll01o,NETFrameWork(到目前为止,微软已经研发至4.0.0版本)是微软为了能够实现跨平台编程而为开发者创建的一个具有跨时代影响的平台。也就是说,虽然本次设计中所使用的.NETFramework是在Windows操作系统上运行的,但是还是存在可以在其他操作系统
25、上运行的版本,这就为开发者跨平台编程提供了便利,这也是它和JAVA相似的地方,二者都是通过自己的框架来帮助开发者完成相关的开发应用。另外用.NETFramework可以创建各种类型的应用程序,例如Windows应用程序以及Web应用程序,这都是因为在.NETFrameWork中包含了一个大的框架整体。在这之中,Web应用程序实现了真正的跨平台编程,成为多平台应用程序,因为Web浏览器里的框架在Web应用程序中得到了应用,因此,任何系统,只要其含有Web浏览器,就都可以访问Web应用程序。,NETFramework的设计方式也决定了它可以在各个语言环境下都可以准确的运行。这种设计方式为微软推出的
26、跨平台开发项目打下了基础。为此,微软推出了这些语言的.NET版本,并且还在不断的改进,并在推出越来越多的.NET版本的语言。所有这些语言都可以访问.NETFramework,因为这样,它们之间还可以做到彼此兼容,即C#语言编程的程序可以使用VB的代码,而反过来,这样操作也是成立的。.NETFramework主要包含一个非常大的代码库,可以在客户语言(如C#)中通过面向对象编程技术(OOP)来使用这些代码,这也正是C#语言方便的地方。在这个代码库内,有多种各不相同的模块,从而使得开发者可以通过想要实现的结果来甄选其中不同的部分到自己开发的程序之中。部分.NETFramework库定义了一些基本类
27、型,以便使用.NETFramework在各种语言之间进行交互操作,这称为通用类型系统(CommonTypeSystem,CTS)L除了提供这个库之外,.NETFramework还包含.NET公共语言运行时(CLR),它负责管理使用.NET库开发的所有应用程序的执行。第三章语音记事本的设计3.1 SAPI-SpVoice3.1.1 SPVoiCe方法介绍为了在VS中使用speech,需要引用system.Speech0初始化对象,SpVoicevoice=newDotNetSpeech.SpVoiceClass();朗读时,使用svc.Speak(rtxtNotepad.Text.Trim(),
28、svsf);暂停,使用voice.Pause();当暂停状态下,为了恢复朗读功能,使用VOiCe.Resume。;停止功能使用VoiCe.Speak这样就可以完全实现了“朗读”、暂停”、继续”、停止”的功能。3.1.2 SPVOiCe属性介绍SPVoiCe是在本次设计中,为了完成语音合成功能的重要组件。为了完成播放功能,我们需要通过SPVoiCe对象调用语音合成引擎。SPVOiCe对象可以在一个语音播报程序中被多次创建,但是在程序中,相互之间虽然独立运行但是仍然有着相互之间的关系,以下就是SPVoiCe类常用的属性介绍:属性:VOiCe:该属性表明在程序中所使用的发音人的声音类型,在本次设计中
29、,包括MicrosoftHuihuiDesktop-Chinese(Simplified),MicrosoftZiraDesktop-English(UnitedStateS)两种。Rate:该属性代表控制语速的快慢,其调整范围为/0到10。VOlUme:该属性代表控制语音的音量高低,其调整范围为0到100。3.2 软件框架和流程本次设计采用引用的System.speech以及SpeechSDK5.1技术,通过VS2013的窗口应用程序编程实现语音记事本的界面,在界面中添加相应的控件,并在控件的消息响应函数中调用SAPl相关函数,实现相应的功能,如VoiCe.Speak实现文本朗读,Voice
30、.SetVolume实现对朗读语音的控制,Voice.SetVoice实现朗读语音选择等。图3-1系统功能模块结构示意图每个子系统模块包括一些相应的功能模块群,具体如下:(1)文本控制:输入文本,保存文本,读取外部文本,改变文本的字体、颜色等模块。(2)语音合成:开始朗读,暂停朗读,继续朗读,停止朗读,音量调节等模块。(3)语音输入:开始识别,停止识别等模块。(4)附加功能:报时,朗读时添加BGM,记事本内文本转换图片等模块。本次设计流程图如下:图3-2设计流程图3.3 主界面介绍3.3.1 主界面概述记事本主界面包含了本次设计各个功能的体现,通过点击主界面内的各个按键来完成所需要的操作。主界
31、面内的文本框与图片框也相应承担各自功能,可以实现语音的合成与语音输入。3.3.2 主界面设计主界面的设计采用了ViSUaIStUdio提供的C#WindOWS窗体应用程序“可视”地进行设计、编辑。通过在对话框内添加各种工具组件来设计记事本的界面和功能,对话框版式如图3-3对话框模板在上述对话框模板中添加按钮,编辑框,菜单,组合框等控件形成主界面,主界面主要分为四块区域,分别为最上方的菜单区,第二层次的按钮区,第三层次的编辑区和最下方的图片展示区。W猫三(0)M三j(Hj,图3-4菜单区朗读暂停继续停止BGM音里,B刎!止;L)匕乂山电通修图3-5按钮区主页面设计如下:4语音记事本一口X文件(F
32、)篇辑(E)格式(O)设置(V)识别(三)IMMMl三三aMIIIM三SS9B班止图3-5系统主页面主界面不仅支持最大化和最小化,同时支持任意拖动,任意拉伸和缩短,在这个过程中,所有控件也会随之发生相应的变化,如下图:*e*-oswF)M(E)fec(o)e(V)ai(三)wx停第3停止ABVE1止9U444M斫SiLEBH(PJQ,&,向图3-6主界面最大化3.4功能子模块介绍3.4.1 文本操作模块文本操作模块的功能包括输入文本,读取外部文本,保存修改文本,改变文本的字体,颜色的功能,如下图:图3-7文本操作模块功能图输入文本:可以直接再编辑框内输入想要记录的文本;读取外部文本:通过菜单-
33、文件-打开即可打开相应文本,可以选择Ftf格式文本将其导入到此语音记事本中:4诏盖一本文件(F)狗期(E)格式(O)没留(V)识81(三)朗读暂停维线停止:口*打开X7匕Q民心屯嫡G个此电18其!三论文VO橙素论文*P颌,件去跆CI毕业论文人名称修改日期美之论文邕1语吉测试文本.rtf2018/5/14155RTF文件aOneDriveGWpS云文档H网豆圉片画如)下我力音乐VXttS(N):nFileDiog1QRTFXf*f,rtf)I打开(。)I取消图3-8打开对话框版式改变字体颜色:在菜单栏里点击格式,在下拉菜单中选择字体,就会出现字体调整对话框,即可在其中选择想要的字体以及颜色,可以
34、改变字体,字形和大小等相关效果: 18除线(K)下划线(U)截软中文软件字符集(R):I黑色中文GB2312图3-9字体编辑版式保存文本:点击文件-保存,可以将修改过的文本保存为新的记事本:4语音记事本文件(F)的格式(O)iS三(V)ift(三)朗读智信继续停止中另存为XJA个此电SS至面VU按索“克面P56565656触文件实既O些此电耐名称修改日期三AB财1428405021逊2017/5/1817:13文件夹的图片keJl3中文最终Ilgd用&定而注册机前K-2017/7/1923:16文*块国如WD2018/4/1817:54文件夹下较毕业论文2018/5/14152文件夹大四上20
35、18/2/414:28文件突大四下2018/3/822:44文件夹.的单片机课设2017/7/1923:16文件夹J本地磁施(C:)仿真2017/12/1223:10文伟_LENOVO(O)2017/7/1923:22文件夹一新t(港(E:)计算帆珞建2017/6/2921:38文件夹VV文件名(N):二保存荚型(T):文本文件(*.txt)BS三E*I耐S)I喇图3-10保存对话框版式3.4.2 语音合成模块语音合成模块包含朗读功能、暂停功能、继续功能、停止功能、音量调节功能。图3T1语音合成模块功能图开始朗读:点击菜单中的“朗读”按钮,编辑框内的文本就会朗读出来。在本次设计中,由于Wind
36、ows系统相关原因,只能使用MicrosoftHuihuiDesktop-Chinese(Simplified)这一语音进行播报。暂停朗读:当文本框内的内容正在被朗读时,点击菜单中的“暂停”按钮,朗读就会被暂停,此时除“继续”外,其他按钮效果将无效。继续朗读:当朗读被暂停时,点击菜单中的“继续”按钮,系统将从被暂停的地方继续朗读。停止朗读:当文本正在被朗读时,点击”菜单中的“停止”选项,朗读程序将被终止,此时点击“暂停”或者“继续”将无效,再次点击“朗读”按钮,文本将从头开始朗读。音量调节:音量的设计范围为0到100,可以通过点击滚动栏的“+”“一”按钮来增大和减小音量,增减值为1。3.4.3
37、 语音输入模块语音输入模块包括开始识别与停止识别。图3-12语音输入模块功能图图3-13语音输入模块版式单击开始按钮,开始语音输入,识别出来的语音将会以中文形式呈现在文本编辑框中,单击停止按钮,停止进行语音输入,此时文本编辑框中会全选,我们可以进行复制将其应用到主文本编辑框中。3.4.3附加功能模块附加功能包括报时,朗读时BGM的添加,文本转图片功能。图3T2附加功能模块功能图BGM控制:单击BGM按钮,即可在记事本内播放设定好的歌曲,单击BGM停止”按钮,歌曲可以停止播放,再次单击“BGM”按钮,歌曲将从头开始播放,歌曲音量与朗读音量不共用控制,在播放歌曲时,也可以进行朗读。BCM音里图3-
38、13BGM控制框图文本转图片:在文本编辑框下方,可以将输入编辑框内的文本自动转为图片,当文本更改时,图片也会进行相应的更改,如需提取,单击“输出图片”按钮,即可将图片提取。吧语音记事本文件(F)编辑(E)做(O)设置(V)识别(三)朗读暂停 继续 停止BGM音里潘U为&我们是当今大学生我们要以身作则我们要保持积极向上的态度我们一定能完成建设伟大中国的目标加油吧少年我们是当今大学生我们要以身作贝U我们要保持积极向上的态度我们一定能完成建设伟大中国的目标,加油吧少年显示日期、时间图3T4文本转图片演示示意图报时:单击编辑-日期-朗读,即可将当前时刻的时间播报出来。qW语音记事本=L.r文件(F)篇
39、堂(E)格式(。)设M(V)识别(三);|*II?停IIaII停止IIMI育蠹BcW止I:口。QlXAaI;12018/5/1415:42:292018励415:42:29就绪显示日期、时啊图3-15报时演示示意图第四章总结在本次毕业设计中,较为成功的设计出了基于SPeeChSDK的语音记事本,能够较为完善的完成所需要的文本编辑,语音合成以及语音输入功能。在语音记事本中,我又添加了一些与记事本相关的功能,例如在记事本工作时可以播放背景音乐,以及将编辑好的文本转换为图片方便应用等功能。为了完成这些功能,我使用了C#做为本次设计的编程语言,在设计过程当中,我深刻的体会到了C#语言的便捷之处,也对于
40、C#的应用产生了更加浓厚的兴趣。基于SPeeChSDK的语音记事本这一设计,让我认识到了语音交互的前景,也认知到了语音输入与语音合成在当前乃至不久的将来的作用,它必将成为人工智能不可或缺的一部分。在本次设计中,也遇到了一些问题。比如在SPeeChSDK导入的时候,出现了不兼容的情况,为了解决这个问题,选择了将SPeeChSDK重新安装在系统文件夹内,并将其转换为.NET内能够识别的.d11文件。在本次设计中,仍然有不足的地方。在语音输入方面,由于SPeeChSDK的相对落后,其识别功能不能做到足够的完善,依然会出现在识别的时候听不清楚发音导致识别出其他文字的错误,在这一方面,本次设计的语音记事
41、本仍然需要改进。参考文献I ParraJRRZucchiRA.TrichogrammainBrazil:feasibilityofuseaftertwentyyearsofresearchJ.NeotropicalEntomology,2004,2000(3):1061-1062.2唐尧.基于DSP平台的语音输入算法的研究与实现D.南京航空航天大学,2007.3甘海波.语音输入系统中声学层模型的研究D.哈尔滨工业大学,2008.4唐爱伟.军队智能电话招生系统语音姓名库的建立D.哈尔滨工程大学,2008.5冯根.基于VoiCeXML的Web语音信息服务技术的研究D.武汉理工大学,2007.6冯根.基于VoiCeXML的Web语音信息服务技术的研究D.武汉理工大学,2007.7唐国.呼叫中心与语音技术的综合应用与研究D.西南交通大学,2002.8李大筠.TTS在办公系统的研究与开发D.青海师范大学,2012.9谬佶彦.ASP.net交互式Web数据库程序设计(含盘)M.中国铁道出版社,2003.II 10吴晨晖,王映辉.基于代码下移的分布式软件框架J计算机工程,2010,36(18):60-63.III 1.iuW.NETWORKCHARGINGSYSTEM:,WO/2011137559P.2011.
链接地址:https://www.31ppt.com/p-7002665.html