语音识别机器人的设计—毕业论文.docx
《语音识别机器人的设计—毕业论文.docx》由会员分享,可在线阅读,更多相关《语音识别机器人的设计—毕业论文.docx(26页珍藏版)》请在三一办公上搜索。
1、重庆邮电大学毕业论文(设计) 毕业论文(设计)题 目 语音识别机器人的设计 系 部 电子信息工程 专 业 电子信息工程 年级 06级 学生姓名 学 号 指导教师 语音识别机器人的设计【摘 要】 语音识别可划分为训练和识别两个过程。在第一阶段,语音识别系统对人类的语言进行学习,把学习内容组成语音库存储起来,在第二阶段就可以把当前输入的语音在语音库中查找相应的词义或语义。凌阳16位SPCE061A单片机内嵌32K字闪存,2K字SRAM,内置10位ADC、DAC,有多达14个的中断源。它的CPU内核采用16位具有DSP功能的微处理器芯片, 而且CPU可最高工作在49MHz的主频下,能够非常容易地、快
2、速地处理复杂的数字信号,因此与其他类型的单片机相比,在数字语音处理方面SPCE061A更具有优势。基于SPCE061A设计了一个具有语音识别功能的机器人。经过训练,训练人可使用各种命令让机器人完成许多有趣的动作,使得人机交互更具智能化。【关键词】SPCE061A单片机 语音识别 机器人The Design of the Speech Recognition Robot【Abstract】 The speech recognition is divided into two stages, namely, training and recognition. At the first stage,
3、 the speech recognition system learns about the human language and stores what it has learned in a speech database. Then at the next stage, the meaning of each inputted speech can immediately be found in the speech database. Sunplus 16-bit SPCE061ASCM is embedded with 32K word Flash and 2K word SRAM
4、, with built-in 10-bit ADC and DAC as well as more than 14 interrupt sources. The core of its CPU is a 16-bit microprocessor chip which has the function of DSP. Besides, the CPU can work with a frequency up to 49 MHz, and process complex digital signals easily and quickly. Therefore, compared with o
5、ther types of SCM, SPCE061A has more advantages in speech processing. Based on SPCE061A, a speech recognition robot has been designed. After training, the robot can complete many interesting actions according to the orders, which makes the human-computer interaction more intelligent.【Key words】SPCE0
6、61A SCM Speech Recognition Robot目 录绪论11 SPCE061A单片机11.1 SPCE061A简介11.2 芯片特性11.3 SPCE061A精简开发板22 所用语音算法22.1语音识别算法22.1.1 语音识别概述22.1.2 语音识别原理22.1.3 SPCE061A实现语音识别的步骤32.2 凌阳音频概述42.2.1音频压缩编码42.2.2 凌阳语音的播放、录制、合成和辨识52.2.3 常用的应用程序接口API的功能及应用53 系统总体设计方案84 系统的硬件设计94.1 SPCE061A最小系统94.2 SPCE061A的时钟104.2.1 时钟电路1
7、04.2.2 锁相环104.2.3 系统时钟114.3 电源模块134.4 语音录放134.4.1 录音134.4.2 放音144.5 机器人硬件驱动电路145 系统软件设计155.1 擦除FLASH模块165.2 位操作模块175.3 语音播放函数17参考文献20附录21致 谢2222绪论 目前制造业市场上,工业机器人具有相当大的市场潜力,要使工业机器人真正应用于生产线上的各个方面,满足人们日益增长的需求,就离不开高性能的语音识别控制系统。随着计算机软硬件技术、半导体技术、电子技术、通讯技术等的飞速发展人类已经进入后PC时代。 语音识别技术得到了迅猛发展, 支持语音识别的各种产品纷纷面世。人
8、类实现了语音命令控制空调、电视、灯光、自动窗帘等的使用,让人们的生活“随音所欲”,更加舒适,更加便捷。基于凌阳16位SPCE061A单片机设计了一个具有语音识别功能的机器人。在经过训练后使机器人对训练人的命令做出应答,完成跳两首舞曲、走步、转向、转头、发射飞盘等动作。1 SPCE061A单片机本系统采用凌阳16位SPCE061A单片机作为控制中心,对输入的语音指令进行识别和处理,从而驱动机器人不同部位的直流电机,做出前进、后退、左传、右转等不同动作。1.1 SPCE061A简介SPCE061A是凌阳科技研发生产的性价比很高的一款16位单片机,使用它可以非常方便灵活的实现语音的录放系统,该芯片拥
9、有八路10位精度的ADC,其中一路为音频转换通道,并且内置有自动增益电路,用于录音。两路10精度DAC,只需外接功放(SPY0030A)即可完成放音。凌阳16位单片机所拥的一套指令系统和集成开发环境具有易学易用、效率高等特点。在集成开发环境中,支持标准C语言编程,并可以实现C语言与凌阳汇编语言的相互调用,语音的录放只需调用相应的库函数就可实现。 SPCE061A片内还集成了一个ICE(在线仿真电路)接口,使得对芯片的编程和仿真变得非常方便,而且ICE接口不占用芯片上的硬件资源,结合凌阳科技提供的集成开发环境(unSP IDE)可以对芯片进行仿真;而程序的下载(烧写)也是通过该接口进行下载。1.
10、2 芯片特性SPCE061A 性能简介1:(1) 16位微处理器(2) 工作电压(CPU)VDD 为3.03.6V,(I/O)VDDH 为3.05.5V(3) CPU 时钟:0.3249.152MHz(4) 内置2K字SRAM(5) 内置32K字FLASH(6) 可编程音频处理(7) 晶体振荡器(8) 系统处于备用状态下(时钟处于停止状态),耗电仅为2uA/3.6V(9) 2个16 位可编程定时器/计数器(可自动预置初始计数值)(10) 2个10 位 DAC(数/模转换)输出通道(11) 32位通用可编程输入/输出通道(12) 14个中断源可来自定时器 A/B、时基、2个外部时钟源输入和键唤醒
11、(13) 具备键唤醒的功能(14) 使用凌阳音频编码SACM_S480可以播放压缩的语音资源(15) 锁相环PLL振荡器提供系统时钟信号(16) 32768Hz实时时钟(17) 7通道10位电压模/数转换器(ADC)和单通道声音模/数转换器(18) 声音模/数转换器输入通道内置麦克风放大器,并具有自动增益控制(AGC)功能(19) 具备串行设备接口(SIO)(20) 具备低电压复位(LVR)功能和低电压检测(LVD)功能(21) 内置ICE(在线仿真电路)接口(22) 具有 WatchDog 功能1.3 SPCE061A精简开发板SPCE061A精简开发板(简称61板),是以凌阳16位SPCE
12、061A单片机为核心的精简开发、仿真实验板。61板除了具备单片机最小系统电路外,还包括电源电路、音频电路(含MIC输入部分和DAC音频输出部分)、复位电路等。61板上有调试器接口(Probe接口)以及下载线接口(EZ_Probe接口),分别可接凌阳科技的在线调试器、简易下载器。实现程序的下载、在线仿真调试只需配合unSP IDE使用。2 所用语音算法2.1语音识别算法2.1.1 语音识别概述根据对说话人的依赖程度,分为:(1) 特定人语音识别(SD):只能辨认特定使用者的语音,训练使用。(2) 非特定人语音识别(SI):可辨认任何人的语音,无须训练。根据对说话方式的要求,分为:(1) 孤立词识
13、别:每次只能识别单个词汇。(2) 连续语音识别:用者以正常语速说话,即可识别其中的语句。 2.1.2 语音识别原理特征提取,抽取反应语音本质的特征参数,形成特征矢量序列。语音模型库,从一个或多个讲话者多次重复讲话中提取的语音参数模板。匹配检测,把输入语音的特征参数与语音模型库进行比较分析,得到识别结果。语音识别原理参看图 2-1,如下:图 2-1 语音识别原理2.1.3 SPCE061A实现语音识别的步骤SPCE061A实现语音识别的步骤,分为训练部分与识别部分,以及在训练、识别过程中中断的情况,参看图 2-2,如下:图 2-2 SPCE061A实现语音识别2.2 凌阳音频概述我们所说的音频是
14、指频率在20Hz20KHz的声音信号,分为:波形声音、语音和音乐三种,其中波形声音就是自然界中所有的声音,是声音数字化的基础。语音也可以表示为波形声音,但波形声音表示不出语言、语音学的内涵。语音是对讲话声音的一次抽象,是语言的载体,是人类社会特有的一种信息系统,是社会交际工具的符号。音乐与语音相对更规范一些,是符号化了的声音。但音乐不能对所有的声音进行符号化。为了让数字计算机更加便利处理音频信号,需要将模拟的(连续的)声音波形数字化(离散化),该过程主要包括采样和量化两个方面。数字音频的质量取决于:采样频率和量化位数这两个重要参数。此外,声道的数目、相应的音频设备也是影响音频质量的原因。语音处
15、理技术是建立在语言学和数字信号处理基础之上的综合学科,其过程大致可以分为A/D采样输入、编码处理、存储、解码处理和D/A等。如今,要实现语音处理有多种渠道,可以选用专用语音芯片也可以选用单片机,二者区别参看表 21,如下:表 21 语音处理器件性能对照表2所选器件音质语音播放长度和段落价格专用语音芯片好受限制较高单片机由AD、DA精度、压缩算法等决定由存储空间决定有优势SPCE061A单片机具有八路10位ADC和两路10位DAC,两个16位可编程定时器/计数器,内置MIC放大器和自动增益控制(AGC)电路,CPU时钟主频最高达49MHz且具有DSP功能,有能力执行复杂压缩算法。所以在选择具有语
16、音处理功能单片机时,SPCE061A单片机可谓是上上之选。SPCE061A将A/D、编码算法、解码算法、存储及D/A做成相应的模块,每个模块都有其应用程序接口API,要实现语音处理,只用了解每个模块所要实现的功能及参数的内容,然后调用该API函数即可。不同音频质量等级的编码技术标准(频响)参看表 22,如下:表 22 音频质量等级编码技术标准2信号类型频率范围(Hz)采样率(KHz)量化精度(位)电话话音200340088宽带音频(AM质量)5070001616调频广播(FM质量)2015K37.816高质量音频(CD 质量)2020K44.116凌阳音频压缩算法处理的语音信号的范围是200H
17、z3.4KHz的电话话音。2.2.1音频压缩编码2.2.1.1 音频压缩编码基础音频压缩编码中的数据量:(采样频率量化位数)/(字节数)声道数目压缩编码的目的,通过对资料的压缩,达到高效率存储和转换资料的结果,即在保证一定声音质量的条件下,以最小的资料率来表达和传送声音信息。压缩编码的必要性,未经压缩编码的音频资料量很大,用来传输或存储是不容易实现的。所以要通过对信号趋势的预测和冗余信息处理,进行资料的压缩,这样就可以使我们用较少的资源建立更多的信息。常见的几种音频压缩编码:(1) 波形编码2,将时间域信号直接变换为数字代码,尽量真实地还原波形。波形编码的基本原理是在时间轴上对模拟语音按一定的
18、速率抽样,然后将幅度样本分层量化,并用代码表示。译码是其反过程,将收到的数字序列经过译码和滤波恢复成模拟信号。(2) 参数编码2,参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码进行传输。译码为其反过程,将收到的数字序列经变换恢复特征参量,再根据特征参量重建语音信号。具体说,参数编码是通过对语音信号特征参数的提取和编码,尽量保持语音信号的可懂性,而还原后的波形可能与原波形差别很大。(3) 混合编码2,将波形编码和参数编码组合起来,克服了原有波形编码和参数编码的弱点,结合各自的长处,尽量保持波形编码的高质量和参数编码的低速率。2.2.1.2 压缩分类
19、压缩分为无损压缩和有损压缩。无损压缩一般指磁盘文件,压缩比低,一般为:2:14:1;有损压缩是指音/视频文件,压缩比可高达100:1。凌阳音频压缩算法根据不同的压缩比分为以下几种:SACM-A2000、SACM-S480、SACM-S240。三者区别参看表 23,如下:表 23 凌阳语音压缩算法区别2凌阳音频压缩算法编码方式编码率(bps)压缩比音质SACM_A2000波形编码16K, 20K, 24K8:1, 8:1.25, 8:1.5好SACM_S480混合编码4.8K, 7.2K80:3, 80:1.5中SACM_S240参数编码2.4K80:1.5差2.2.2 凌阳语音的播放、录制、合
20、成和辨识要完成语音的播放、录制、合成及辨识等工作,单片机需要强大的信息处理能力而凌阳16位SPCE061A单片机则是为此而开发的,其具有DSP功能,可处理大量信息,CPU最高时钟频率可达到49MHz,具备运算速度高的优点。凌阳压缩算法中SACM_A2000、SACM_S480、SACM_S240主要是用来放音,可用于语音提示,而DVR则用来录音。2.2.3 常用的应用程序接口API的功能及应用语音和音乐与我们的生活有着相当密切的关系,而单片机对语音的控制如录放音、合成机辨识也广泛应用在现实生活中。语音处理大致可以分为A/D、编码处理、存储、解码处理以及D/A等。然而,通过麦克风输入所生成的WA
21、VE文件,其占用的存储空间很大,对于单片机来说想要存储大量的信息显然很不可能实现的,而凌阳的SPCE061A所采用的解决办法即SACM_LIB,该库将A/D、编码、解码、存储及D/A做成相应的模块,对于每个模块都有其应用程序接口API,要实现某功能,用户只需了解每个模块所要实现的功能及其参数的内容,然后调用该API函数即可。语音识别API2介绍:BSR _Init Recognizer(int Audio Source);初始化识别器BSR _Train(int Word ID, int Train Mode);语音训练BSR _Delete SD Group(int SD Group No)
22、;清除内存BSR _Pause Recognizer();暂停识别,但不释放中断等资源BSR _Resume Recognizer();恢复被暂停的识别BSR _Get Recognizer Score();获得识别结果的可信度,返回值从-4096到4096,数值越大表示输入语音与特征模型的匹配度越高BSR _Enable CPU Indicator();开启CPU状态监测功能。开启该功能后,IOA0和IOA1将发出每16ms电平变化一次的方波BSR _Disable CPU Indicator();关闭CPU状态监测功能BSR _Export SD Word(int Command ID);
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 机器人 设计 毕业论文
链接地址:https://www.31ppt.com/p-1675621.html