基于dsp的语音识别与合成技术.doc

上传人：文库蛋蛋多

文档编号：3926890

上传时间：2023-03-28

格式：DOC

页数：13

大小：206KB

《基于dsp的语音识别与合成技术.doc》由会员分享，可在线阅读，更多相关《基于dsp的语音识别与合成技术.doc（13页珍藏版）》请在三一办公上搜索。

1、基于DSP的语音识别与合成技术学号：201116022106 班级：电信111 姓名：王红伟 2014年6月13日目录摘要IIAbstractIII一概述11.语音识别12.语音合成13.国内研究历史及现状14.语音识别的流程15.语音信号分析方法分类时域特征16.基于Mel频率的倒谱MFCC26.1 音框化（Frame blocking）26.2 汉明窗（Hamming window）26.3 快速傅利叶转换（FFT）26.4 三角带通滤波器组（Triangular Bandpass Filters）2二芯片概况介绍3三系统总体设计53.1 语音识别系统结构示意图5系统结构示意图5

2、3.2 内部系统构成53.2.1 DSP63.2.2 MCU63.2.3 数据FLASH存储器63.3 系统内主要芯片的互联互控63.3.1 MCU与DSP63.3.2 DSP与数据FLASH锁存器73.3.3 DSP与数据FLASH存储器7四.结论7参考文献：8六课程总结：8第一章：离散时间信号与系统8第二章离散傅里叶变换（DFT）8第三章快速傅里叶变换9第四章9第六、七章 IIR 、FIR数字滤波器的设计9第八章硬件9摘要在如今信息社会，随着微电子的迅速发展，DSP芯片性能不断提高，用数字化的方法可以让语音的传送、储存识别、合成、增强成为整个数字化通信网中最重要、最基本的组成部分之一

3、，随着信息科学技术的飞速发展，语音信号处理的研究也日益显示出它的要性，并取得了重大进展。大体上说，语音信号处理技术可以分为以下四个面:即语音编码，语音合成、说话人识别和语音识别等。以DSP芯片TMS320C5410为核心，制作了一个能实现语音识别的功能。本设计主要包括DSP（TMS320C5410）、MCU（Intel 8031）模块、FLASH Intel 8031模块、液晶显示屏模块、蜂鸣器报警模块和供电模块等，系统由MCU实现总线控制，接收外界键盘输入，并在显示屏上显示信息。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式

4、，这同时也对音信号处理的研究工作提出了更高的要求，它在各方面的进展也令人瞩目。所以用DSP开发语音识别与合成技术是很有优势的。关键词数字信号处理语音识别快速傅利叶转换文语转换技术 TMS320C5410 隐式马尔可夫链Abstract In todays information society, with the rapid development of microelectronics, DSP chip to constantly improve the performance, the use of digital methods can make the transmission

5、 of voice recognition, synthesis, storage, enhancement has become one of the most important parts of the whole, the most basic digital communication network, along with the rapid development of information technology, research on speech signal processing is becoming more and more show it to, and mad

6、e significant progress. Generally speaking, speech signal processing technology can be divided into the following four aspects: namely, speech coding, speech synthesis, speech recognition and speech recognition.Using DSP chip TMS320C5410 as the core, made a speech recognition function. This design m

7、ainly includes the DSP (TMS320C5410), MCU (Intel 8031) module, FLASH Intel 8031 module, LCD module, buzzer alarm module and power supply module, the system is realized by MCU bus control, receiving external keyboard input, and display the information on the display screen.随着现代数字通讯、多媒体系统、信息高速公路等技术的应用

8、和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式，这同时也对音信号处理的研究工作提出了更高的要求，它在各方面的进展也令人瞩目。所以用DSP开发语音识别与合成技术是很有优势的。With the application and development of modern digital communication, multimedia system has, highways and other information technology is more and more deeply affected and changed our each persons way of liv

9、ing and working, it also research on audio signal processing and put forward higher requirements, it is in all aspects of the progress is also attract peoples attention. So with the development of DSP speech recognition and synthesis technology is very advantageous.Keywords：TMS320C5410Speech recogni

10、tion一概述1.语音识别语音识别是试图使机器能“听懂”人类语音的技术。语音识别的作用是将语音转换成等价的书面信息，也就是让计算机听懂人说话。作为一门交叉学科，语音识别又是以语音为研究对象，是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域，还涉及到人的体态语言，其最终目标是实现人与机器进行自然语言通信。2.语音合成语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术（又称文语转换技术）隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。3.国内研究历史

11、及现状我国在语音识别研究上也投入了很大的精力，国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项，我国语音识别技术的研究水平已经基本上与国外同步。4.语音识别的流程根据对输出观测值概率的不同描述，HMM(隐式马尔可夫链)可分为离散HMM（DHMM）和连续HMM（CHMM），在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框（帧），每个音框用一个特征向量参数表示，然后将语音特征参数向量的时间序列矢量化，此时每一个音框的语音信号变成VQ码本，用码本训练HMM，最后测试识别率。5.语音信号分析方法

12、分类时域特征频域及倒谱域特征由时域信号进行频谱变换得到，反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。听觉特征指不直接对声道模型进行研究，而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。6.基于Mel频率的倒谱MFCC在语音识别（Speech Recognition）和语者辨识（Speaker Recognition）方面，最常用到的语音特征就是梅尔倒频谱系数（Mel-scale Frequency Cepstral Coefficients，简称MFCC），此参数考虑到人耳对不同频率的感受程度，因此特别适合用在语音识别。6.1 音框化（Frame b

13、locking）先将N个取样点集合成一个观测单位，称为音框（Frame），通常N的值256或512，涵盖的时间约为2030ms 左右。为了避免相邻两音框的变化过大，所以我们会让两相邻因框之间有一段重迭区域，此重迭区域包含了M个取样点，通常M的值约是 N 的一半或 1/3。通常语音识别所用的音频的取样频率为8 KHz或16 KHz，8KHz 来说，若音框长度为256 个取样点，则对应的时间长度是 256/8000*1000 = 32 ms。6.2 汉明窗（Hamming window）将每一个音框乘上汉明窗，以增加音框左端和右端的连续性（请见下一个步骤的说明）。假设音框化的讯号为S(n)，n =

14、 0，N-1。那么乘上汉明窗后为S(n) = S(n)*W(n)，此W(n) 形式如下6.3 快速傅利叶转换（FFT）由于讯号在时域（Time domain）上的变化通常很难看出讯号的特性，所以通常将它转换成频域（Frequency domain）上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每个音框还必需再经过 FFT以得到在频谱上的能量分布。 6.4 三角带通滤波器组（Triangular Bandpass Filters）将能量频谱能量乘以一组 20个三角带通滤波器，求得每一个滤波器输出的对数能量（Log Energy）。必须注意的是：这20个三角带通滤

15、波器在梅尔频率（Mel Frequency）上是平均分布的，而梅尔频率和一般频率 f 的关系式如下： Mel（F）= 2595 * log梅尔频率代表一般人耳对于频率的感受度，由此也可以看出人耳对于频率 f 的感受是呈对数变化的：在低频部分，人耳感受是比较敏锐。在高频部分，人耳的感受就会越来越粗糙。二芯片概况介绍 TMS320C54XX系列简介TMS320C54X芯片采用先进的修正哈佛结构和8条4组总线结构使处理器的性能有极大的提高。它的独立的程序和数据总线允许同时访问程序存储器和数据存储器，实现高度并行操作，例如可以在一条指令中，同时执行3次读操作和1次写操作。还可以在数据总线和程序

16、总线之间相互传送数据，从而使处理器具有在单个周期内同时执行算术运算、逻辑运算、移位操作、乘法累加运算以及访问程序和数据存储器的强大功能。采用模块化设计现金的集成电路设计以及先进的集成电路技术，芯片的功耗小，成本低的强大好处。程序数据ROM程序数据RAMJTAG测试仿真控制1717乘法器40bit加法器舍入饱和D(150)A(150) 程序数据总线通用 IO CPUMAC ALU 移位器累加器寻址单元定时器DMACh0Ch1Ch2Ch3Ch4Ch5定时器40bit ALU比较选择单元(Viterbi)指数编码器主机接口(HPI)外设总线多通道缓冲串口 (McBSP)40bit ACC A40b

17、it ACC B40 bit 桶形移位寄存器(1631)多通道缓冲串口 (McBSP)PLL时钟发生器8 个辅助寄存器2 个地址产生单元SW等待状态发生器电源管理C54XX功能结构框图TMS320C54XDSP内部硬件组成框图三系统总体设计3.1 语音识别系统结构示意图语音输入方式省去了大量的输入时间，降低了信息检索的复杂度，该芯片可存放数百张语音名片，每张名片包含四条信息：姓名、电话号码、工作单位、备注；声控查找语音名片信息，用户只需口述所要查找人的姓名，即可获得电话号码、工作单位、备注等信息，同时电话号码显示在液晶屏上。电源部分A/D、D/A转换器程序存储器扬声器话筒DSP(TMS320

18、C5410)MCUIntel 8031软件FLASH存储器液晶显示屏键盘系统结构示意图3.2 内部系统构成用于 “录音”功能的ACELP算法是该码率下性能优异的解码算法，虽然算法复杂度较高，但共重建语音素质的平均主观评测分数（MOS分）达到如图1所示，系统由MCU实现总线控制，接收外部键盘输入，并在液晶屏上显示信息。在本系统中，语音充当大部分人机界面的角色，尽管省去复杂的键盘操作，而且用语音提示或语音操作回放代替一部分液晶文字提示。由于语音要经过DSP处理，所以MCU需要与DSP经常交换信息，一边实现友好的操作界面。系统由MCU实现总线控制，接收外部键盘输入，并在液晶屏上显示信息。本系统中，

19、语音充当大部分人机界面的角色，尽量减去复杂的键盘操作，而且用语音提示或语音回放代替一部分的液晶文字提示。由于语音要经过DSP处理，所以MCU需要与DSP经常交换信息，以便实现又友好的操作界面。3.2.1 DSPDSP(TMS320C5410)是整个硬件系统的信号处理中心，完成语音识别、训练、编解码，进行片内RAM及外部FLASH存储芯片的数据管理与调度，并向主控芯片MCU提供简洁的命令与反馈信息。TMS32054XX系列的产品。其主要性能指标如下：1 16位定点的DSP，采用改进的哈佛结构，供电呀3.3V;2 提供了64Kbyte的片内ROM;3 由一个时分复用串口TDM和2个带缓冲区的标准串

20、口BSP;4 具有HPI是实现DSP与MCU接口的应用；5 指令周期为10ns, 即运算速度高达100M IPS；6 具有管理中断、循环运算和功能调用的控制结构。3.2.2 MCU MCU是Intel生产的性价比较高的一种HMOS类型的8位单片机，可以一次性编程，适于小批量生产，被广泛地应用于家用电器的控制，他具有强大的I/O功能。其主要指标如下：1 片内RAM为128*8bit；片外为64K*8bit片外EPROM64K*8bit；2 40个引脚，其中由32个I/O口，5个中断源，2个16位定时器/计数器；3 需求电压为5V这些性能保证了系统主控能力，而且能够提供灵活的外部接口，适于做进一步

21、的改进能力和改进。计算器等附加功能可以直接由MCU完成。3.2.3 数据FLASH存储器数据FLASH存储器KM29U64000是SAMSUNG公司的产品，它可在3V电压下低功耗工作，存贮量大、价位低、速度快、存储数据掉电后可保持而不会丢失。3.3 系统内主要芯片的互联互控3.3.1 MCU与DSPMCU与DSP采用串行口相连，通过HPI实现MCU与DSP的传送互联MCU对DSP的命令字与DSP对MCU的反锁字。DSP串口1用于语音输入和输出，串口2用于与MCU相连。由于DSP的串口收发方式和MCU的串口不一致，所以MCU用I/O口模拟串口与DSP相连。为了保证数据传送的稳定性，MCU采用中断

22、方式接收。每次数据传送一般不止一个人字节，所以采用打包方式传送。3.3.2 DSP与数据FLASH锁存器DSP的数据总线中的8位练到FLASH存储器的总线上，用DSP的读写控制线WR和RD控制FLASH控制的CE端，以保证DSP在进行其他总线操作时不会对该FLASH芯片的“闲/忙”信号线上，监视其股票那工作状态；分别把两个地址线A8和A9连到FLASH芯片的两个锁存控制CLE和ALE上，以便控制总线的状态。3.3.3 DSP与数据FLASH存储器TMS320C5410的Byte存储区就是一个8位宽的外部双向存储空间，可用于存储程序与数据。整个Byte存储空间由256个16K*8的页面组成，By

23、te存储区只能通过BDMA进行访问。在使用BDMA方式工作时用A0-A13作为低端地址，用D16-D18作为扩展的高端地址，联合使用实现4Mbyte的外部寻址能力。D8-D15作为数据总线，BMS、RD、WR分别用于控制存储的片选以及读写操作信号。四.结论基于DSP的语音识别与合成技术的实验，是未来SPDA语音个人数字助理的前型。它集成了语音识别、语音压缩编码、语音信号处理器DSP和大容量FLASH在存储的数据管理等技术、该系统所应用的技术可应用于语音八号电话+语音录音电话机、电话机伴侣、PDA、随身听、语音玩具、语音门户。经过这次数字信号处理基于DSP的语音识别与合成系统的研究，我知道了利用

24、DSP处理信号是很有优势的，处理方法多种多样，适合不同的信号，我了解了一般电子语音处理的方法，怎么样识别，并对识别到的语音信号合成，达到人机交流的目的，这样对研究机器人或是其他跟语音有关的东西，都可以采用DSP的处理方法，经过这次学习，我感到受益匪浅。参考文献：1王华奎编，数字信号处理与运用，高等教育出版社，2013.2吴大正编，信号与线性系统，高等教育出版社，2012.3王念旭等，DSP基础与应用系统设计，北京航空航天大学出版社. 4易克初，语音信号处理，国防工业出版社5关华，Digital Speech Processing，黄河出版社. 6宋知用 ,MATLAB在语音信号分析与合成中的应

25、用,北京航空航天大学出版社; 第1版 (2013年11月1日)六课程总结：第一章：离散时间信号与系统主要介绍了模拟信号数字处理方法，时域离散信号的表示方法和典型信号、线性时不变的因果性和稳定性、系统的输入输出描述法。重点学习了离散时间福利叶变换和Z 变换，在频域中的运用。通过学习，自己明白了什么是奈奎斯特采样定理，明白了A/D转换和D/A转换，这是在数字信号处理中不可或缺的关键转换。会根据不同的采样频率用傅里叶变换求采样后的频谱。知道了各种序列，会用Matlab 写程序画出序列图来，会根据程序调用函数，感觉很实用。学了线性系统和时不变系统，因果关系，知道了级联、单位脉冲响应还有系统的差分方程。

26、学了霸气的Z变换，会求简单的收敛域，知道了Z变换的许多性质，Z变换注重零点与极点的分布，利用卷积积分使离散函数分析，求解过程变的简单而方便，最后终于知道了Z变换、傅里叶变换、拉普拉斯变换之间的关系，了解了离散时间LTI系统的线性差分方程，从而具有无限长的单位冲击响应（IIR）、（FIR）系统。总之学了第一章，把之间学的知识都加强巩固了一遍，知道数字信号处理的各种数学模型。第二章离散傅里叶变换（DFT）主要讲了信号分析与处理的重要基础理论，傅里叶变换的性质及在频谱中的应用。总的来说，这一章专业性有点强，学着理论有点吃力，初步了解了离散傅里叶的形式，明白什么是离散傅里叶级数（DFS）和DFS的

27、性质、推导，学了DFT，知道了傅里叶级数到傅里叶变换间的关系，会计算有限长序列的DFT，明白了傅里叶变换与Z变换及DTFT间的关系，学会用圆周卷积，最后学了DFT进行频谱分析，应合理选择参数，以避免各类误差现象。说实话，这个分析对于我来说是挺纠结的，不怎么会用。第三章快速傅里叶变换DFT在数字信号中处于非常重要的地位，这与DFT的快速傅里叶变换（FFT）是离不开的，主要讨论了常见的FFT算法及运用。FFT是DFT的一种，更难懂，寻求DFT的快速算法、减小DFT的运算量非FFT不可，也知道了FFT在DFT中的地位，学了怎么用时间抽取FFT算法、频率抽取FFT算法、利用FFT程序求IFFT的方法

28、。学了怎么用Matlab计算信号的DFT和IFFT。也了解了FFT的各种运用，都是以卷积和相关运算的具体计算，掌握FFT的计算原理。第四章第四章主要讲了数字滤波器的结构、流图、网络结构，了解了IIR与FIR的结构形式，主要是用Matlab来设计函数和基本结构把之前学的内容很好的运用起来，这样对之前学的内容更加深入了解，知道了理论结合实际的用途，这样对学习DSP信心十足了，终于知道电信专业是学什么内容了。第六、七章 IIR 、FIR数字滤波器的设计主要学了怎么利用脉冲响应不变法及双线性变换法设计IIR低通数字滤波器，高通、带通、阻通IIR数字滤波器的设计，知道了设计的思想、总体构架、转换关系及各种设计方法；主要学了怎么分析线性相位FIR滤波器，介绍了用窗函数加权法和频率法设计FIR数字滤波器。了解线性相位的条件、频率特性、零点分布、窗函数。第八章硬件了解了数字信号处理的实现方法与开发运用，用DSP设计实现的方法。知道DSP芯片、芯片软硬结构、技术指标、设计过程、产品简介。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 金币 0人已下载

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 dsp 语音识别合成技术

三一办公所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于dsp的语音识别与合成技术.doc
链接地址：https://www.31ppt.com/p-3926890.html