基于dsp的语音识别与合成技术.doc
《基于dsp的语音识别与合成技术.doc》由会员分享,可在线阅读,更多相关《基于dsp的语音识别与合成技术.doc(13页珍藏版)》请在三一办公上搜索。
1、基于DSP的语音识别与合成技术 学 号:201116022106 班 级:电信111 姓 名:王红伟 2014年6月13日目录摘要IIAbstractIII一概述11.语音识别12.语音合成13.国内研究历史及现状14.语音识别的流程15.语音信号分析方法分类时域特征16.基于Mel频率的倒谱MFCC26.1 音框化(Frame blocking)26.2 汉明窗(Hamming window)26.3 快速傅利叶转换(FFT)26.4 三角带通滤波器组(Triangular Bandpass Filters)2二 芯片概况介绍3三系统总体设计53.1 语音识别系统结构示意图5系统结构示意图5
2、3.2 内部系统构成53.2.1 DSP63.2.2 MCU63.2.3 数据FLASH存储器63.3 系统内主要芯片的互联互控63.3.1 MCU与DSP63.3.2 DSP与数据FLASH锁存器73.3.3 DSP与数据FLASH存储器7四.结论7参考文献:8六课程总结:8第一章:离散时间信号与系统8第二章 离散傅里叶变换(DFT)8第三章 快速傅里叶变换9第四章9第六、七章 IIR 、FIR数字滤波器的设计9第八章 硬件9摘要在如今信息社会,随着微电子的迅速发展,DSP芯片性能不断提高,用数字化的方法可以让语音的传送、储存识别、合成、增强成为整个数字化通信网中最重要、最基本的组成部分之一
3、,随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。大体上说,语音信号处理技术可以分为以下四个面:即语音编码,语音合成、说话人识别和语音识别等。以DSP芯片TMS320C5410为核心,制作了一个能实现语音识别的功能。本设计主要包括DSP(TMS320C5410)、MCU(Intel 8031)模块、FLASH Intel 8031模块、液晶显示屏模块、蜂鸣器报警模块和供电模块等,系统由MCU实现总线控制,接收外界键盘输入,并在显示屏上显示信息。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式
4、,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。所以用DSP开发语音识别与合成技术是很有优势的。关键词数字信号处理 语音识别 快速傅利叶转换 文语转换技术 TMS320C5410 隐式马尔可夫链Abstract In todays information society, with the rapid development of microelectronics, DSP chip to constantly improve the performance, the use of digital methods can make the transmission
5、 of voice recognition, synthesis, storage, enhancement has become one of the most important parts of the whole, the most basic digital communication network, along with the rapid development of information technology, research on speech signal processing is becoming more and more show it to, and mad
6、e significant progress. Generally speaking, speech signal processing technology can be divided into the following four aspects: namely, speech coding, speech synthesis, speech recognition and speech recognition.Using DSP chip TMS320C5410 as the core, made a speech recognition function. This design m
7、ainly includes the DSP (TMS320C5410), MCU (Intel 8031) module, FLASH Intel 8031 module, LCD module, buzzer alarm module and power supply module, the system is realized by MCU bus control, receiving external keyboard input, and display the information on the display screen.随着现代数字通讯、多媒体系统、信息高速公路等技术的应用
8、和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。所以用DSP开发语音识别与合成技术是很有优势的。With the application and development of modern digital communication, multimedia system has, highways and other information technology is more and more deeply affected and changed our each persons way of liv
9、ing and working, it also research on audio signal processing and put forward higher requirements, it is in all aspects of the progress is also attract peoples attention. So with the development of DSP speech recognition and synthesis technology is very advantageous.Keywords:TMS320C5410Speech recogni
10、tion一概述1.语音识别语音识别是试图使机器能“听懂”人类语音的技术。语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。2.语音合成 语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。3.国内研究历史
11、及现状我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。4.语音识别的流程根据对输出观测值概率的不同描述,HMM(隐式马尔可夫链)可分为离散HMM(DHMM)和连续HMM(CHMM),在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时每一个音框的语音信号变成VQ码本,用码本训练HMM,最后测试识别率。5.语音信号分析方法
12、分类时域特征频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。听觉特征指不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。6.基于Mel频率的倒谱MFCC在语音识别(Speech Recognition)和语者辨识(Speaker Recognition)方面,最常用到的语音特征就是梅尔倒频谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。6.1 音框化(Frame b
13、locking)先将N个取样点集合成一个观测单位,称为音框(Frame),通常N的值256或512,涵盖的时间约为2030ms 左右。为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了M个取样点,通常M的值约是 N 的一半或 1/3。通常语音识别所用的音频的取样频率为8 KHz或16 KHz,8KHz 来说,若音框长度为256 个取样点,则对应的时间长度是 256/8000*1000 = 32 ms。6.2 汉明窗(Hamming window)将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说明)。假设音框化的讯号为S(n),n =
14、 0,N-1。那么乘上汉明窗后为S(n) = S(n)*W(n),此W(n) 形式如下6.3 快速傅利叶转换(FFT)由于讯号在时域(Time domain)上的变化通常很难看出讯号的特性,所以通常将它转换成频域(Frequency domain)上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每个音框还必需再经过 FFT以得到在频谱上的能量分布。 6.4 三角带通滤波器组(Triangular Bandpass Filters)将能量频谱能量乘以一组 20个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy)。必须注意的是:这20个三角带通滤
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 dsp 语音 识别 合成 技术
链接地址:https://www.31ppt.com/p-3926890.html