基于DSP的语音钥匙实验报告.doc
《基于DSP的语音钥匙实验报告.doc》由会员分享,可在线阅读,更多相关《基于DSP的语音钥匙实验报告.doc(41页珍藏版)》请在三一办公上搜索。
1、DSP课程设计实 验 报 告实验题目: 基于DSP的语音识别 学生姓名:任课教师: 2015 年 6 月 8 日摘要:基于DSP芯片为控制核心,设计了语音钥匙,有效地解决了高性能与低成本间的矛盾。系统的硬件部分包括数字信号处理芯片、音频CODEC模块、电源模块、滤波电路、JTAG 仿真接口等几大模块,系统的软件部分介绍了语音钥匙的基本原理,阐述了DSP实现技术,探讨并验证小波变换算法比傅里叶变换算法在提高语音钥匙系统性能应用中的有效性。该系统资源丰富,电路兼有模拟和数字信号接口,可以作为一个独立的模块应用于其他电路,方便地扩展其应用。关键词:DSP 语音钥匙 小波变换Design of Spe
2、ech Key System Based on DSPAbstract: The design of speech key system is based on the DSP chip, which solve the contradiction between high performance and low cost effectively. The part of sampling circuit is composed of Digital signal processing chip, voice-frequency circuit, filtering circuit, simu
3、lation of JTAG interface. The part of software introduces the fundamental theory of speech recognition, explaining the DSP realization technology of speech recognition. The system is rich in resources and the circuit provides interfaces with analog and digital signal, and could be taken as an indepe
4、ndent module to be used for other electronic circuits, making it convenient to expand its application.Key words:DSP;speech key;wavelet transform引言 语音信号处理技术作为目前发展最为迅速的一个信息科学研究领域,其研究范围涉及一些比较前沿的科研课题,所得研究成果也具有同样重要的研究与应用价值。近年来,随着数字信号处理与语音钥匙算法不断发展,许多过去语音处理算法仿真和研究中出现的难题都基本得到解决。不管要求多么复杂,语音信号处理系统都可以集成在一块数字信号
5、处理器(DSP,Digital Signal Processing)芯片上,处理速度也随着DSP运算速度提升而飞速增长,因此语音信号处理技术应用越来越广泛,也越来越为人们所关注。语音信号处理研究范围包含了许多学科,如语音学、语言学、数字信号处理、电子通信、计算机技术、模式识别等。因此,研究语音钥匙系统除了加强语音钥匙系统本身的学习外,还需要了解很多其他方面的知识,一个好的语音钥匙系统应当考虑到输入设备、说话人的状态、说话环境、硬件平台、识别算法等多方面的因素。在实际应用中,语音钥匙应用范围非常广泛,各行各业都可以见到语音钥匙系统,例如通讯系统语音拨号、银行查询系统、家庭智能玩具、酒店服务、股票
6、证券交易、汽车导航设备、工业控制等等。该系统以DSP硬件平台作为载体,以动态时间规整(DTW,Dynamic Time Warping)高效算法作为语音钥匙核心算法,实现特定人、孤立词和小词汇量语音钥匙,可以实际应用到门禁系统中身份确认中去。一、 设计内容与任务语音信号处理是利用数字信号处理技术对语音信号进行处理的一门学科,其核心技术包括语音合成、语音钥匙、语音测评等,是现代人机交互的重要方式之一,具有广泛的应用前景。近年来随着互联网和通信的发展,信息检索也呈现多样化,如文字检索、语音检索和基于内容的图像检索,其中语音检索将成为跨领域资源整合的纽带,而语音检索的关键在于进行语音匹配与识别。本实
7、验设计一个基于DSP处理系统的语音钥匙,实验内容如图1所示:图1 实验内容设计基础要求:利用Matlab将采集到的一段语音进行仿真处理,实现基于语音相关匹配的较为简单的语音钥匙的功能。在CCS编译环境下利用C语言编写语音钥匙程序,并在BJTUDSP5502实验系统平台上实现。若语音钥匙开启,将指示灯D1进行1Hz闪烁(慢闪),并进行相应的语音提示。未开启,将指示灯D1进行3Hz闪烁(快闪),并进行相应的语音提示。二、 原理及方案1. 基本原理简单的语音钥匙:对采集到的语音信号和已存入的语音信号进行相关运算,相关度较大时语音钥匙开启。由话筒输出的语音信号首先经过放大电路和前置滤波电路,将处理后的
8、语音信号(模拟量)由音频模块进行A /D转换和语音数据的编码,再将编码数据送到DSP中进行处理,最后进行训练与识别。识别结果通过显示器读出,或将识别结果通过音频解码器进行D /A转换后经过后置滤波电路,通过扬声器放音。2. 实验方案实验方案自行设计,利用BJTU-DSP5502实现可参考如图2所示方案:图2 参考实验方案流程整个系统以BJTU-DSP5502为核心,首先采集语音信号,然后对语旨信号进行数字处理,其处理过程都是在BJTU-DSP5502上实现的,整个处理过程主要包括语音信号的预处理、端点检测、特征提取和模式匹配四部分。其框图如下:图3 数字信号的处理过程1) 语音钥匙系统的基本流
9、程如图4所示,包括预处理、特征提取、模型训练和识别几个环节。图4 语音钥匙流程图2) 系统硬件电路设计2.1 工作原理由话筒输出的语音信号首先经过放大电路和前置滤波电路,将处理后的语音信号(模拟量)由音频模块进行A /D转换和语音数据的编码,再将编码数据送到DSP中进行处理,最后进行训练与识别。识别结果通过液晶显示器读出,或将识别结果通过音频解码器进行D /A转换后经过后置滤波电路,通过扬声器放音。2.2 系统硬件结构话筒扬声器音频编解码前置滤波后置滤波BJTU-DSP 5502JTAGLCD显示FLASHEPROM复位晶振电源图5 系统硬件结构图系统的硬件电路图包括:DSP核心电路、电源电路
10、、语音信号采集电路、LCD液晶显示电路、JTAG电路和存储器电路,具体分析如下:DSP核心电路BJTU-DSP 5502, 的主要特性如下:(1)流水线操作,指令周期为Ins,操作速率可达100MIPS。总线结构包含8条16bit的总线,其中1条程序总线,3条数据总线和4条地址总线,具有很好的并行性。功耗较低,片内IO电压33V,内核电压18V。(2)CPU结构包括:40bit算术逻辑单元(ALU),包括40位桶形移位寄存器,2个独立的40位累加器;2个40Bit的累加器,分为保护位,高位字,低位字;17x17位乘法器,40位加法器:比较选择和存储单元,数据地址产生器,程序地址产生器。(3)丰
11、富的片内外设:通用IO引脚XF和BIO:硬件定时器;软件可编程等待状态产生器;可编程块开关模块;增强型并行主机接IE(HPl816);两个多通道缓冲串口(MCBSP);带锁相环PLL的时钟发生器;DMA控制器;IEEEll491标准JTAG接口。23语音信号采集电路语音信号采集电路是语音钥匙系统中的核心部分,其作用是将语音信号采集提供给DSP,为DSP处理语音信号做好准备。1)TLV320AIC23相关介绍TLV320AIC23是TI公司推出的一款高性能立体声音频编解码器【l 91,内部含有耳机输出放大器,可以选择line in和mie等不同输入方式。该器件中数模转换器和模数转换器都集成在芯片
12、内部,可在8KHZ至96KHZ的采样率下提供16bit到32bit四种不同的采样数据。同时,TLV320AIC23还具有很低的功耗,回放模式为23mW,节电模式仅为151xw。因此,TLV320AIC23是一款实用性非常高的音频编解码器。TLV320AIC23通过外部处理器对其内部寄存器进行编程配置,其配置接口支持SPI总线接口和12C总线接口。数据传输格式支持右判断模式、左判断模式、12C模式和DSP模式4种方式。其中DSP模式专门针对TI的DSP设计。5502的多通道缓冲串口McBSP可以按照SPI总线接口模式配置,该模式下其串行数据传输格式与AIC23的DSP模式下的格式兼容,此外,这两
13、款芯片的I0电压兼容,从而使得二者可以无缝连接,中间也无需进行电压转换,二者的连接也非常的简单方便。2.4 JTAG接口电路JTAG是一种国际标准测试协议(IEEE 11491兼容),主要用于芯片内部测试与调试,现在多数的高级器件都支持JTAG协议。标准接口是4线:TMS、TCK、TDI、TDO,分别为模式选择、时钟、数据输入和数据输出线。系统板留有一个TI公司定义的DSP标准JTAG接口,可以跟通用TI系歹IJDSP仿真器连接。通用TI系YUDSP仿真器插头的第六孔已填有针,所以板上JTAG接口的第六针已被拨开,只有正确连接才能吻合,否则不能吻合。2.5 DSP与AI C23接口配置5502
14、有2个多通道缓冲串口McBSP0和McBSPl,通过6个引脚使其的数据和控制线与外部设备相通。系统数据通过McBSP的DR和DX引脚传输,同步信号则由CLKX,CLKR,FSX,FSR引脚实现连接。McBSP可以配置为SPI模式,其串行数据传输格式与AIC23的DSP模式兼容。5502与AIC23的接口配置包括AIC23初始化、McBSP0接口配置和McBSPl接口配置。2.6 程序装载与调试系统板上电后能从外部扩展存储器FLASH中读取程序的过程称为上电自举(Bootloadder),DSP内部存储器装载有BOOT程序,在DSP上电复位后,将外部FLASH装载到DSP内部RAM中运行。装载的
15、方式有很多,本文选择HPI口输入方式,DSP上电复位后,BOOT程序从ROM跳转到外部FLASH,系统将会自动加载外部FLASH中的程序,此时系统板便可以独立运行了。完成相关硬件驱动后便可开发语语音钥匙算法的程序了,DSP支持汇编语音和C语言。汇编语言与硬件关联最近,语言精简,执行速度快、效率高,但是可读性较差,不易移植,一般用在与硬件进行数据交换来提高运算效率;C语言可读性高,便于调试与移植,但是执行效率相对汇编要低。因此,针对这两种语言的优缺点,本系统采用以C语言为主,结合汇编语言来编写程序,这样既可以提高程序的运算效率又增加程序的可移植性。调试在PC机上CCS33环境下进行,目标板上有J
16、TAG接口专门用来在线调试。编程语言以C语言为主要编程语言,与硬件联系较紧、运算量较大的部分采用汇编浯占设计调试DSP硬件平台基本步骤为:首先安装CCS3.3(5000)硬件驱动,插上仿真器。然后设置CCS SETUP,选择处理器TMS320C5502,端口为0x378,然后启动CCS3.3,在CCS3.3中打开语音钥匙程序即可开始调试。系统软件设计语音钥匙程序系统框图语音钥匙程序是整个语音钥匙系统的核心部分,一般是根据识别的类型而选择一种满足系统要求的识别算法,分析出这种识别算法的语音特征参数,按照相应的准则与样本模板匹配从而得出识别的结果。语音钥匙系统框图如图6所示。图6 语音钥匙系统语音
17、信号预处理在语音信号处理中,预处理通常包含AD转换、预加重、加窗、端点检测等基本步骤。1)语音信号AD转换语音信号是随时间和幅度而变化的一维信号,语音信号处理是对语音信号进行数字处理,所以在对语音信号处理之前需要将语音信号数字化,即进行AD转换。一个完整的模数转换必须包含有采样、保持、量化和编程四个基本过程,一般在运算过程中将采样于保持简化成一步,量化和编程简化成一步。由奈奎斯特采样定理可知,采样频率要大于或者等于原始信号频率的2倍,才能在采样的过程中保持信号的完整性。本系统采用16位AD转换芯片TLV320AIC23,由于适用于孤立词的识别,因此采样频率为8kHz。2)语音信号的预加重受声道
18、模型中声门激励和嘴唇辐射影响,语音信号的高频端在大约800Hz以上会产生衰减,斜率通常为6dB倍频,所以在求语音信号的高频成分时比低频信号难求的多。为了消除这种现象,提升语音信号中的高频部分,使整个频带中保持信号频谱的平稳,便于后期频谱分析,在分析语音信号之前应对原始语音信号进行预加重来滤除低频干扰。可采用一个一阶滤波器,滤波器的函数为:换算成时域系统差分方程是:其中X(n)为预加重前的语音信号,H(z)为一阶滤波器函数,Y(n)为预加重后的语音信号,a为滤波器系数,本文选095。3) 语音信号加窗处理加窗处理其实分为两个步骤:分帧与加窗。语音信号是随着时间而变化的非平稳信号,通常一小段时间间
19、隔内,语音信号才可以看成保持相对稳定。一般认为在10ms到30ms之间的语音信号为平稳信号,由于本系统采用的采样频率为8kHz,为了提高处理速度,取较小的帧长和帧移,所以取帧长为20ms,帧移为10ms。对每一帧语音进行加窗是为了减少在每一帧语音的开始和最后的不连贯性。加窗的函数为:其中F(n)为加窗后的第n帧信雩_s(m)为原始语音信号,W(nm)为窗函数,n和m代表帧数。在语音信号处理中常见的窗函数,汉明窗低通特性较平滑,旁瓣高度最低,所以汉明窗使用的范围最为广泛。因此,由于以上原因,本系统的窗函数选用汉明窗。汉明窗:4)语音信号端点检测端点检测,主要用来检测语音钥匙中样本信号的起点和终点
20、,因此,又被称为起止点检测。在语音信号处理中,语音信号的数据量非常庞大,如果对全部语音信号都加以处理,不仅增加系统处理器的负荷,还会影响系统的识别率。为了将有用的语音信号从系统采集的原始语音信号中提取出来,则就要对采集的语音信号进行分析,将语音的信号段和噪音段从语音信号中检测区分开来,从而准确的检测出语音段的起点与终点,去除从语音信号中无声段,极大的减少了数字信号处理器的运算量和处理时间,提高系统的性能和识别率。端点检测是语音信号预处理的核心部分,在整个语音钥匙过程中也处于非常关键的位置。端点检测位于语音钥匙较前端,处在整个语音钥匙算法的重要位置。可以说语音钥匙实现的效果不仅仅取决于识别算法的
21、优劣,有许多因素与之相关,其中端点检测就是一个很重要的指标,其主要作用是检测语音钥匙中样本信号的起点和终点。 (1) 语音信号的短时能量与短时过零率语音信号另外一个重要的特性就是发音的能量不同,清音能量较小,而浊音的能量较大。因此,可以通过分析语音信号的短时能量或短时平均幅度来分析语音的能量特性。短时能量的函数如下:其中E(n)为语音信号的短时能量,h(n)=w(n)为窗函数,N为窗长,x(m)为语音信号序列。短时平均幅度函数如下:其中S(m)为语音信号序列,W(n)为窗函数。由于清音的能量小于浊音,所以可以用短时能量或者短时平均幅度来判断清音和浊音,区分有声段和无声段。语音信号短时过零率的函
22、数为:其中符号函数sgn的定义为:(2)基于双门限比较法端点检测基于双门限比较法端点检测的步骤如下:首先,设置高门限EH、低门限EL、过零率门限值Zik。其次,利用高门限EH找到语音段中能量较高的部分,起点端为F1:终点端为B1: 其中E0(i)为起点端时刻i帧的短时能量,N为语音总长度。接着,由EL、Zik、F1、B1来最终确定语音信号的起始端F2:终点端B2为:最后可以得到检测到的语音长度为L=B2-F2。2语音信号特征参数提取经过语音预处理中端点检测后,已经将语音信号中清音、噪音区别出来,这时就可以对所需语音信号进行特征参数提取,在分析语音信号的同时去掉无用信息,这些信息又比较占空间,最
23、后获得对识别算法有用的重要参数。在提取过程中,并不是很广泛的提取,毕竟语音钥匙系统的内存有限,为了减少处理器的运算量,提高识别率,要求所提取的特征参数能充分代表说话者的语音特征,与其他的说话者有很好的区分性,各个特征参数之间能相互独立。此外,为保证语音钥匙便于实现,所提取的特征参数应该便于计算。语音信号的特征参数分为两种:时域特征参数,在一帧短时信号中由各个时域采样而直接组成一个参数矢量,如基音周期、短时平均能量等;频域特征参数则是在一帧短时信号经过了些变化后再组成的参数矢量,如Mel频率倒谱系数、LPC倒谱系数、短时频谱等。线性预测倒谱系数(LPCC)是基于人的发声机理原理,使系统的传递函数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 DSP 语音 钥匙 实验 报告
链接地址:https://www.31ppt.com/p-2888275.html