1381.A语音增强算法及其DSP实现(含封面).doc
《1381.A语音增强算法及其DSP实现(含封面).doc》由会员分享,可在线阅读,更多相关《1381.A语音增强算法及其DSP实现(含封面).doc(44页珍藏版)》请在三一办公上搜索。
1、本科毕业论文(科研训练、毕业设计)题 目:语音增强算法及其在DSP上的实现姓 名: 学 院: 物理与机电工程学院系: 物理系专 业: 电子信息科学与技术年 级: 学 号: 指导教师(校内): 职称:工程师指导教师(校外): 职称:2005 年 06 月 02 日语音增强算法及其在DSP上的实现摘要:语音增强是从带噪声混合信号中提取语音信息,在国家安全、通信等实际生活领域中有着广泛的应用。本论文在深入调研的基础上,采用数字信号处理技术和声学研究相结合的方法,围绕语音的增强问题展开工作,研究了一些算法。选择时域语音激活检测(简称VAD)算法作为判别噪声帧算法,选取短时能量和短时过零率两个参数作为为
2、判别语音帧/静音帧的依据。由于固定的能量门限不能准确地反映信号能量与背景噪声能量的变化,本文依据人耳听觉的掩蔽效应,采用动态门限更新的方法,在信噪比(SNR)较低时也收到了很好的判别结果。DSP(数字信号处理器)作为专用的数字信号处理芯片,具有在单机器周期内完成乘加运算、单机器周期内多次访问存储器以及丰富的片上外设等特点。采用DSP进行语音信号处理代表未来语音信号处理的发展方向,在这种情况下,本文在研究传统减谱法的基础上,对改进算法进行了分析和实现,设计并实现了一种基于DSP的语音信号采集与处理系统。关键词:语音信号处理 语音增强 减谱法 语音激活检测DSPSpeech Enhancement
3、 Algorithms and Implementation on DSPAbstract: Speech enhancement is used to abstract voice information from voice with various background noises, which is extensively used in communication systems and other areas. This paper bases on digital signal processing technology and acoustics, focuses on th
4、e problem of speech enhancement and studies some algorithms. This paper chooses time Voice Activity Detection algorithm(VAD), which uses short-time energy and short-time zero-pass ratio, to detect noise frame. Because fixed threshold cannot exactly reflect the variety of noise, this study advances d
5、ynamic threshold based on “masking effect”.DSP as special digital signal processor, has some unique features, such as Single-cycle multiply and accumulate (MAC),multiple accessing memories in single cycle, a wide variety of on-chip peripherals. These features lead DSP applied widely in digital speec
6、h processing field. This paper studies the traditional Spectral Subtraction and improves it to reduce “music noise”. Then based on these theories, a practical speech enhancement processing system on DSP is designed and implemented.Key words: Speech processing Speech enhancement Spectral Subtraction
7、Voice Activity Detection DSP 目 录摘要2Abstract3引 言4第一章语音信号处理技术的基础知识41.1 语音的产生41.2 人的听觉特性41.3 语音信号产生的数字模型41.3.1 激励源模型41.3.2 声道模型41.3.2 辐射模型41.4 语音信号的短时分析技术41.4.1 预滤波、采样、A/D变换41.4.2 加窗处理41.4.3 短时频谱41.4.4 短时能量和短时平均幅度41.4.5 短时过零率41.5 语音特性4第二章语音增强的基本理论42.1 噪声特性42.2 语音增强效果的评价方法42.3 语音增强算法概述42.3.1 基于多通道输入的语音增
8、强算法42.3.2 基于单通道输入的语音增强算法4第三章减谱法算法的分析及改进43.1传统减谱法43.2 改进的减谱法43.3 伪倒谱相减法4第四章TDS5410TDK 开发系统简介44.1 硬件开发平台TDS5410TDK简介44.2 TMS320C54x DSP 概论41C54x CPU vs 通用CPU42冯诺依曼结构 vs 哈佛结构 vs 改进的哈佛结构43C54x DSP区别于通用处理器的特性总结44.3 HPI接口简介44.4集成开发环境CCS4第五章 算法的DSP实现及算法性能分析45.1 算法的系统实现框图45.2 A/D 采样和转化45.3 VAD算法的分析及比较45.3.1
9、检测的依据45.3.2检测参数选择的理由45.3.3 检测的流程45.4 算法DSP实现要点45.4.1 DSP C 数据类型 vs ANSI C数据类型45.4.2 与主机的数据交换45.4.3 CMD文件的编写45.4.4 C和汇编语言混和编程45.5 算法优化及实验结果分析45.5.1 FFT和IFFT的转化45.5.2减谱法及其改进算法效果分析456 小结4结 论4致 谢4参 考 文 献4附 录4附录一:DSP C语言数据类型4附录二:程序代码41 A/D采样42VAD判别程序43高通滤波44FFT变化45取模和相位信息46根据相位信息将模分解为实、虚部4引 言一论文研究的背景当今世界
10、正处在信息时代。计算机、电子和信息技术的高速发展,推动着人类社会向信息社会不断进步。语音是人类相互之间进行交流最自然和最方便的形式之一,语音通信是一种理想的人机通信方式。人们一直梦想有朝一日可以摆脱键盘或遥控设备的束缚,拥有更为友好、亲切的人机界面,使得计算机或家用电器可以听懂人的话语,看懂人的动作,执行人们所希望的任何任务,而语音数字信号处理正是其中一项至关重要的应用技术。语音数字信号处理是一门涉及面很广的交叉学科,研究领域涉及到信号处理、人工智能、模式识别、数理统计、神经生理学和语言学等许多学科,在数字语音通信、声控打印机、自动语音翻译和多媒体信息处理等许多方面都有着非常重要的应用。语音数
11、字信号处理包含的内容十分广泛,包括语音编码、语音识别、语音合成和语音增强等。在语音数字信号处理的诸多研究领域中,语音增强是语音数字信号处理系统进入实用阶段,保证语音识别系统、说话人识别系统和各种实际环境下语音编码系统性能的重要环节。二论文研究的意义与价值人们在语音通信过程中不可避免地会受到来自周围环境、传输媒介乃至其他讲话者的干扰,使得接收者最终接收到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。通常情况下,语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰往往都是随机的、不确定的、复杂的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强
12、的目的主要有两个:一是改进语音质量,消除背景噪声,这是一种客观度量;二是提高可懂度,使听者乐于接受,不感觉疲劳,这是一种主观度量,但这两个目的往往不能兼得。语音增强作为预处理手段,可以应用到许多领域中【9】:1目前的语音识别系统大都工作在安静环境中,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。2语音生成模型是低速率参数编码的基础,当模型参数的提取受到混杂在语音中的背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至完全不可懂。3在国家和社会安全方面,侦听信号常常含有较大的噪声,语音增强有助于提高侦听系统的效果,可以帮助侦察破案或获取情报。4在医学领域中,在复杂语音环境下,帮
13、助听力障碍的人获取正常人的听力,正确分辨说话人的位置,选择所听取的语音信号。三研究内容与论文结构本论文采用数字信号处理和声学研究相结合的方法,围绕语音增强问题,展开研究工作。在分析、研究语音增强算法的基础上,对比各种经典语音增强算法的利弊,选择减谱增强算法作为本论文的算法,并且针对传统减谱法的缺点做了改进和优化,利用计算机高级语言对增强算法进行仿真。在对高级语言仿真程序进行测试分析之后,选择闻亭公司TMS320C5410-TDK作为开发系统,根据其硬件特点,设计A/D电路及采样、输出程序,结合仿真程序,进行软、硬件调试、改进和优化,在TMS320C5410开发系统上实现了语音信号的增强。本文在
14、结构上大致可以分为5个部分:语音信号处理技术的基础知识(第一章);语音增强算法概述(第二章);减谱法算法的分析及改进(第三章);TMS320C5410开发系统介绍(第四章);减谱法算法在DSP上的实现及结果比较(第五章)。第一章 语音信号处理技术的基础知识语音信号处理是一门综合性的学科,它研究如何用数字信号处理技术对语音信号进行处理,包括四大分支语音识别,语音合成,语音编码和语音增强。在不同的分支中,研究的目标不同,所采用的处理方法亦是多种多样的,但总的来说,处理语音信号的目的是利用语音信号所携带的信息,以最简的方式去解决实际问题。这里,简要介绍一下语音信号处理的基础知识。1.1 语音的产生【
15、9】产生语音的能量,来源于正常呼吸时肺部呼出的稳定气流。声带既是阀门,又是振动部件。由声带振动产生声音,是形成声音的基本声源。声带开启和闭合使气流形成一系列脉冲。每开启和闭合一次的时间即振动周期,称为基音周期,其倒数称为基音频率,简称为基频。基频决定了声音频率的高低,随发音人的性别、年龄及具体情况而定。语音中由声带振动产生的声音称为浊音,而不由声带振动产生的声音称为清音。声道是由咽、口腔和鼻腔组成,是一个分布参数系统,可视为一谐振腔,它放大某一频率而衰减其它频率分量。讲话时,舌和唇连续运动,使声道常常改变外形和尺寸,即改变谐振频率。这些谐振频率称为共振峰频率,简称为共振峰,语音的频率特性主要是
16、由共振峰决定的。声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的共振频率之间相互作用的结果对音质有很大影响。1.2 人的听觉特性一个完整的语音通信系统总是涉及到说(语音的产生)和听(语音的接收)两个方面,正常人的听觉系统是极为灵敏的,人耳所能感觉的最低声压接近空气中分子热运动所产生的声压。正常人可听到声音的频率范围为:0.016kHz16kHz 的声音。当两个响度不同的声音作用于人耳时,则响度较高频率成分的存在会影响到人耳对响度较低频率成分的感受,使其变得不易被觉察,称之为掩蔽效应(Masking effect)【10】。1.3 语音信号产生的数字模型语音是由空气流激励声道,最后从嘴唇或鼻
17、孔辐射出来,语音声波由振动而产生并借助于介质点的振动而传播。对于目前的大多数研究和应用,数学模型完全满足要求,该模型中包括三个部分:激励源、声道模型和辐射模型【4】。图11 语音信号产生的数学模型Figure11 Mathematical model of speech signal production 1.3.1 激励源模型激励源分浊音和清音两个分支,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。为了使浊音的激励信号具有声门气流脉冲的实际波形,需要使上述的冲激序列通过一个声门脉冲模型滤波器。清音激励信号则由随机噪声发生器产生。1.3.2 声道模型声道可近似地看作是由多段均匀截
18、面积的声管级联而成,采用流体力学的方法可以推导出,N节级联的无损声管的系统函数是一个N阶的全极点函数【4】:其中1,为实数,p为全极点滤波器的阶。p 取得越大,模型的传输函数与声道实际传输函数的吻合程度越高,但同时也增加了算法的复杂程度。1.3.3 辐射模型声道的终端为口和唇,因此辐射模型与嘴型有关。经研究表明,口唇端辐射在高频端较为显著,在低频端时影响较小。口唇的辐射效应可表示为【4】:综上所述,完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。其转移函数为【4】: 1.4 语音信号的短时分析技术语音信号是一种非平稳的时变信号,产生过程与发音器官的运动密切相关
19、,而这种物理运动比起声音振动速度要缓慢得多,因此语音信号常常假定为短时平稳的,即在1030ms时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。所以把每个短时的语音段称为一个分析帧,对该帧进行处理就相当于对固定特性的持续语音进行处理。分析帧可以是连续的,也可以是交叠分帧。1.4.1 预滤波、采样、A/D变换预滤波的目的有两个【13】:(1)抑制输入信号各频域分量中频率超出 的所有分量(为采样频率),以防止混叠干扰。(2)抑制50Hz的电源干扰。这样,预滤波器必须是一个带通滤波器,其上、下截至频率分别是和。对于绝大多数语音编码器,3400Hz,60100Hz,采样率为8kHz。语音信号
20、经预滤波和采样后,由A/D变换器变换为二进制数字码。1.4.2 加窗处理通常采用一个长度有限的窗函数w(n)来乘语音信号s(n),从而形成加窗语音【14】 s(n)w(n)。理想的窗函数的频率响应要求,主瓣无限狭窄且没有旁瓣(无频谱泄漏),但在实际过程中无法实现。根据不同应用,通常采用矩形窗、海明窗和汉宁窗等窗函数来逼近理想的频率响应。矩形窗主瓣最小,但旁瓣最高;海明窗具有最宽的主瓣和最低的旁瓣高度。从应用的角度来说,矩形窗有最高的频域分辨率,但泄漏较高,海明窗可以有效克服泄漏现象,具有平滑的低通特性。1.4.3 短时频谱加窗信号 的离散傅立叶(DTFT) 称为s(n)的短时频谱,可以用下面公
21、式计算【4】:(14)称为s(n)的短时功率谱。假设s(n)的DTFT是,且w(n)的DTFT是,那么是和的周期卷积。在语音信号数字处理中,都是采用的离散傅立叶变换(DFT)来代替,并且可以用高效的快速傅立叶变换(FFT)算法完成由至的转换。为了使具有较高的分辨率,所取的DFT以及相应的FFT点数较的长度N要大。例如,在通常采样率为8kHz且帧长为20ms时N160,而一般取为256,512或1024。为了将的点数从N扩大为,可以在扩大的部分添若干的0采样值。1.4.4 短时能量和短时平均幅度语音信号的一帧内的能量称为短时能量【4】,用 表示:短时能量为一帧样点值的加权平方和。可以由它的量值粗
22、略判别语音信号的有无,同时也可以由它判断该帧是浊音还是清音。短时能量的一个主要问题是对于信号电平值过于敏感,而且需要计算信号样值的平方和,在定点实现时很容易溢出。为了克服这个缺点,定义短时平均幅度 来衡量语音幅度的变化。但 的动态范围(最大值与最小值之比)要比短时能量小,接近于短时能量计算的平方根,所以用Mm区分清音/浊音、无/有声不如短时能量明显。1.4.5 短时过零率短时过零率其定义为【4】:其中sgn表示取符号,即 由短时过零率可以概略地得到信号的变化快慢。短时过零率也可以表征清音帧与浊音帧,及区别语音的有无。但过零率容易收到噪声电平的扰动。一般实际应用中多设置一个门限电平,以使过零率检
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 1381. 语音 增强 算法 及其 DSP 实现 封面

链接地址:https://www.31ppt.com/p-3929852.html