毕业设计(论文)语音增强的应用基于小波变换的噪声抑制.doc
《毕业设计(论文)语音增强的应用基于小波变换的噪声抑制.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)语音增强的应用基于小波变换的噪声抑制.doc(37页珍藏版)》请在三一办公上搜索。
1、 内蒙古科技大学本科生毕业设计说明书(毕业论文)题 目:语音增强的应用基于小波变换的噪声抑制学生姓名: 学 号:2002103235专 业:电子信息工程班 级:电信2003-4班指导教师: 语音增强的应用基于小波变换的噪声抑制摘 要语音信号是非平稳的、时变的、复杂的、信息量大的信号,是语义信息加个人特征的混合信号。语音增强的目的就是要去除语音信号中的噪声和干扰、改善它的质量。大多数实际应用环境中总存在各种各样的噪声,由于训练环境与识别环境不匹配,现有的绝大多数语音识别系统在噪声环境中的性能都不可避免的急剧下降。通过小波变换可以有效的抑制周期性噪声、冲激噪声、宽带噪声、语音干扰等各种噪声。对于夹
2、杂在实际语音中的各种噪声能够有很好的抑制效果并明显的增强语音质量。关键词:语音增强;小波变换;噪声抑制;预处理The Application of Speech Enhancement the noise abatement based on the wavelet transformation AbstractThe speech signal is unbalanced, fluctuant, complex and has a huge amount of information. It is a mixed signal which is composed of semantic in
3、formation and individual characteristic. The aim of the speech enhancement is removing the noise and the disturbance of the speech signal and improving its quality.The various noises always exist in environment during the practical application. The performance of most existing speech recognition sys
4、tems usually have a sharp drop inevitably in the noise environment, because the training environment and the recognition environment does not match.All kinds of noises, such as periodic noise, impulse noise, wide band noise and the speech disturbance, can be effectively suppressed through the wavele
5、t transformation. The wavelet transformation has a good suppression effect on all kinds of noises mixed in the actual speech and could enhance the speech quality significantly.Key words: Speech enhancement; Wavelet transformation; Noise abatement; Pretreatment目 录摘 要IABSTRACTII引 言1第一章预处理21.1语音信号的数字化模
6、型21.2语音信号预处理21.3反混叠失真滤波器41.4预加重器51.5端点检测器6第二章 语音增强概述72.1语音增强的理论依据72.1.1语音信号的特点82.1.2人耳的感知特性82.1.3噪声特性92.2语音增强的发展历程102.3语音增强算法简介112.4语音增强算法的分类11第三章 基于小波变换的语音信号增强方法133.1前言133.2小波分析的基本理论143.2.1小波变换143.2.2小波分析与Fourier分析163.2.3离散小波变换183.3基于小波变换的语音增强193.3.1传统增强方法193.3.2利用小波变换去除周期性噪声223.3.3利用小波变换去除冲激噪声233.
7、3.4利用小波变换去除宽带噪声23总结27参考文献28附录29致谢32引 言语言是人类进行思想,观点和情感交流最自然便捷的交互方式,而不同语种国家的人在交流上必然存在着一定的局限和障碍。随着信息时代的到来,基于语音识别,机器翻译,语音合成的语音人机交互通信系统就应运而生。无论是人与人之间还是人与机器之间的语音通信,语音信号处理,特别是语音信号数字处理的理论和技术都具有特别重要的作用1。语音识别既是个理论问题,也是一个工程化的问题。它综合多学科的理论成果,如:声学、语音学、语言学、生理学、数字信号处理、信息工程、通信理论、电子技术、计算机科学、模式识别、人工智能等,结合语音信号的特点,产生一系列
8、语音识别的理论。而在实际运用过程中还有一个工程化问题需要解决,语音识别的成果走出实验室,所面临的问题比语音识别技术本身还要多,还要复杂,还要难。首先遇到的是各种噪声干扰,其次是各种信道条件下的频谱畸变,还有不同用户的不同需求等等。由于噪声的存在会产生很多问题。识别系统大都是在安静环境下工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低率编码,特别是参数编码(如声码器),也遇到类似问题。由于语音生成模型是低速率参数编码的基础,而在语音通信中不可避免地会受到来自周围环境,传输媒介引入的噪声、通信设备内部电噪声乃至其他说话人的干扰。这些干扰将使接收端接收到的参数不是纯净的原
9、始语音参数,而是受噪声污染的参数。当噪声干扰严重时,重建语音的质量将急剧恶化,甚至变得完全不可懂。而特别遗憾的是,线性预测技术作为语音处理中最有效的手段,恰恰是最容易受噪声影响的。语音经过话筒变换成电信号后,加在识别系统输入端,首先要经过预处理。语音增强技术作为语音编码和语音识别的预处理,是解决噪声污染的一种有效方法,它的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。由于干扰通常都是随机的,因而从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳。这是一种主观度量;二是提高语音可懂度,这是一种客观
10、度量。这两个目的往往不能兼得1。本文将主要利用小波变换的一些特性来抑制噪声,以达到语音增强的目的。第一章 预处理在对语音信号进行分析和处理之前,必须对其进行预处理,预处理除了数字化,还包括反混叠滤波、预加重、端点检测等。1.1语音信号的数字化模型语音信号数字化之前,必须先进行防混叠滤波及防工频干扰滤波。其中防混叠滤波指滤除高于1/2采样频率的信号成分或噪声,使信号带宽限制在某个范围内;否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中的高频成分将产生失真;而工频干扰指50Hz的电源干扰。由于防混叠和防工频干扰滤波器都做在一个集成块中,因此,目前语音信号的数字化的质量是有保证的。语音信
11、号的数字化包括两个步骤:采样和量化。Nyquist采样定理要求取样率必须大于或等于信号带宽的2倍,因此,一般需要对输入的语音信号作低通(防混叠)滤波,然后进行A/D转换,如图1.1所示。如果工频干扰(50Hz或60Hz)不严重或另有措施抑制,则不必用带通滤波器而只需用低通滤波器就可以了,截止频率由实际语音信号带宽确定。典型的反混叠滤波器的技术指标是:通带内波动绝对值小于1dB,通带带宽3400Hz,在4000Hz处衰减14dB,4600Hz以上衰减32dB,对某些更高要求的应用,阻带衰减50dB以上。采样之后要对信号进行量化,量化后的信号值与原信号之间的差值称为量化误差,又称为量化噪声。目前8
12、bit量化较通用,试验表明,如果语音波形的动态范围为55dB,10bit以上量化更为合适。图1.1 语音信号的数字化1.2语音信号预处理常用的特征包括:短时平均能量,短时平均过零率,短时自相关函数等。短时能量分析:短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号图中可以看到语音信号幅度随时间有相当的变化,特别是清音段的幅度一般比浊音段的幅度小很多,语音信号的短时能量给出了反映这些幅度变化的一个合适的描述方法2。语音信号s(n)的短时能量的定义为: (1-1)其中窗函数w(n)为矩形窗、汉明窗、汉宁窗的任意一种,这里窗长N的选择对于反映语音信号的幅度变化起着决定性的作用。如
13、果N很大,它等效于很窄的低通滤波器,此时En随时间的变化很小,不能反映语音信号的幅度变化,信号的变化细节就看不出来;反之,N太小时,滤波器的通带变宽,En随时间有急剧的变化,不能得到平滑的能量函数。因此,窗口长度的选择应合适。短时平均能量的主要用途有:区分清音段和浊音段,语音为浊音时的短时能量值比清音时大得多,根据语音信号短时能量值的变化,可大致判定浊音变为清音和清音变为浊音的时刻。在高信噪比的语音信号中,可以用来区分有无语音。此时,无语音信号的噪声能量很小,而有语音信号时,短时能量值显著地增大到某一数值,由此可以区分语音信号的起始点和终止点。短时过零分析:过零分析是语音时域分析中最简单的一种
14、,顾名思义,过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平均过零数。语音信号短时过零数定义为: (1-2)式中为符号函数。即: (1-3)为窗口函数。其作用与求短时平均能量时一样。一般取 (1-4)这里窗口幅度为1/2N,是对窗口范围内的过零数取平均的意思。因为在窗口内共有N个样本,而每个样本使用了2次。当然也可以不用直角窗,而采用其它形式的窗。短时过零可用于清音和浊音的大分类上,还可用于从背景噪声中找出语音信号。可用于判断寂静无语音和
15、有语音的起点与终点位置,用于确定一个一个单词的语音信号。短时自相关:自相关是一种常用的时域波形分析法。它有自相关和互相关之分,分别用自相关函数和互相关函数来定义。相关函数用于测定两个信号在时域内的相似性。语音信号短时自相关函数(Short Time Autocorrelation Function)定义: (1-5)自相关函数具有以下的性质: 如果序列是周期的,则自相关函数也是周期的函数。 自相关函数是偶函数。 当K=0时,自相关函数具有极大值。 R(0)等于确定性信号序列的能量或随机性序列的平均功率。自相关函数的这些性质完全可以用于信号的时域分析之中。1.3反混叠失真滤波器为了防止混叠失真和
16、噪声干扰,必须在取样前用一个锐截止模拟低通滤波器对语音信号进行滤波。该滤波器称为反混叠失真滤波器或者去伪滤波器。它主要是为了去除个体发音差异和设备、环境引起的噪声影响等。要实现满足以上指标的锐截止滤波器是比较困难的,因此,通常允许有一定过渡带,如果取样频率为8kHz,那么折叠频率是4kHz,这意味着在取样过程中只有4.6kHz以上的频率成分才会反映到3.4kHz以下的通带中造成混叠失真。然而这些高频成分已经受到阻带很大的衰减,所以造成的混叠失真可以忽略不计。通过计算可以知道,为了把混叠失真效应一起的失真减小到与量化器的噪声相同的水平,阻带的衰减应当约为-66dB,对通带内的波纹的要求就没有这么
17、高了。这是因为: 频率分量的出现意味着感兴趣的频率范围内的某些频率成分的信息已经丢失。而通带内的波纹实际上不会引起这种信息的丢失,只会引起某种失真。 混叠失真是可以听出来的,而通带波纹引起的频谱失真几乎听不出来,因此,通常允许通带内的波纹达到0.5dB。上述指标可以用一个9阶椭圆滤波器来实现。这种滤波器常用于高质量语音信号处理系统中。1.4预加重器由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频)或20dB/dec(10倍频),所以求语音频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行
18、预加重(Preemphasis)处理。预加重的目的是在于滤除低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进行提升,以便于语音参数分析。预加重的一般做法是将语音信号通过一个一阶高通滤波器,通常称之为预加重滤波器,在计算语音参数(如短时能量)之前应使用该滤波器,可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。预加重滤波器传递函数为: (1-6) 若S(n)是预加重前的语音信号,则经过预加重滤波器后得到的信号为: (1-7)1.5端点检测器在许多实际应用中,都要求首先对系统的输入信号进行判断,准确找出语音段的起始点和终止点。只有准确地找出语音段的起
19、始点和终止点,才有可能使采集到的数据是真正要分析的语音信号,这样不但减少了数据量、运算量和处理时间,同时也有利于系统识别率的改善。判断语音信号的起始点和终止点的问题主要归结为区别语音和噪声的问题。如果环境噪声和系统输入噪声非常小,以至能够保证系统的输入信噪比很高(即使最低电平的语音的能量也比噪声的能量要高),那么只要计算输入信号的短时能量就能够把语音段和噪声背景区别开来。但是,实际应用中很难保证这么高的信噪比,因而不能够只依靠短时能量来判别会遇到的特殊困难,例如当语音段的开始和终止都是弱摩擦音或弱爆破音的情况。在这种情况下,只能依靠短时能量来判别语音段的起止点,往往会把起始和末尾的这些音素漏掉
20、。因此常常还利用短时平均过零率进行判断。因为清音和以上所举的音素的短时平均过零率比背景噪声的平均过零率要高出好几倍。第二章 语音增强概述语音早已成为人类进行交流的一种主要方式,通过语音传递信息是人类最重要、最有效和最方便的交换信息的途径。因此,语音信号是人们思想疏通和感情交流的最主要的信号形式之一。同时,随着信息技术的发展,语音信号作为信息的最普遍最直接的表达方式,在许多领域也一样具有广泛的应用前景。然而在实际环境下语音信号处理的关键是抗噪声技术,因为噪声的消减对一些语音应用如语音识别、语音编码、语音合成等的实用化是必要的。在实际应用中,由于噪声的存在会产生很多问题,背景噪声的存在使语音质量降
21、低的现象非常普遍,环境噪声的污染使许多语音处理系统的性能急剧恶化。语音增强是解决噪声污染的一种有效方法,它的一个主要目标是从带噪语音中提取出尽可能纯净的原始语音,尽可能多的去掉语音信号中的噪声和干扰,以改善它的质量,语音增强也就成为当前语音信号处理中的一个重要方向。语音增强技术在许多领域有着广泛的应用,比如:移动通信系统、语音识别系统、低质量的录音装置以及助听装置等。将语音增强处理应用于数字频谱编码传输的接收端,可有效地提高接收信号的信噪比,降低误码率;这种技术对语音识别和说话人识别是十分重要的,可使识别装置能在有较多干扰的环境中进行工作。由于干扰通常都是随机的,因而从带噪语音中提取完全纯净的
22、语音几乎不可能。前面已经提到,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是主观度量;二是提高语音可懂度,这是客观度量。但这两个目的往往不能兼得,我们经常是寻找特定的算法,使得最终的结果在二者之间取得一个较好的折中。2.1语音增强的理论依据语音增强是一门涉及面很广的交叉学科,它不但与语音信号数字处理理论有关,而且涉及到模式识别、数理统计、神经生理学和语音学等学科。此外,语音增强所面临的噪声形式也有很多,常见的如街道、工厂车间、人声鼎沸的公共场所等地方的噪声。因此,人们在研究语音增强的方法时一般是从语音特点、人耳的感知特性以及噪声特点等几个方面入手。2
23、.1.1语音信号的特点语音信号是一种非平稳的随机信号,同时也可以看作是一种短时平稳的随机信号。这是因为人类发音过程的变化速度有一定的限度,一般在短时(1030ms)内的声带与声道的形状具有相对的稳定性,在这段时间内我们可以认为语音的物理特性与频谱特性近似不变。语音的短时特性是语音信号分析和处理的基础,利用这一特性就可以应用平稳随机过程来分析与处理语音信号。任何语音都包含元音与辅音两种音素,辅音根据声带是否振动又可分为清辅音与浊辅音两种。浊辅音在时域上呈现出明显的周期性和较强的振幅,在频域上有共振峰结构,而且能量大部分集中在较低频段内。清辅音则完全不同,它没有明显的时域和频域特征,类似于白噪声,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 语音 增强 应用 基于 变换 噪声 抑制
链接地址:https://www.31ppt.com/p-3984921.html