欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOC文档下载  

    毕业设计(论文)语音增强的应用基于小波变换的噪声抑制.doc

    • 资源ID:3984921       资源大小:455.50KB        全文页数:37页
    • 资源格式: DOC        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    毕业设计(论文)语音增强的应用基于小波变换的噪声抑制.doc

    内蒙古科技大学本科生毕业设计说明书(毕业论文)题 目:语音增强的应用基于小波变换的噪声抑制学生姓名: 学 号:2002103235专 业:电子信息工程班 级:电信2003-4班指导教师: 语音增强的应用基于小波变换的噪声抑制摘 要语音信号是非平稳的、时变的、复杂的、信息量大的信号,是语义信息加个人特征的混合信号。语音增强的目的就是要去除语音信号中的噪声和干扰、改善它的质量。大多数实际应用环境中总存在各种各样的噪声,由于训练环境与识别环境不匹配,现有的绝大多数语音识别系统在噪声环境中的性能都不可避免的急剧下降。通过小波变换可以有效的抑制周期性噪声、冲激噪声、宽带噪声、语音干扰等各种噪声。对于夹杂在实际语音中的各种噪声能够有很好的抑制效果并明显的增强语音质量。关键词:语音增强;小波变换;噪声抑制;预处理The Application of Speech Enhancement the noise abatement based on the wavelet transformation AbstractThe speech signal is unbalanced, fluctuant, complex and has a huge amount of information. It is a mixed signal which is composed of semantic information and individual characteristic. The aim of the speech enhancement is removing the noise and the disturbance of the speech signal and improving its quality.The various noises always exist in environment during the practical application. The performance of most existing speech recognition systems usually have a sharp drop inevitably in the noise environment, because the training environment and the recognition environment does not match.All kinds of noises, such as periodic noise, impulse noise, wide band noise and the speech disturbance, can be effectively suppressed through the wavelet transformation. The wavelet transformation has a good suppression effect on all kinds of noises mixed in the actual speech and could enhance the speech quality significantly.Key words: Speech enhancement; Wavelet transformation; Noise abatement; Pretreatment目 录摘 要IABSTRACTII引 言1第一章预处理21.1语音信号的数字化模型21.2语音信号预处理21.3反混叠失真滤波器41.4预加重器51.5端点检测器6第二章 语音增强概述72.1语音增强的理论依据72.1.1语音信号的特点82.1.2人耳的感知特性82.1.3噪声特性92.2语音增强的发展历程102.3语音增强算法简介112.4语音增强算法的分类11第三章 基于小波变换的语音信号增强方法133.1前言133.2小波分析的基本理论143.2.1小波变换143.2.2小波分析与Fourier分析163.2.3离散小波变换183.3基于小波变换的语音增强193.3.1传统增强方法193.3.2利用小波变换去除周期性噪声223.3.3利用小波变换去除冲激噪声233.3.4利用小波变换去除宽带噪声23总结27参考文献28附录29致谢32引 言语言是人类进行思想,观点和情感交流最自然便捷的交互方式,而不同语种国家的人在交流上必然存在着一定的局限和障碍。随着信息时代的到来,基于语音识别,机器翻译,语音合成的语音人机交互通信系统就应运而生。无论是人与人之间还是人与机器之间的语音通信,语音信号处理,特别是语音信号数字处理的理论和技术都具有特别重要的作用1。语音识别既是个理论问题,也是一个工程化的问题。它综合多学科的理论成果,如:声学、语音学、语言学、生理学、数字信号处理、信息工程、通信理论、电子技术、计算机科学、模式识别、人工智能等,结合语音信号的特点,产生一系列语音识别的理论。而在实际运用过程中还有一个工程化问题需要解决,语音识别的成果走出实验室,所面临的问题比语音识别技术本身还要多,还要复杂,还要难。首先遇到的是各种噪声干扰,其次是各种信道条件下的频谱畸变,还有不同用户的不同需求等等。由于噪声的存在会产生很多问题。识别系统大都是在安静环境下工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低率编码,特别是参数编码(如声码器),也遇到类似问题。由于语音生成模型是低速率参数编码的基础,而在语音通信中不可避免地会受到来自周围环境,传输媒介引入的噪声、通信设备内部电噪声乃至其他说话人的干扰。这些干扰将使接收端接收到的参数不是纯净的原始语音参数,而是受噪声污染的参数。当噪声干扰严重时,重建语音的质量将急剧恶化,甚至变得完全不可懂。而特别遗憾的是,线性预测技术作为语音处理中最有效的手段,恰恰是最容易受噪声影响的。语音经过话筒变换成电信号后,加在识别系统输入端,首先要经过预处理。语音增强技术作为语音编码和语音识别的预处理,是解决噪声污染的一种有效方法,它的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。由于干扰通常都是随机的,因而从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳。这是一种主观度量;二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得1。本文将主要利用小波变换的一些特性来抑制噪声,以达到语音增强的目的。第一章 预处理在对语音信号进行分析和处理之前,必须对其进行预处理,预处理除了数字化,还包括反混叠滤波、预加重、端点检测等。1.1语音信号的数字化模型语音信号数字化之前,必须先进行防混叠滤波及防工频干扰滤波。其中防混叠滤波指滤除高于1/2采样频率的信号成分或噪声,使信号带宽限制在某个范围内;否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中的高频成分将产生失真;而工频干扰指50Hz的电源干扰。由于防混叠和防工频干扰滤波器都做在一个集成块中,因此,目前语音信号的数字化的质量是有保证的。语音信号的数字化包括两个步骤:采样和量化。Nyquist采样定理要求取样率必须大于或等于信号带宽的2倍,因此,一般需要对输入的语音信号作低通(防混叠)滤波,然后进行A/D转换,如图1.1所示。如果工频干扰(50Hz或60Hz)不严重或另有措施抑制,则不必用带通滤波器而只需用低通滤波器就可以了,截止频率由实际语音信号带宽确定。典型的反混叠滤波器的技术指标是:通带内波动绝对值小于1dB,通带带宽3400Hz,在4000Hz处衰减14dB,4600Hz以上衰减32dB,对某些更高要求的应用,阻带衰减50dB以上。采样之后要对信号进行量化,量化后的信号值与原信号之间的差值称为量化误差,又称为量化噪声。目前8bit量化较通用,试验表明,如果语音波形的动态范围为55dB,10bit以上量化更为合适。图1.1 语音信号的数字化1.2语音信号预处理常用的特征包括:短时平均能量,短时平均过零率,短时自相关函数等。短时能量分析:短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号图中可以看到语音信号幅度随时间有相当的变化,特别是清音段的幅度一般比浊音段的幅度小很多,语音信号的短时能量给出了反映这些幅度变化的一个合适的描述方法2。语音信号s(n)的短时能量的定义为: (1-1)其中窗函数w(n)为矩形窗、汉明窗、汉宁窗的任意一种,这里窗长N的选择对于反映语音信号的幅度变化起着决定性的作用。如果N很大,它等效于很窄的低通滤波器,此时En随时间的变化很小,不能反映语音信号的幅度变化,信号的变化细节就看不出来;反之,N太小时,滤波器的通带变宽,En随时间有急剧的变化,不能得到平滑的能量函数。因此,窗口长度的选择应合适。短时平均能量的主要用途有:区分清音段和浊音段,语音为浊音时的短时能量值比清音时大得多,根据语音信号短时能量值的变化,可大致判定浊音变为清音和清音变为浊音的时刻。在高信噪比的语音信号中,可以用来区分有无语音。此时,无语音信号的噪声能量很小,而有语音信号时,短时能量值显著地增大到某一数值,由此可以区分语音信号的起始点和终止点。短时过零分析:过零分析是语音时域分析中最简单的一种,顾名思义,过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平均过零数。语音信号短时过零数定义为: (1-2)式中为符号函数。即: (1-3)为窗口函数。其作用与求短时平均能量时一样。一般取 (1-4)这里窗口幅度为1/2N,是对窗口范围内的过零数取平均的意思。因为在窗口内共有N个样本,而每个样本使用了2次。当然也可以不用直角窗,而采用其它形式的窗。短时过零可用于清音和浊音的大分类上,还可用于从背景噪声中找出语音信号。可用于判断寂静无语音和有语音的起点与终点位置,用于确定一个一个单词的语音信号。短时自相关:自相关是一种常用的时域波形分析法。它有自相关和互相关之分,分别用自相关函数和互相关函数来定义。相关函数用于测定两个信号在时域内的相似性。语音信号短时自相关函数(Short Time Autocorrelation Function)定义: (1-5)自相关函数具有以下的性质: 如果序列是周期的,则自相关函数也是周期的函数。 自相关函数是偶函数。 当K=0时,自相关函数具有极大值。 R(0)等于确定性信号序列的能量或随机性序列的平均功率。自相关函数的这些性质完全可以用于信号的时域分析之中。1.3反混叠失真滤波器为了防止混叠失真和噪声干扰,必须在取样前用一个锐截止模拟低通滤波器对语音信号进行滤波。该滤波器称为反混叠失真滤波器或者去伪滤波器。它主要是为了去除个体发音差异和设备、环境引起的噪声影响等。要实现满足以上指标的锐截止滤波器是比较困难的,因此,通常允许有一定过渡带,如果取样频率为8kHz,那么折叠频率是4kHz,这意味着在取样过程中只有4.6kHz以上的频率成分才会反映到3.4kHz以下的通带中造成混叠失真。然而这些高频成分已经受到阻带很大的衰减,所以造成的混叠失真可以忽略不计。通过计算可以知道,为了把混叠失真效应一起的失真减小到与量化器的噪声相同的水平,阻带的衰减应当约为-66dB,对通带内的波纹的要求就没有这么高了。这是因为: 频率分量的出现意味着感兴趣的频率范围内的某些频率成分的信息已经丢失。而通带内的波纹实际上不会引起这种信息的丢失,只会引起某种失真。 混叠失真是可以听出来的,而通带波纹引起的频谱失真几乎听不出来,因此,通常允许通带内的波纹达到0.5dB。上述指标可以用一个9阶椭圆滤波器来实现。这种滤波器常用于高质量语音信号处理系统中。1.4预加重器由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频)或20dB/dec(10倍频),所以求语音频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重(Preemphasis)处理。预加重的目的是在于滤除低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进行提升,以便于语音参数分析。预加重的一般做法是将语音信号通过一个一阶高通滤波器,通常称之为预加重滤波器,在计算语音参数(如短时能量)之前应使用该滤波器,可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。预加重滤波器传递函数为: (1-6) 若S(n)是预加重前的语音信号,则经过预加重滤波器后得到的信号为: (1-7)1.5端点检测器在许多实际应用中,都要求首先对系统的输入信号进行判断,准确找出语音段的起始点和终止点。只有准确地找出语音段的起始点和终止点,才有可能使采集到的数据是真正要分析的语音信号,这样不但减少了数据量、运算量和处理时间,同时也有利于系统识别率的改善。判断语音信号的起始点和终止点的问题主要归结为区别语音和噪声的问题。如果环境噪声和系统输入噪声非常小,以至能够保证系统的输入信噪比很高(即使最低电平的语音的能量也比噪声的能量要高),那么只要计算输入信号的短时能量就能够把语音段和噪声背景区别开来。但是,实际应用中很难保证这么高的信噪比,因而不能够只依靠短时能量来判别会遇到的特殊困难,例如当语音段的开始和终止都是弱摩擦音或弱爆破音的情况。在这种情况下,只能依靠短时能量来判别语音段的起止点,往往会把起始和末尾的这些音素漏掉。因此常常还利用短时平均过零率进行判断。因为清音和以上所举的音素的短时平均过零率比背景噪声的平均过零率要高出好几倍。第二章 语音增强概述语音早已成为人类进行交流的一种主要方式,通过语音传递信息是人类最重要、最有效和最方便的交换信息的途径。因此,语音信号是人们思想疏通和感情交流的最主要的信号形式之一。同时,随着信息技术的发展,语音信号作为信息的最普遍最直接的表达方式,在许多领域也一样具有广泛的应用前景。然而在实际环境下语音信号处理的关键是抗噪声技术,因为噪声的消减对一些语音应用如语音识别、语音编码、语音合成等的实用化是必要的。在实际应用中,由于噪声的存在会产生很多问题,背景噪声的存在使语音质量降低的现象非常普遍,环境噪声的污染使许多语音处理系统的性能急剧恶化。语音增强是解决噪声污染的一种有效方法,它的一个主要目标是从带噪语音中提取出尽可能纯净的原始语音,尽可能多的去掉语音信号中的噪声和干扰,以改善它的质量,语音增强也就成为当前语音信号处理中的一个重要方向。语音增强技术在许多领域有着广泛的应用,比如:移动通信系统、语音识别系统、低质量的录音装置以及助听装置等。将语音增强处理应用于数字频谱编码传输的接收端,可有效地提高接收信号的信噪比,降低误码率;这种技术对语音识别和说话人识别是十分重要的,可使识别装置能在有较多干扰的环境中进行工作。由于干扰通常都是随机的,因而从带噪语音中提取完全纯净的语音几乎不可能。前面已经提到,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是主观度量;二是提高语音可懂度,这是客观度量。但这两个目的往往不能兼得,我们经常是寻找特定的算法,使得最终的结果在二者之间取得一个较好的折中。2.1语音增强的理论依据语音增强是一门涉及面很广的交叉学科,它不但与语音信号数字处理理论有关,而且涉及到模式识别、数理统计、神经生理学和语音学等学科。此外,语音增强所面临的噪声形式也有很多,常见的如街道、工厂车间、人声鼎沸的公共场所等地方的噪声。因此,人们在研究语音增强的方法时一般是从语音特点、人耳的感知特性以及噪声特点等几个方面入手。2.1.1语音信号的特点语音信号是一种非平稳的随机信号,同时也可以看作是一种短时平稳的随机信号。这是因为人类发音过程的变化速度有一定的限度,一般在短时(1030ms)内的声带与声道的形状具有相对的稳定性,在这段时间内我们可以认为语音的物理特性与频谱特性近似不变。语音的短时特性是语音信号分析和处理的基础,利用这一特性就可以应用平稳随机过程来分析与处理语音信号。任何语音都包含元音与辅音两种音素,辅音根据声带是否振动又可分为清辅音与浊辅音两种。浊辅音在时域上呈现出明显的周期性和较强的振幅,在频域上有共振峰结构,而且能量大部分集中在较低频段内。清辅音则完全不同,它没有明显的时域和频域特征,类似于白噪声,且振幅较弱。语音增强中可以利用浊音具有明显的周期性来区别与抑制噪声,而清辅音则难以与宽带噪声区分。根据中心极限定理,傅里叶展开系数被认为是独立的高斯随机变量,均值为零,而方差是时变的。这种高斯模型应用于有限帧长时只是一种近似的描述,在宽带噪声污染的带噪语音的语音增强中,这种假设可作为分析的前提。2.1.2人耳的感知特性人耳的感知特性对语音增强有着重要的作用,这是因为语音增强的最终度量是人的主观感受,同时也可以利用人耳的感知特性在语音增强中减少运算代价。人的听觉系统所具有的功能是复杂的。实践证明,语音虽然客观存在,但是人的主观感受(听觉)和客观实际(语音波形)并不完全一致。任何复杂的声音对于人耳的感觉都可以用响度、音调和音色三个特征量来描述。其中响度是人耳对声音轻或重的主观反应,它取决于声音的幅度,主要是声压的函数,但与频率和波形也有关。音调是人耳对声音频率的感受。音调与声音的频率的关系是:频率高的声音听起来感觉它的音调“高”,而频率低的声音听起来感觉它的音调“低”。但音调与声音的频率并不成正比,它还与声音的强度及波形有关。音色是由于波形和泛音不同而造成的声音属性,人据此在主观感受上区别具有相同响度和音调的两个声音。音色是由混入基音的泛音所决定的,每个基音有其固有的频率和不同音强的泛音,因而每个声音具有各自不同的音色。语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域,这是一个复杂的问题,有待进一步研究。但目前已有一些结论可以利用:(1)人耳对于声波频率高低的感觉与实际频率的高低不呈线性关系,而近似为对数关系;人耳对声强的感觉很灵敏且有很大的动态范围,人耳对频率的分辨能力受声强的影响,过强或过弱的声音都会导致对频率的分辨力降低;人耳对语音信号的幅度谱较为敏感,对相位不敏感。这一点对语音信号的恢复很有帮助。共振峰对语音感知很重要,特别是前三个共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响。(2)人耳具有听觉掩蔽效应,即会产生一个声音由于另外一个声音的出现而导致该声音能被感知的阈值提高的现象,也就是说强声音信号对弱声音信号有抑制作用。掩蔽的程度是声音强度与频率的二元函数。对频率邻近分量的掩蔽要比频差大的分量有效得多。(3)人耳除了可以感受声音的强度、音调、音色和空间方位外,还可以在两人以上的讲话环境中分辨出所需的声音,这种分辨能力是人体内部语音理解机制具有的一种感知能力。人类的这种分离语音的能力与人耳的双耳输入效应有关,称为“鸡尾酒会效应”。2.1.3噪声特性噪声可以是加性的,也可以是非加性的。加性噪声通常分为冲激噪声、周期噪声、宽带噪声、语音干扰噪声等。非加性噪声主要是残响及传送网络的电路噪声等。(1)冲激噪声:例如放电、打火、爆炸等都会引起冲激噪声,它的时域波形是类似于冲激函数的窄脉冲。消除冲激噪声影响通常有两种方法:对带噪语音信号的幅度求均值,将该均值作为判断阈,凡是超过该阈值的均判为冲激噪声,在时域中将其滤除;当冲激脉冲不太密集时,也可以通过某些点内插的方法避开或者平滑掉冲激点,从而能在重建语音信号中去掉冲激噪声。(2)周期噪声:最常见的有电动机、风扇等周期运转的机械所发出的噪声,50Hz交流电源哼哼声也是周期噪声。在频谱图上它们表现为离散的窄谱,通常可以用陷波器方法予以滤除。(3)宽带噪声:说话时伴随着的呼吸引起的噪声、随机噪声源产生的噪声、量化噪声等均可视为宽带噪声,应用中常近似为高斯噪声或白噪声。其显著特点是噪声频谱遍布于语音信号频谱中,导致消除噪声较为困难。一般需要采用非线性处理方法。(4)传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时间域里是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变为加性噪声来处理。除了上述噪声会对语音产生干扰外,还有一种语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成的干扰称为语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。通过语音增强技术来改善语音质量的过程如图2.1所示。背景语音信道纯净语音语音增强处理干扰语音传输噪声增强语音图2.1 语音增强系统2.2语音增强的发展历程语音增强算法的研究起源比较早。许多学者在20世纪60年代就开始在这一领域进行了大量的工作,随着数字信号处理理论的成熟,20世纪70年代研究取得了一些基础性成果,并使语音增强发展成为语音信号数字处理的一个重要分支。1974年,Weiss, Aschkenasy和Parsons最早提出了用谱相减法来抑制噪声,利用噪声的平均谱来估计含噪语音段的噪声,就可利用谱相减法抑制加性噪声。1979年,Lin和Oppeheim提出了维纳滤波语音增强方法,估计带噪语音的AR模型参数,就能够以迭代的方式进行维纳滤波。进入80年代后,VLSI技术的发展为语音增强的实时实现提供了可能。使用统计方法的语音增强方法成为研究的中心。1980年,Maulay和Malpass提出了软判决噪声抑制方法。1984年,Ephrain和Malah提出了基于MMSE短时谱估计的语音增强方法。在40多年的研究中,许多语音增强方法不断被提出,奠定了语音增强的基础并使之逐渐走向成熟。90年代后,移动通信的飞速发展为语音增强的研究提供了十分现实的动力,同时DSP原理和技术的进步以及其它相关理论在语音增强领域的应用,都促使了新的语音增强方法的相继出现。例如对带噪语音信号进行小波变换,或者进行卡胡南-列夫变换(KLTKarhunen-Loeve Transform),或者进行离散余弦变换(Discrete Cosine Transform)来进行语音增强,以及基于人耳听觉掩蔽效应的语音增强方法,同时,这些方法也不断的被继承、发展。在硬件实现方面,新的快速DSP芯片的不断出现以及DSP与FPGA的结合都促进了系统性能的改善。2.3语音增强算法简介现实环境中的噪声多种多样,它们的特性各异,也就不可能找到一种通用的语音增强算法来适用各种噪声。同时语音增强算法不但与语音信号数字处理理论相联系,而且与人的听觉系统和语音学紧密相关,这也促使必须根据不同的噪声源来选择不同的对策。几十年来,许许多多的学者在这方面进行了不懈的努力,总结出了非常多的有效的方法。2.4语音增强算法的分类这些方法从信号输入的通道数可分为单通道的语音增强算法与多通道的语音增强算法。单通道的语音系统在现实生活中较为常见,如手机、耳麦等。这种情况下,语音与噪声同时存在于一个通道中,语音信号与噪声信号必须从同一个带噪语音中获得。一般情况下,这种系统要求信号中的噪声比较平稳,以便在无声段对噪声进行估计,再依据估计得到的噪声参数对有声段进行处理,得到增强语音。如果语音系统是一个多通道的语音系统,各个通道的语音信号之间存在着某些相关性,可以利用这些相关特性对带噪语音信号进行处理,得到增强的语音。比如在自适应噪声对消语音增强算法中采用了两个话筒作为输入,其中一个采集带噪的语音信号,另外一个采集噪声,从噪声通道所采集的噪声直接当作带噪语音中的噪声,并将它从带噪语音中减去即可。另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也不同,再根据这些信号将各个独立信号分离出来。按照所依据原理的不同,我们可以将语音增强分为以下几类: 参数方法:此类方法主要依赖于使用的语音生成模型(例如AR模型),需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这种方法较容易失败。这类方法常用到的一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 非参数方法:非参数方法不需要从带噪语音信号中估计语音模型参数,这就使得此类方法相对于参数方法而言应用较广。但由于没有利用可能的语言统计信息,故结果一般不是最优的。同时,我们知道,语音信号是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间(比如1030ms)内,可以视其为平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量的幅度来获得的,而对各分量的相位并不敏感,因此,这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。 统计方法:统计方法比较充分的利用了语音和噪声的统计特性,如语音信号可视不同情况和需要采用高斯模型、拉普拉斯模型以及伽玛模型等。此类方法一般是在建立了模型库后,经历一个训练过程来获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况,它与语音系统的联系非常密切。这类方法里面主要包括最小均方误差估计(MMSE, Minimun Mean Square Error )、对数谱估计的最小均方误差(MMSE-LSA, Minimum Mean-Square Error Log-Spectral Amplitude)、听觉掩蔽效应(Masking Properties)等。 其它方法:这类方法与前述方法相比,不够成熟,使用没有前述方法广泛,我们可以概括的称之为非主流方法。这类方法主要有:基于小波(Wavelet)变换、卡胡南-列夫变换(KLTKarhunen-Loeve Transform)、离散余弦变换(DCT, Discrete Cosine Transform)等的语音增强算法。此类中的几种方法不需像前述方法那样去对语音进行建模,也不需要依据各种准则对噪声的参数进行估计。除此以外,还可以将语音增强算法按时域与频域分为两类:时域方法主要有基于子空间的语音增强算法;频域方法主要有谱减法、基于MMSE的语音增强算法等。相对来说,时域方法计算量较大而频域方法计算量较小。 第三章 基于小波变换的语音信号增强方法3.1前言小波分析属于时频分析的一种,传统的语音信号频谱分析是建立在傅里叶变换的基础上,由于傅里叶分析使用的是一种全局的变换,因此无法表达信号的时域局部性质,而这种性质恰恰是非平稳信号最根本和最关键的性质。为了分析和处理非平稳信号,人们对傅里叶分析进行了推广乃至根本性的革命,提出并发展了一系列新的信号分析理论,如短时傅里叶变换、Gabor变换、时频分析、小波变换、Randon-Wigner变换、分数阶傅里叶变换、线调频小波变换、循环统计量理论和调幅-调频信号分析等。小波分析是当前应用数学中一个迅速发展的新领域,它是时间和频率的局部变换,能有效地从信号中提取信息。通过小波变换,在信号高频域部分,可以取得较好的时间分辨率。在信号低频域部分,可以取得较好的频率分辨率。这种特性使得小波特别适合于语音信号的处理。对语音信号来说,在高频部分需要较好的时间分辨率来检测信号的快速变化的瞬态部分,而在低频部分需要较高的频率分辨率来更精确地跟踪缓慢时变的共振峰。所以小波变换克服了以往传统方法的局限性,可以更好的应用于语音分析和处理中。语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。在语音处理理论和应用中,所用的语音数据大部分都是在接近理想的条件下采集的。大多数识别和编码方案在研制时开始都要在高保真设备上录制语音,尤其要在无噪环境下录音。只要语音研究是“纯”的研究,这些使大多数问题得到简化的条件都是可以接受的。然而,当语音处理由实验室走向实际应用时,由于环境噪声的存在所带来的问题就变得愈来愈重要了,这些问题可能是棘手的。传统的滤噪方法是将被噪声污染的信号通过一个滤波器,滤掉噪声频率成分。但对于短时瞬态信号、非平稳过程信号、含宽带噪声信号,采用传统方法处理有着明显的局限性。线性预测作为语音处理技术中的最有效的手段,恰恰是最容易受噪声影响的。如果把线性预测看作频谱匹配过程,则可以看出,在大量噪声使频谱畸变时,预测器就会与畸变频谱匹配,而不是与基本语音匹配。当在声码器系统的收端上使用与发端同样的预测器时,则合成语音的可懂度会大大降低。小波变换具有可进行时频局部分析的特点,所以小波变换方法可更有效地处理信号,具有传统方法不可比拟的、非常灵活的对奇异特征提取及时变滤波等功能,可在低信噪比的情况下进行有效滤噪并检测信号的波形特征。另外,小波变换中的多分辨率分析能够把信号在一系列不同层次的空间上进行分解,这种信号分解的能力能将各种交织在一起的不同频率组成的混合信号分解成不相同频率的子信号,因而能有效地应用于信噪分离问题中。本章首先计算并分析了基于小波变换的语音信号时频表示,并与其它方法作了比较。进而针对语音信号中各种噪声类型,介绍了传统的语音增强方法,并给出了相应的基于小波分析的去噪方法。3.2小波分析的基本理论小波变换是一种信号的时间-尺度(时间-频率)分析方法,它具有多分辨分析(Multi resolution Analysis)的特点,而且在时频两域都具有表征信号局部特征的能力,是一种窗口大小固定不变但其形状可改变,时间窗和频率窗都可以改变的时频局部化分析方法。即在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,很适合于探测正常信号中夹带的瞬态反常现象并展示其成分,所以被誉为分析信号的显微镜,利用连续小波变换进行动态系统故障检测与诊断具有良好的效果。3.2.1小波变换小波和小波分析,是小波应用的基础,给出定义如下:定义3.1 设是一个可测的、平方可积的一维函数空间,R为实数集,小波是由满足的函数通过平移、伸缩而产生的函数族: a,bR a0 (3-1) 称为分析小波(Analyzing Wavelet)或连续小波(Continuous Wavelet)。称为小波母函数的Fourier变换,满足以下可容性(admissibility)条件: (3-2) 其中,a称为放缩因子,b称为平移因子。定义3.2 在定义3.1的基础上,函数f(x)在上的连续小波变换定义如下: (3-3)小波变换对函数f(x)在小波集上的展开具有多分辨率的特性,这种特性正是通过放缩因子a和平移因子b来得到的。根据a,b的不同,可以得到小波变换不同时、频宽度的信息,从而实现对信号f(x)的局部化分析。而在实际应用中,尤其是在数字信号处理领域里,为了实际计算的需要,常常要使用离散形式的小波变换,也就是将函数f(x)的积分形式展开为级数和的形式。下面给出离散小波形式和离散小波变换。离散小波是通过把小波函数中的参数a ,b离散化得到的,参数a ,b的离散形式为: (3-4)定义3.3 若是满足式(3-2)的小波母函数,并可以用下式表示: (3-5)称为离散小波(Discrete Wavelet)。特别地,用代替当且时,就可以得到二进小波(Dyadic Wavelet): (3-6)小波是满足可容性条件的小波,它具有很多优良特性,是离散小波中最常用的一种形式。函数f(x)的离散小波变换,即在小波基上将其展开为小波级数和的形式。定义3.4 若函数能写成以下形式: (3-7)其中,则称式(3-7)为函数f(x)的离散小波变换。对大多的小波可以根据不同的分类标准对其进行分类,根据小波函数本身可以把它分为单小波和多重小波;根据框架理论可以把分为正交小波,半正交小波和非正交小波。框架是对规范正交基的推广,下面给出小波框架的定义。定义3.5 满足下述条件的离散小波称为框架: (3-8)其中,。把A,B称为框架边界(Frame Bounds),在式(3-8)中,当A=B时称为紧框架,特别是当A=B=1是构成一组正交基。正交小波和正交小波基在小波、小波分析理论中占有非常重要的地位,下面给出正交小波和正交小波基的概念。定义3.6 设小波母函数。若函数族满足以下条件: (3-9)则称构成的正交小波。 定义3.7 小波母函数满足式(3-9),若函数族构成的一组正交基,则称该函数为的正交小波基。小波变换的时频窗口特性与短时傅里叶的时频窗口不一样。其窗口形状为两个矩形。其中式(3-1)中,b仅仅影响窗口在平面时间轴上的位置,而a不仅影响窗口在频率轴上的位置,也影响窗口的形状。这样小波变换对不同的频率在时域上的取样步长是调节性的,即在低频时小波变换的时间分辨率较差,而频率分辨率较高;在高频时小波变换的时间分辨率较高,而频率分辨率较低,这正符合低频信号变化缓慢而高频信号变化迅速的特点。这便是它优于经典的傅里叶变换与短时傅里叶变换的地方。从总体上来说,小波变换比短时傅里叶变换具有更好的时频窗口特性。3.2.2小波分析与Fourier分析小波分析来源于对Fourier分析的改进,从理论上讲,适用于Fourier分析的领域都可以通过小波分析来实现,但有些用小波分析能够解决的问题用Fourier分析却无法达到满意的效果(例如,对非平稳信号的处理Fourier分析很难得到理想的效果)。小波分析是一种新的时、频分析方法,是信号的时间-尺度(时间-频率)分析方法,具有

    注意事项

    本文(毕业设计(论文)语音增强的应用基于小波变换的噪声抑制.doc)为本站会员(仙人指路1688)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开