欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOC文档下载  

    564501101语音信号毕业设计论文.doc

    • 资源ID:3930692       资源大小:1.01MB        全文页数:66页
    • 资源格式: DOC        下载积分:8金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要8金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    564501101语音信号毕业设计论文.doc

    1 绪论1.1 综述 语音是人类信息活动的重要手段之一,语音不仅是人与人之间进行信息交流的最直接最方便的和最有效的工具。人机对话意味着计算机应该具有语音输入和语音识别的功能,即计算机具有听觉,能够“听懂”人话,这就是语音识别的功能。无论,人与人之间,还是人与计算机之间的语音通信,语音信号处理,特别是语音信号处理的理论和技术,都具有特别重要的作用。数字语音处理包含三个方面内容:语音信号的数字表达方法语音信号的数字处理的各种方法以及数字语音处理理论和技术在各个领域的应用。这些内容涉及到了数字信号处理计算机科学模式识别语音学生理学等学科,还涉及到通信和电子系统,信号和信息处理系统等具体的应用领域。对于语音信号,数字处理比模拟处理具有更多优点。这是因为:第一,数字技术能够完成很多很复杂的信号处理工作;第二,通过语音进行交换的信息,本质上具有离散的性质,因为语音可以看成是语素的组合,这就特别适用于数字处理;第三,数字语音具有更高的可靠性价廉紧凑快速等特点,很容易完成实时处理要求;第四,数字语音具有在强干扰信道中传输的特点,易于和数据一起在通信网中传输,也易于进行加密传输,因此,数字语音也是主要研究方向。语音信号处理的方法是多种多样的。和一般的数字与信号的处理相类似,其方法可以是时域的,也可以是频域的,但都应考虑到语音信号本身的特点。语音信号是时变信号,只是在一个一个短段内才可以看成平稳的,因此,短时处理是处理语音信号的一种基本方法。在时域内,这就是各种短时处理技术的方法,如短时能量短是平均过零率及短时自相关函数等计算;在频域内,这就是短时傅立叶变换方法。线性预测技术本质上属于时域分析方法,但结果可以是频域的参数。数字语音处理有着广泛的应用领域,其中最重要的包括:语音压缩语音合成、语音识别以及语音增强。这些方面的研究以深入到通信办公自动化远距离控制声控电话拨号计算机语音应答,以及机器人听觉和口语系统等实用的系统中。1.2主要研究内容根据设计任务书的要求,本设计主要内容如下:(1) 语音信号产生的数字模型,以及语音信号模型的建立机理。(2) 语音信号的时域分析。(3) 语音信号的频域分析。(4) 语音信号的线性预测技术。(5) MATLAB软件编程。第三第四章主要是介绍如何将本不平稳的语音信号转换为平稳的语音信号,以及短时处理的一些基本理论和方法。第五章是本书要重点研究的内容,也是语音处理一种非常重要的方法。 第六章是对MATLAB的一些基本介绍和程序上的运用。1.3语音处理技术的发展概况语音处理研究的历史可追溯到1876年贝尔发明电话,那是首次采用声电电声转换技术实现远距离语音通讯。1939年H.Dudley 研制成功了第一个声码器,这一发明奠定了语音数字模型的基本思想,在语音信号处理领域具有划时代的意义。1958年Duddley等人改进了数字实验装置,将语音分割为元音和辅音等单元。六十年代以来,有关语音信号处理的论文数量达到高峰,但处理方多以软件形式出现。八十年代以来出现的语音信号处理产品的热潮.IBM于1997年推出的汉语听写机,为语音识别技术的实际应用开辟了新的道路。近几年来,语音信号处理不仅在理论上取得了重大进步,而且其应用范围也不断扩大。如自动控制系统,公共交通中的自动报站各种场合的自动报警公安机关破案等国家安全事务有重要应用。现在,语音信号处理的理论与方法已成为许多专业的共同基础。2 语音信号的数字建模语音信号分析大体上有时域、频域、倒谱域等分析方法。但是按语音学观点,可将它分为模型分析法和非模型分析法两种。模型分析法是依据语音信号的数学模型的理论来求得这些模型参数,而将其它分析方法笼统地归于非模型分析法中。模型分析法中的各种模型只适合于信号是平稳或局部平稳的情形。由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种肌肉运动相对于语音频率来说是极缓慢的,因此一般认为在2040ms的短时间内语音信号是平稳的,所以完全可以用短时平稳的分析方法。语音信号产生模型是对发声器官的模拟和仿真。数字模型就是用数字处理方法实现这种物理系统的模拟,由此可估计出语音波形的参数,因此,这种数字模型也是语音参数模型。我们知道发声器官能发出一系列的声波是出于声道受到气流的激励而产生的。声道的一端是喉,另一端是嘴,其中包含有声带、声门、口腔和鼻腔等。根据声带振动与否,语音可分为浊音和清音两大类。声带在气流的作用下发生振动,从而产生准周期的声波激励,这种激励经过口腔和鼻腔的谐振作用而形成浊音,有时称为有声音。气流经过口腔的唇齿部分,如果引起湍流就产生摩擦音,有时因为唇部突然张开而形成爆破音。凡是声带不振动的声音,统称清音,有时也称为无声音。用数字方法模拟这种功能时,用准周期的脉冲序列来模拟声带振动的激励,而用随机噪声模拟清音的激励,口腔、鼻腔等所组成的声道谐振特性可用时变数字滤波器来模拟。所谓建立数学模型,就是要寻找一种可以表达一定物理状态下量与量的数学表示。建立了数学模型才能够用计算机对语音信号进行模拟和处理。建立数学模型的基本原则是要使这种关系不仅能具有最大的精确度,还要最简单。数字滤波器的频率响应受到一些参数的控制。不断控制清浊音开关、激励脉冲的周期以及噪声源强度,同时随着不同的发音改变滤波器特性,输出的信号就是所要求的语音信号序列。通过对发音机理和语音信号的产生机理的分析,可以将语音信号分为三个部分,在声带以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”;从声门到嘴唇的呼气通道是声道,是“声道系统”;语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。如图2-1所示为语音信号的产生模型:图2-1 语音信号产生模型语音信号是一个局部平稳的随机信号,它的激励参数和声道滤波器的参数均随时间而变化,但是由于发声器官的惯性使这些参数的变化速度受到限制, 对于声道参数,在一较短的时间内(1030ms)可近似认为是不变的,因此语音的短时分析帧长一般取为20ms左右。对于激励源参数,大多数情况下这一结论也是正确的。但是有些音的变化速度特别快,例如塞音或塞擦音的爆破段,20ms的时间间隔就过长,这时取5ms的间隔更为恰当。模型中将语音信号截然分为受周期脉冲激励和噪声激励两种情况,与实际情况并不完全符合,将清浊音开关换为叠加号更为合适,这样激励信号可以是上述两种激励按任意比例相叠加,这更加符合实际情况(即使如此,这个模型也不能完全包括所有的情况)。除了这些限制以外,这个模型的局限性主要表现在它的传输函数不包含有限传输零点,而像鼻音、擦音这样一些音的声道传输函数中是包含有限零点的。一种解决问题的方法是在声道模型中引入若干有限传输零点,但是这将使模型复杂化。另一种方法是适当提高阶数P,使得全极点模型能更好地逼近具有此种零点的传输函数。综上所述,完整的语音信号得数字模型可以用三个子模型:激励模型声道模型和辐射模型的串联来表示。它的传递函数可表示为:H(z)=AU(z)V(z)R(z) (2-1)这里,U(z)是激励信号,浊音时U(z)是声门脉冲即斜三角脉冲序列的z变换;在清音的情况下,U(z)是一个随机噪声的z变换。V(z)是声道传输函数,既可以用声管模型,也可以用共峰模型来描述。实际上就是全集点模型: 应该指出,式(2-1)所示模型的内部结构并不和物理过程相一致,但这种模型和真实的模型在输出上是一致的。另外,这种模型是“短时”的模型,因为一些语音信号的变化是缓慢的,例如元音在1020ms内其参数是假定不变的。这里声道转移函数V(z)是一个参数随时间变化的模型。另外,这一模型认为语音是声门激励线形预测系统声道所产生的;实际上,声带-声道相互作用的非线形特征还有待研究。另外,模型中,用浊音和清音这种简单的划分方法是有缺陷的,对于某些音是不适用的,例如浊音当中的摩擦音。这种音要有发浊音和发清音的两种激励,而且两者不是简单的叠加关系。对于这些音可以用一些修正模型或更精确的模型来模拟.3 语音信号的时域分析语言信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析就是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:(1)表示语音信号比较直观、物理意义明确。(2)实现起来比较简单、运算量少。(3)可以得到语音的一些重要参数。(4)只使用示波器等通用设备,使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短视平均幅度差函数等,这是语音信号的一组最基本的短时参量,在各种语音信号数字处理技术中都要应用。在计算这些参量时使用的一般是方窗或汗明窗。现在分别讨论如下。3.1短时能量及短时平均幅度分析设语音波形时域信号为x(l)、加窗分镇处理后得到的第n真语音信号为xn(m), 则xn(m)满足下式: xn(m)=w(m)x(n+m) 0<m<N-1 (3-1)其中,n=0,1T,2T,并且N为真长,T为真移长度。设第n真语音信号xn(m)的短时能量用En表示,则其计算公式如下: (3-2)En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的信号的平方)。为此,可以采用另一个度量语音信号幅度值变化的函数,即短时平均幅度函数Mn,它定义为 (3-3)Mn也是一真语音信号年龄大小的表征,它与EN的区别在于计算时小样值和大取样值不会因平方而造成较大差异,在某些应用领域中回带来一些好处。短时能量和短时平均幅度函数的主要用途有:(1)可以区分浊音段与清音段,因为浊音时EN值比清音时大的多。(2)可以用来区分声母与韵母的分界,无声与有声的分界,连字(指字间无间隙)的分界等。(3)作为一种超音段信息,用于语音识别中。3.2短时过零率分析短时过零率表示一阵语音中语音信号波形穿过横轴的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号xn(m)的短时过零率ZN为: (3-4)式中,sgn是符号函数,即: (3-5)在实际中求过零率参数时,需要十分注意的一个问题是如果输入信号中包含50HZ的工频干扰或者A/D变换器的工作点有偏移(这等效于输入信号有直流偏移),往往会使计算的过零参数很不准确。为了解决前一个问题,A/D变换器前的防混叠带通滤波器的低端截频应该高于50HZ,以有效地抑制电源干扰。对于后一个问题除了可以采用低直流漂移器件外,也可以在软件上加以解决,这就是算出每一阵的直流分量并予以滤波。对语音信号进行分析,发现发浊音时,尽管声道有若干个共真峰,但由于声门波引起谱的高频跌落,所以其语音能量约集中在3kHZ以下。而发清音时,多数能量出现在较高频率上。高频就意味着高的平均过零率。当然这种高低仅是相对而言,并没有精确的数值关系。利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语音信号,即找出每一个单词的开始和终止位置,在语音处理中是一个基本问题。此时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。但是研究表明,在以某些音为开始或结尾时,如当弱摩擦音、弱爆破、音为语音的开头或结尾;以鼻音为语音的结尾时,只用其中一个参量来判断语音的起点和终点是有困难的,必须同时使用这两个参数。短时能量、短时平均幅度和短时过零率都是随机参数,但是对于不同性质的语音它们具有不同的概率分布。例如,对于无声(用S表示,S是silience的第一个字母)、清音(用U表示)、浊音(用V表示)三种情况,短时能量、短时平均幅度和短时过零率具有不同的概率密度函数。图3-1给出了短时平均幅度和短时过零率在三种情况下条件概率密度函数示意图,其中短时平均幅度的最大值已规格化为1。可以看到,在三种情况中浊音的短时平均幅度最大而短时过零率最低,当采样率为8kHz,帧长为20ms(每帧包含160个样点)时平均值约为20,反之,清音的短时平均幅度居中而短时过零率最高。其平均值约为70(条件与浊音情况一致)。无声的短时平均幅度最低而短时过零率居中。这些条件概率密度函数都接近于正态分布。 图3-1 Mn和Zn在S,U,V三种情况下的概率密度函数示意图如果能够求出S、U、V在三种情况下的短时平均幅度(或短时能量)和短时过零率的条件联合概率密度函数P=(M、Z/S)、P(M、Z/V)以及P(M、Z/V),那么就可以采用统计学中最大似然算法,根据一真信号的短时平均幅度和短时过零率值来判断它的S/U/V类型。这个就是计算的后验概率: (3-6)其中X=S或U或V。后验概率再大者即作为判别结果。事实上,仅依靠短时平均幅度和短时过零率两个参数还不够。如果能能选取更多的有效参数,例如相关系数等,可以得到更加的分类效果。3.3短时自相关函数相关分析是一种常用的时域波形分析方法,并且自相关和互相关之分。这里主要讨论自相关函数。自相关函数具有一些性质,如它是函数;假设序列具有周期性,则其自相关函数也是同周期的周期函数。定义语音信号的短时自相关函数的计算式如下: (3-7)这里K是最大的延迟点数。短时自相关函数具有一下性质:如果是周期的(设周期为),则自相关函数是同周期的周期函数,即是偶函数,即当k=0时,自相关函数具有最大值,即,并且等于确定性信号序列的能量或随机性序列的平均功率。 图3-2浊音和清音的自相关函数(N=401)图3-2给出了三个,自相关函数的例子,它们是用式(3-7)在N=401时在8kHz取样的语音计算得到的。如图3-2所示,计算了滞后为0k250时的自相关值。前两种情况是对浊音语音段,而第三种情况是对一个清音段。由于语音信号在一段时间内是周期变化的,所以甚至在很短一段语音内也不同于一个真正的周期信号段。不同周期内的信号波形也有一定的变化。由图3-2可见,对应于浊音语音的,自相关函数,具有一定的周期性。在相隔一定的取样后,自相关函数达到最大值。在图3-2上自相关函数没有很强的周期峰值,表明在信号中缺乏周期性,这种清音语音的自相关函数有一个类似于噪音的高频波形,有点象语言信息本身。浊音语音的周期可以用自相关函数的第一个峰值的位置来估算。在图3-2中,峰值约出现在63的位置上,由此估计图3-2的浊音语音的基音周期为T=7.78ms.3-2在第一个最大值出现在51的位置上,它表明平均的基音周期T=6.38ms。在传统的自相关函数的计算中,是两个等长的序列进行乘积和的,这样随着延迟k的增加,进行乘积和的项数在减少,所以总题上自相关函数的幅度值随着延迟k的增加而下降。因此,在利用传统自相关函数计算波形周期时,如果窗长不足够长,包含的周期数不足够多,则会给周期计算带来困难。例如,由图3-2a可以看到,短时自相关函数在基音周期的各个整数倍点上有很大的峰值。看来只要找到第一最大峰值点(除Rn(0)外最近的一个最大值点)的位置并计算它与k=0点的间隔,便能估计出基音周期。实际上并不是这样简单,第一最大峰点的位置有时不能与基音周期吻合。产生这种情况的原因之一就是窗的长度不够。 因此,在语音信息处理中,计算相关函数所用的窗口长度与平均能量等情况略有不同。这里,N值至少要大于基音周期的两倍,否则将找不到第一个最大值点。另一方面,N值也要尽可能地小,否则将影响短时性。因此长基音周期要用宽的窗,短基音周期要用窄的窗。虽然可以采用自适应于基音的窗口长度法,但是这种方法比较复杂。为解决这个问题,可用“修正的短时自相关函数”来代替短时自相关函数。修正的短时自相关函数是用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口的长度相差最大的延迟点数K。这样就能始终保持乘积和的项数不变,即始终为短窗的长度。修正的短时自相关函数定义为: 这里K是最大的延迟点数。式(3-7)表明,为了消除式(3-6)中可变上下限引起的自相关函数的下降,而选取不同长度的窗口,使一个窗口包括另一个窗口的非零间隔以外的取样,这样计算自相关函数时序列总是取N个抽样来进行。严格地说,RN(k)具有互相关函数的特性,而不是自相关函数,因为RN(k)是两个不同长度的语音段的相关函数。然而RN(k)在周期信号周期的倍数上有峰值,所以RN(0)与最接近的第一个最大值点仍然代表了基音周期的位置。3.4 短时平均幅度差函数短时自相关函数是语音信号时域分析的重要参量。但是,计算自相关函数的运算量很大,其原因是乘法运算所需要的时间较长。利用快速傅立叶变换等简化计算方都无法避免乘法运算。为了避免乘法,一个简单的方法就是利用差值。为此常常采用另一种与自相关函数有类似作用的参量,即短时平均幅度差函数。平均幅度差函数能够代替自相关函数进行语音分析,是基于这样一个事实:如果信号是完全的周期信号(设周期为NP),则相距为周期的整数倍的样点上的幅值是相等的,差值为零。即:d(n)=x(n)-x(n+K)= (3-8)对于实际的语音信号,d(n)不为零,但其值很小。这些极小值将出现在整数倍周期的位置上。为此,可以定义短时平均幅度差函数: (3-9)显然,如果x(n)在窗口取值范围内具有周期性,则F在时将出现极小值。如果两个窗口具有相同的长度,则可以看到类似于自相关函数的一个函数。如果一个窗口比另一个 长。则有类似于修正自相关函数的那种情况。可以证明平均幅度差函数和自相关函数有密切的关系,两者之间的关系可以由下式表达:式中对不同的语音段在0.61.0之间变化,但是对于一个特定的语音段,它随k值变化并不明显,显然,计算,Fn(k)只需要加、减法和取绝对值的运算,与自相关函数的加法与乘法相比,其运算量大大减少,尤其在用硬件实现语音信号分析时有很大的好处。为次,AMDF已经被用在许多实时语音处理系统中。 4 语音信号的频域分析语音信号的频域分析就是分析语音信号的频域特征。从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络线分析等,而常用的频域分析方法有带通滤波器组法、傅立叶变换法、线性预测法等几种。本章介绍的是语音信号的傅立叶分析法。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号,而应该用短时傅立叶变换对语音信号的频谱进行分析,相应的频谱成为“短时谱”。4.1利用短时傅立叶变换求语音的短时谱对第n真语音信号xn(m)进行傅立叶变换(离散傅立叶变换,DTFT),可得到短时傅立叶变换,其定义如下: (4-1)由定义可知,短时傅立叶变换实际就是窗选语音信号的标准傅立叶变换。这里,窗是一个“滑动的”窗口,它随n的变化而沿着序列x(m)滑动。由于 窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。当然窗口函数不同,傅立叶变换的结果也将不同。4.2 短时傅立叶变换分析短时傅立叶变换分析是一种分析缓慢时变频谱的简便方法,在语音分析中以经得到了广泛的应用。其方法是:先将语音信号分成短段,再将各种短段进行傅立叶变换。各语音段可以认为是从各个不同的平稳信号波形中截取出来的,各段语音的短时频谱就是各个平稳信号的频谱的近似。短时傅立叶变换是由式(4.1)定义的。在该定义中,如果将n看成某个给定值,则求的傅立叶变换,便得到语音段,即 (4.2)如果,则可得 (4.3)这意味着,根据短时傅立叶变换能够准确地恢复出原始语音信号,而唯一的约束条件是W(0)。下面进行进一步的讨论,要能够根据短时傅立叶变换得出的短时傅立叶变换,对窗函数所加的约束条件。首先假设 x(m)和w(m)的傅立叶变换都存在,即 (4.4) (4.5)由于 是 和 的卷积,所以有 (4.6)用 代替 ,上式变成 (4.7)由上式看出,为了使 准确的代替 的特性,移动窗的傅立叶变换应当是一个冲击函数,相应地要求移动窗无限宽,这与前面的结论是一致的。值得注意的是,由于 x(m)是时变的,因而,其傅立叶变换可能是不存在的。但是,通常窗函数 w(m)是有限的,因此,可以假定,窗内所选的语音段只不过是从无限的基本性质延续不变的平稳的信号中截取的。基于这一观点,短时傅立叶变换只是某个平稳的傅立叶变换经过加窗平滑得到的结果。5 语音信号的线性预测分析5.1 前言1947年维纳首次提出了线性预测(Linear Prediction)这一技术,而板仓等人于1967年首次将线性预测应用到了语音分析和合成中。线性预测是一项很重要的技术,几乎应用于语音信号处理的各个方面。线性预测又叫线性预测分析,更常称为线性预测编码,简写为LPC。5.2 线性预测基本原理线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或将来的样点值,即一个语音的抽样能够用过去若干各语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信号的特征参数,用于语音识别及语音合成等。将线性预测应用于语音信号处理,不仅是由于它的线性预测功能,而且更重要的是它能提供一个非常好的声道模型及模型参考估计方法。线性预测的基本原理和语音信号数字模型密切相关 前已指出,P阶线性预测,是根据信号过去P个x(n-1),x(n-2),x(n-p)的加权和来预测信号当前取样值x(n)。设预测值用x(n)表示,则有 (5-1)该式中,加权系数用-表示,称为预测系数。预测误差为 e(n)=x(n)- (5-2)在最小均方程差意义上,这种预测是最佳的。着就是说,预测系数应按最小均方准则来确定,即 (5-3)因此,式(5.1)(5.3)便是线性预测定义的数学描述。为了根据式(5.3)所表述的最小均方准则决定预测系数,对 关于求导数,并令所得结果等于零,即 (5-4)由式(5.2)可知 (5-5)将上式代入式(5.4),得到 Ee(n)x(n-k)=0,k=1,2, (5-6)这是线性预测中一个很重要的结果,称为正交方程。它表明,预测误差与信号的过去P个取样值是正交的。正交方程可以写成另外一种形式,为此,将式(5.2)代入式(5.6),得到 E (5-7)如果信号的自相关函数用R(k-l)表示,即 R(k-l)+Ex9n-lx(n-k),l,k+1,2,p (5-8)则式(5.7)可写成如下简化形式: (5-9) 上式是线性预测中另一个重要结果成为标准方程式。在信号的自相关函数R(k-l)已知的情况下,解此方程,即可求得线性预测系数apl,这里l=1,2,p.这组预测系数是最佳的,因为它们能够使预测误差的均方值最小。为了求出最小均方误差值,将式(5-3)写成下面的形式: (5-10)将正交方程式(5-6)代入上式,得到最小值 再将式(5-2) 代入上式,得到 利用式(5-8)上式可表示成 将标准方程式(5-9)和计算最小均方误差的上式合并,最后得到 (5-11)式中仍有式(5-11)是著名的Yule-Walker方程。它是由p+1个线性方程够成的方程组,其中包含p+1个未知(p个预测系数和一个最小均方误差值 ),已知数据是信号的自相关函数R(k-l)。显然,为解出所有的p+1个未知数,需要知道p+1个自相关函数值。5.3 线性预测和信号模型之间的关系线性预测和随机信号模型之间有着很密切的关系。透彻理解这种关系,有助于加深对线性预测原理及其在语音信号处理中的应用价值的认识。任何平稳随机过程可以看成是由一个白噪声激励一个线性移不变系统所产生的输入,H(z)是线性不变系统的传输函数。 H(z)= (5-12)实际中遇到的大多数随机过程都可以用有理传输函数模型来表示或逼近。这时,H(z)是z的有理函数。 w(n)x(n) H(z) 图5.1 平稳随机过程的信号模型相应的差分方程为x(n)= (5-13)信号的功率谱为 (5-14)式中2是模型激励源(白噪声)的方差。由于H(z)的增益可以合并到2中加以考虑,所以,不失一般性可以假定a0=b0=1;a1,b1和2 统称为模型参数。假设已知某个平稳随机过程的一个取样序列是x(n),如何为该过程建立一个信号模型呢?如果已指定选用式(5-12)所表示的有理函数模型,那么下一步便是需要具体求出模型参数。为此,必须建立模型参数与信号x(n)之间的关系。显然,式(5-13)就是这中关系式。为了使之变成实用的形式,用x(n-k)乘该式子左右两端,然后取期望值,得到 (5-15)式中 (5-16)表示相关函数。设h(z)是因果系统,且其冲激响应用h(n)表示,则有 (5-17) 这意味着,x(n)只与 w(n),w(n-1), 有关,而与 w(n+l) 无关(l>0)。因此由式(5-16)看出 , k-1>0或l<k (5-18)将式(5-18)代入式(5-17),得到 (5-19)这就是模型参数和信号自相关函数之间的关系式。在b0=1而 bl+0(l>0)的情况下,H(z)只有极点,即 (5-20)相应的差分方程为 (5-21)信号的功率谱为 (5-22)这种形式的信号模型称为全极点模型或自回归模型(简称为AR模型)。P阶自回归模型一般表示为AR(p)。这是一种最重要,应用最广的模型。对于AR(p)模型,式(6.20)中的bl应代之以单位取样序列,于是得到 (5-23) 考虑到h(k)的因果性,即当k>0时有h(-k)=0;同时根据初值定理1知道 (5-24)所以,式(6.24)可简: (5-25) 式中a0=1。这就是AR(p)模型的模型参数与信号自相关函数之间的关系式。将其与线性预测的Yule-Walker方程式(5-11)对照可以看出,如果线性预测和信号模型是对同一信号而言的,即两个方程组中的已知数相同Rzz(k-l)=R(k-l),那么两组方程的解应当相同(可以证明,只要R(k-l)或Rzz(k-l)是正定的,则两组方程有唯一解),即 (5-26)这意味着,解最佳线性预测问题等效于解信号模型问题。具体地说,信号x(n)的线性系数和它的AR(p)模型参数al相同,而预测误差功率与模型的极力源的功率相同。一个平稳随机过程,如果它是p阶自回归过程,那么用一个AR(p)模型就能精确地描述它。在第二章曾经讨论过,语音信号可以看成是一个线性时变系统在准周期脉冲序列(相应于浊音)或随机噪声(相应与清音)激励下所产生的输出,参看图2.1。在语音信号的这个数字模型中,时变线性系统综合反映了辐射、声门脉冲以及声道的总的影响,并且对于除鼻音和摩擦音以外的大多数语音来说,都可以用一个全极点系统来表示。这个全极点时变线性系统的参数随着时间的变化是非常缓慢的,因而可以近似地认为,在一 语音时间内它是非时变的。这样一来,图2.1所表示的语音信号模型,正是一个平稳随机过程的自回归模型(在短时间内可以近似的认为语音信号是平稳的)。根据本节前面的讨论,很容易理解,线性预测是描述语音信号的一种很精确的方法。对语音信号进行线性预测分析,其合理性和精确性可以从另一个角度来加以解释。线性预测系数(等效于语音信号的模型参数)是根据最小均方误差准则来决定的,而最小均方误差恰等于信号模型的激励源的方差;另一方面,语音信号模型的激励源只能是准周期冲激序列或随机白噪声序列激励,而这两种序列的均方值都是最小的。由此可见,对语音信号进行线性预测分析是合理的。反过来说,如果用某个准周期冲激序列或随机白噪声序列激励一个全极点系统,产生出某个信号,然后根据该信号p个取样值对信号的当前值进行预测,而且在均方误差最小的意义上这种预测是最佳的,那么预测系数必将等于全极点系统的参数。最后需要指出,对语音信号x(n) 进行线性预测,实际上意味着建立一个由白噪声源激励一个全极点系统的自回归模型,使得该模型产生的信号在z(n)的自相关函数与语音信号x(n)的自相关函数相匹配,或者说使得z(n)和x(n)的谱包络相匹配。5.4 Levinson-Durbin 算法通过以上讨论可以看到:求取信号的模型参数可以通过线性预测来完成,而线性预测系数以及预测误差功率可以有式(5.11)所表示的Yule-Walker方程解出。本节讨论由已知的自相关函数,通过解式(5.11)以求取线性预测系数及预测误差功率的方法。将式(5.11)写成矩阵形式,并注意到平稳随机信号的自相关函数的对称性质,可以得到下面的结果: (5-27)值得注意的是,上列方程组的系数矩阵中,沿任何一条对角线上的元素都相同,这样的矩阵称为Toeplitz矩阵,同时系数矩阵还是一个对称矩阵。利用系数矩阵的对称Toeplitz性质,提出了一种高效算法来求解该方程组,这就是著名的Levinson-Durbin算法,简称为Levinson算法,该算法的运算数量级为O(p2),而线性方程组的一般解法的运算量数量级为O(p3),后者比前者要大的多。Levinson算法是一个迭代计算过程。它从最低预测器开始,由低阶到高阶,逐阶进行递推计算。即是说,总是由前一阶段预测器求出了所要求的p阶预测器的系数,而且得到了所有低阶预测器的系数。在图5-2中,最上面表示了过去p个取样值预测当前值Xn;下面依次画出了1阶、2阶、3阶、p阶预测器的预测系数;旁边写出了个阶预测误差。预测系数有两个下标,第一个下标表示阶数,第二个下标表示该阶预测器系数的序数。 1 1 1 1 图5-2Levinson算法递推示意图为了说明Levinson算法的迭代计算过程,现在讨论在已知第p阶预测器系数后如何求出第p+1阶预测器系数的问题。图5.3表示了第p阶预测器和第p+1阶预测器,其中第p阶预测器假定是已知的。现在的问题是,如何根据第p阶预测器系数计算出第p+1阶预测器的系数,说者说,如何找出二者的迭代计算关系式。Levinson算法的推导方法有多种,下面介绍1980年提出的一种推导方法,称之为缺口推导方法(Gapped Function Method)23 1 1图5-3 由P阶预测器递推P+1阶预测器缺口函数定义为预测误差与观测数据(即Xn-1,Xn-2, ,Xn-p)之间的相互关,即 (5-28)式中Rex(k)代表与Xn-1,Xn-2, , Xn-p之间的互相关函数,R(k-l)代表滞后为(k-l)时x(n)的自相关函数。根据正交定理(见式(5-6)可得到 (5-29)这是p阶预测器应该满足的条件。现在的任务是利用 造p+1阶预测器的缺口函数.显然,gp+1(k)的缺口应该等于p+1.为此,先将对称于纵轴进行折叠,得 ;然后将其右移p+1个单位,于是得到 现在 与 的缺口已经对齐了。为了得到一个缺口宽度为p+1的新的缺口函数,可将 乘以某个常量 ,然后将其从 中减去,这样便得到一个新的缺口函数,用 表示,即 (5-30)式中 的选择应使缺口扩大一个单位(从原来的p增为p+1)。为此,选择 使下式成立: (5-31)这就是说,选择 使得 的缺口右边的第一个取样值经加权后恰好等于 缺口右边的第一个取样值。式(5-31)即 (5-32)由此得到

    注意事项

    本文(564501101语音信号毕业设计论文.doc)为本站会员(laozhun)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开