564501101语音信号毕业设计论文.doc

上传人：laozhun

文档编号：3930692

上传时间：2023-03-28

格式：DOC

页数：66

大小：1.01MB

《564501101语音信号毕业设计论文.doc》由会员分享，可在线阅读，更多相关《564501101语音信号毕业设计论文.doc（66页珍藏版）》请在三一办公上搜索。

1、1 绪论1.1 综述语音是人类信息活动的重要手段之一，语音不仅是人与人之间进行信息交流的最直接最方便的和最有效的工具。人机对话意味着计算机应该具有语音输入和语音识别的功能，即计算机具有听觉，能够“听懂”人话，这就是语音识别的功能。无论，人与人之间，还是人与计算机之间的语音通信，语音信号处理，特别是语音信号处理的理论和技术，都具有特别重要的作用。数字语音处理包含三个方面内容：语音信号的数字表达方法语音信号的数字处理的各种方法以及数字语音处理理论和技术在各个领域的应用。这些内容涉及到了数字信号处理计算机科学模式识别语音学生理学等学科，还涉及到通信和电子系统，信号和信息处理系统等具体的应用领域。对

2、于语音信号，数字处理比模拟处理具有更多优点。这是因为：第一，数字技术能够完成很多很复杂的信号处理工作；第二，通过语音进行交换的信息，本质上具有离散的性质，因为语音可以看成是语素的组合，这就特别适用于数字处理；第三，数字语音具有更高的可靠性价廉紧凑快速等特点，很容易完成实时处理要求；第四，数字语音具有在强干扰信道中传输的特点，易于和数据一起在通信网中传输，也易于进行加密传输，因此，数字语音也是主要研究方向。语音信号处理的方法是多种多样的。和一般的数字与信号的处理相类似，其方法可以是时域的，也可以是频域的，但都应考虑到语音信号本身的特点。语音信号是时变信号，只是在一个一个短段内才可以看成平稳的，因

3、此，短时处理是处理语音信号的一种基本方法。在时域内，这就是各种短时处理技术的方法，如短时能量短是平均过零率及短时自相关函数等计算；在频域内，这就是短时傅立叶变换方法。线性预测技术本质上属于时域分析方法，但结果可以是频域的参数。数字语音处理有着广泛的应用领域，其中最重要的包括：语音压缩语音合成、语音识别以及语音增强。这些方面的研究以深入到通信办公自动化远距离控制声控电话拨号计算机语音应答，以及机器人听觉和口语系统等实用的系统中。1.2主要研究内容根据设计任务书的要求，本设计主要内容如下：(1) 语音信号产生的数字模型，以及语音信号模型的建立机理。(2) 语音信号的时域分析。(3) 语音信号的频域

4、分析。(4) 语音信号的线性预测技术。(5) MATLAB软件编程。第三第四章主要是介绍如何将本不平稳的语音信号转换为平稳的语音信号，以及短时处理的一些基本理论和方法。第五章是本书要重点研究的内容，也是语音处理一种非常重要的方法。第六章是对MATLAB的一些基本介绍和程序上的运用。1.3语音处理技术的发展概况语音处理研究的历史可追溯到1876年贝尔发明电话，那是首次采用声电电声转换技术实现远距离语音通讯。1939年H.Dudley 研制成功了第一个声码器，这一发明奠定了语音数字模型的基本思想，在语音信号处理领域具有划时代的意义。1958年Duddley等人改进了数字实验装置，将语音分割为元音

5、和辅音等单元。六十年代以来，有关语音信号处理的论文数量达到高峰，但处理方多以软件形式出现。八十年代以来出现的语音信号处理产品的热潮.IBM于1997年推出的汉语听写机，为语音识别技术的实际应用开辟了新的道路。近几年来，语音信号处理不仅在理论上取得了重大进步，而且其应用范围也不断扩大。如自动控制系统，公共交通中的自动报站各种场合的自动报警公安机关破案等国家安全事务有重要应用。现在，语音信号处理的理论与方法已成为许多专业的共同基础。2 语音信号的数字建模语音信号分析大体上有时域、频域、倒谱域等分析方法。但是按语音学观点，可将它分为模型分析法和非模型分析法两种。模型分析法是依据语音信号的数学模型的理

6、论来求得这些模型参数，而将其它分析方法笼统地归于非模型分析法中。模型分析法中的各种模型只适合于信号是平稳或局部平稳的情形。由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应，而这种肌肉运动相对于语音频率来说是极缓慢的，因此一般认为在2040ms的短时间内语音信号是平稳的，所以完全可以用短时平稳的分析方法。语音信号产生模型是对发声器官的模拟和仿真。数字模型就是用数字处理方法实现这种物理系统的模拟，由此可估计出语音波形的参数，因此，这种数字模型也是语音参数模型。我们知道发声器官能发出一系列的声波是出于声道受到气流的激励而产生的。声道的一端是喉，另一端是嘴，其中包含有声带、声门、口腔和鼻

7、腔等。根据声带振动与否，语音可分为浊音和清音两大类。声带在气流的作用下发生振动，从而产生准周期的声波激励，这种激励经过口腔和鼻腔的谐振作用而形成浊音，有时称为有声音。气流经过口腔的唇齿部分，如果引起湍流就产生摩擦音，有时因为唇部突然张开而形成爆破音。凡是声带不振动的声音，统称清音，有时也称为无声音。用数字方法模拟这种功能时，用准周期的脉冲序列来模拟声带振动的激励，而用随机噪声模拟清音的激励，口腔、鼻腔等所组成的声道谐振特性可用时变数字滤波器来模拟。所谓建立数学模型，就是要寻找一种可以表达一定物理状态下量与量的数学表示。建立了数学模型才能够用计算机对语音信号进行模拟和处理。建立数学模型的基本原则

8、是要使这种关系不仅能具有最大的精确度，还要最简单。数字滤波器的频率响应受到一些参数的控制。不断控制清浊音开关、激励脉冲的周期以及噪声源强度，同时随着不同的发音改变滤波器特性，输出的信号就是所要求的语音信号序列。通过对发音机理和语音信号的产生机理的分析，可以将语音信号分为三个部分，在声带以下，称为“声门子系统”，它负责产生激励振动，是“激励系统”；从声门到嘴唇的呼气通道是声道，是“声道系统”；语音从嘴唇辐射出去，所以嘴唇以外是“辐射系统”。如图2-1所示为语音信号的产生模型：图2-1 语音信号产生模型语音信号是一个局部平稳的随机信号，它的激励参数和声道滤波器的参数均随时间而变化，但是由于发声器官

9、的惯性使这些参数的变化速度受到限制，对于声道参数，在一较短的时间内(1030ms)可近似认为是不变的，因此语音的短时分析帧长一般取为20ms左右。对于激励源参数，大多数情况下这一结论也是正确的。但是有些音的变化速度特别快，例如塞音或塞擦音的爆破段，20ms的时间间隔就过长，这时取5ms的间隔更为恰当。模型中将语音信号截然分为受周期脉冲激励和噪声激励两种情况，与实际情况并不完全符合，将清浊音开关换为叠加号更为合适，这样激励信号可以是上述两种激励按任意比例相叠加，这更加符合实际情况(即使如此，这个模型也不能完全包括所有的情况)。除了这些限制以外，这个模型的局限性主要表现在它的传输函数不包含有限传

10、输零点，而像鼻音、擦音这样一些音的声道传输函数中是包含有限零点的。一种解决问题的方法是在声道模型中引入若干有限传输零点，但是这将使模型复杂化。另一种方法是适当提高阶数P，使得全极点模型能更好地逼近具有此种零点的传输函数。综上所述，完整的语音信号得数字模型可以用三个子模型：激励模型声道模型和辐射模型的串联来表示。它的传递函数可表示为：H（z）=AU（z）V（z）R（z）（2-1）这里，U（z）是激励信号，浊音时U（z）是声门脉冲即斜三角脉冲序列的z变换；在清音的情况下，U（z）是一个随机噪声的z变换。V（z）是声道传输函数，既可以用声管模型，也可以用共峰模型来描述。实际上就是全集点模型：应该

11、指出，式（2-1）所示模型的内部结构并不和物理过程相一致，但这种模型和真实的模型在输出上是一致的。另外，这种模型是“短时”的模型，因为一些语音信号的变化是缓慢的，例如元音在1020ms内其参数是假定不变的。这里声道转移函数V（z）是一个参数随时间变化的模型。另外，这一模型认为语音是声门激励线形预测系统声道所产生的；实际上，声带-声道相互作用的非线形特征还有待研究。另外，模型中，用浊音和清音这种简单的划分方法是有缺陷的，对于某些音是不适用的，例如浊音当中的摩擦音。这种音要有发浊音和发清音的两种激励，而且两者不是简单的叠加关系。对于这些音可以用一些修正模型或更精确的模型来模拟.3 语音信号的时域分

12、析语言信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时，最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号，因而时域分析就是最早使用，也是应用最广泛的一种分析方法，这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用，如语音的分割、预处理、大分类等。这种分析方法的特点是：（1）表示语音信号比较直观、物理意义明确。（2）实现起来比较简单、运算量少。（3）可以得到语音的一些重要参数。（4）只使用示波器等通用设备，使用较为简单等。语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短视平均幅度差函数等，这是语音信号的一组最基本的短时参量，在各

13、种语音信号数字处理技术中都要应用。在计算这些参量时使用的一般是方窗或汗明窗。现在分别讨论如下。3.1短时能量及短时平均幅度分析设语音波形时域信号为x(l)、加窗分镇处理后得到的第n真语音信号为xn(m), 则xn(m)满足下式： xn(m)=w(m)x(n+m) 0m0)。因此由式（5-16）看出 , k-10或l0)的情况下，H(z)只有极点，即 (5-20)相应的差分方程为 (5-21)信号的功率谱为 (5-22)这种形式的信号模型称为全极点模型或自回归模型（简称为AR模型）。P阶自回归模型一般表示为AR（p）。这是一种最重要，应用最广的模型。对于AR(p)模型，式(6.20)中的bl应代

14、之以单位取样序列，于是得到 (5-23) 考虑到h(k)的因果性，即当k0时有h(-k)=0；同时根据初值定理1知道 (5-24)所以，式(6.24)可简: (5-25) 式中a0=1。这就是AR(p)模型的模型参数与信号自相关函数之间的关系式。将其与线性预测的Yule-Walker方程式(5-11)对照可以看出，如果线性预测和信号模型是对同一信号而言的，即两个方程组中的已知数相同Rzz(k-l)=R(k-l),那么两组方程的解应当相同（可以证明，只要R（k-l）或Rzz(k-l)是正定的，则两组方程有唯一解），即 (5-26)这意味着，解最佳线性预测问题等效于解信号模型问题。具体地说，信号x

15、(n)的线性系数和它的AR(p)模型参数al相同，而预测误差功率与模型的极力源的功率相同。一个平稳随机过程，如果它是p阶自回归过程，那么用一个AR（p）模型就能精确地描述它。在第二章曾经讨论过，语音信号可以看成是一个线性时变系统在准周期脉冲序列（相应于浊音）或随机噪声（相应与清音）激励下所产生的输出，参看图2.1。在语音信号的这个数字模型中，时变线性系统综合反映了辐射、声门脉冲以及声道的总的影响，并且对于除鼻音和摩擦音以外的大多数语音来说，都可以用一个全极点系统来表示。这个全极点时变线性系统的参数随着时间的变化是非常缓慢的，因而可以近似地认为，在一语音时间内它是非时变的。这样一来，图2.1所

16、表示的语音信号模型，正是一个平稳随机过程的自回归模型（在短时间内可以近似的认为语音信号是平稳的）。根据本节前面的讨论，很容易理解，线性预测是描述语音信号的一种很精确的方法。对语音信号进行线性预测分析，其合理性和精确性可以从另一个角度来加以解释。线性预测系数（等效于语音信号的模型参数）是根据最小均方误差准则来决定的，而最小均方误差恰等于信号模型的激励源的方差；另一方面，语音信号模型的激励源只能是准周期冲激序列或随机白噪声序列激励，而这两种序列的均方值都是最小的。由此可见，对语音信号进行线性预测分析是合理的。反过来说，如果用某个准周期冲激序列或随机白噪声序列激励一个全极点系统，产生出某个信号，然后

17、根据该信号p个取样值对信号的当前值进行预测，而且在均方误差最小的意义上这种预测是最佳的，那么预测系数必将等于全极点系统的参数。最后需要指出，对语音信号x(n) 进行线性预测，实际上意味着建立一个由白噪声源激励一个全极点系统的自回归模型，使得该模型产生的信号在z(n)的自相关函数与语音信号x(n)的自相关函数相匹配，或者说使得z(n)和x(n)的谱包络相匹配。5.4 Levinson-Durbin 算法通过以上讨论可以看到：求取信号的模型参数可以通过线性预测来完成，而线性预测系数以及预测误差功率可以有式（5.11）所表示的Yule-Walker方程解出。本节讨论由已知的自相关函数，通过解式(5.

18、11)以求取线性预测系数及预测误差功率的方法。将式(5.11)写成矩阵形式，并注意到平稳随机信号的自相关函数的对称性质，可以得到下面的结果：（5-27）值得注意的是，上列方程组的系数矩阵中，沿任何一条对角线上的元素都相同，这样的矩阵称为Toeplitz矩阵，同时系数矩阵还是一个对称矩阵。利用系数矩阵的对称Toeplitz性质，提出了一种高效算法来求解该方程组，这就是著名的Levinson-Durbin算法，简称为Levinson算法，该算法的运算数量级为O(p2)，而线性方程组的一般解法的运算量数量级为O(p3)，后者比前者要大的多。Levinson算法是一个迭代计算过程。它从最低预测器开始

19、，由低阶到高阶，逐阶进行递推计算。即是说，总是由前一阶段预测器求出了所要求的p阶预测器的系数，而且得到了所有低阶预测器的系数。在图5-2中，最上面表示了过去p个取样值预测当前值Xn；下面依次画出了1阶、2阶、3阶、p阶预测器的预测系数；旁边写出了个阶预测误差。预测系数有两个下标，第一个下标表示阶数，第二个下标表示该阶预测器系数的序数。 1 1 1 1 图5-2Levinson算法递推示意图为了说明Levinson算法的迭代计算过程，现在讨论在已知第p阶预测器系数后如何求出第p+1阶预测器系数的问题。图5.3表示了第p阶预测器和第p+1阶预测器，其中第p阶预测器假定是已知的。现在的问题是，如何根

20、据第p阶预测器系数计算出第p+1阶预测器的系数，说者说，如何找出二者的迭代计算关系式。Levinson算法的推导方法有多种，下面介绍1980年提出的一种推导方法，称之为缺口推导方法(Gapped Function Method)23 1 1图5-3 由P阶预测器递推P+1阶预测器缺口函数定义为预测误差与观测数据（即Xn-1,Xn-2, ,Xn-p）之间的相互关，即（5-28）式中Rex（k）代表与Xn-1,Xn-2, , Xn-p之间的互相关函数，R（k-l）代表滞后为(k-l)时x(n)的自相关函数。根据正交定理(见式(5-6)可得到 (5-29)这是p阶预测器应该满足的条件。现在的任务是利用造p+1阶预测器的缺口函数.显然,gp+1(k)的缺口应该等于p+1.为此，先将对称于纵轴进行折叠，得；然后将其右移p+1个单位，于是得到现在与的缺口已经对齐了。为了得到一个缺口宽度为p+1的新的缺口函数，可将乘以某个常量 ,然后将其从中减去，这样便得到一个新的缺口函数，用表示，即（5-30）式中的选择应使缺口扩大一个单位（从原来的p增为p+1）。为此，选择使下式成立：（5-31）这就是说，选择使得的缺口右边的第一个取样值经加权后恰好等于缺口右边的第一个取样值。式(5-31)即（5-32）由此得到