564501101语音信号毕业设计论文.doc
《564501101语音信号毕业设计论文.doc》由会员分享,可在线阅读,更多相关《564501101语音信号毕业设计论文.doc(66页珍藏版)》请在三一办公上搜索。
1、1 绪论1.1 综述 语音是人类信息活动的重要手段之一,语音不仅是人与人之间进行信息交流的最直接最方便的和最有效的工具。人机对话意味着计算机应该具有语音输入和语音识别的功能,即计算机具有听觉,能够“听懂”人话,这就是语音识别的功能。无论,人与人之间,还是人与计算机之间的语音通信,语音信号处理,特别是语音信号处理的理论和技术,都具有特别重要的作用。数字语音处理包含三个方面内容:语音信号的数字表达方法语音信号的数字处理的各种方法以及数字语音处理理论和技术在各个领域的应用。这些内容涉及到了数字信号处理计算机科学模式识别语音学生理学等学科,还涉及到通信和电子系统,信号和信息处理系统等具体的应用领域。对
2、于语音信号,数字处理比模拟处理具有更多优点。这是因为:第一,数字技术能够完成很多很复杂的信号处理工作;第二,通过语音进行交换的信息,本质上具有离散的性质,因为语音可以看成是语素的组合,这就特别适用于数字处理;第三,数字语音具有更高的可靠性价廉紧凑快速等特点,很容易完成实时处理要求;第四,数字语音具有在强干扰信道中传输的特点,易于和数据一起在通信网中传输,也易于进行加密传输,因此,数字语音也是主要研究方向。语音信号处理的方法是多种多样的。和一般的数字与信号的处理相类似,其方法可以是时域的,也可以是频域的,但都应考虑到语音信号本身的特点。语音信号是时变信号,只是在一个一个短段内才可以看成平稳的,因
3、此,短时处理是处理语音信号的一种基本方法。在时域内,这就是各种短时处理技术的方法,如短时能量短是平均过零率及短时自相关函数等计算;在频域内,这就是短时傅立叶变换方法。线性预测技术本质上属于时域分析方法,但结果可以是频域的参数。数字语音处理有着广泛的应用领域,其中最重要的包括:语音压缩语音合成、语音识别以及语音增强。这些方面的研究以深入到通信办公自动化远距离控制声控电话拨号计算机语音应答,以及机器人听觉和口语系统等实用的系统中。1.2主要研究内容根据设计任务书的要求,本设计主要内容如下:(1) 语音信号产生的数字模型,以及语音信号模型的建立机理。(2) 语音信号的时域分析。(3) 语音信号的频域
4、分析。(4) 语音信号的线性预测技术。(5) MATLAB软件编程。第三第四章主要是介绍如何将本不平稳的语音信号转换为平稳的语音信号,以及短时处理的一些基本理论和方法。第五章是本书要重点研究的内容,也是语音处理一种非常重要的方法。 第六章是对MATLAB的一些基本介绍和程序上的运用。1.3语音处理技术的发展概况语音处理研究的历史可追溯到1876年贝尔发明电话,那是首次采用声电电声转换技术实现远距离语音通讯。1939年H.Dudley 研制成功了第一个声码器,这一发明奠定了语音数字模型的基本思想,在语音信号处理领域具有划时代的意义。1958年Duddley等人改进了数字实验装置,将语音分割为元音
5、和辅音等单元。六十年代以来,有关语音信号处理的论文数量达到高峰,但处理方多以软件形式出现。八十年代以来出现的语音信号处理产品的热潮.IBM于1997年推出的汉语听写机,为语音识别技术的实际应用开辟了新的道路。近几年来,语音信号处理不仅在理论上取得了重大进步,而且其应用范围也不断扩大。如自动控制系统,公共交通中的自动报站各种场合的自动报警公安机关破案等国家安全事务有重要应用。现在,语音信号处理的理论与方法已成为许多专业的共同基础。2 语音信号的数字建模语音信号分析大体上有时域、频域、倒谱域等分析方法。但是按语音学观点,可将它分为模型分析法和非模型分析法两种。模型分析法是依据语音信号的数学模型的理
6、论来求得这些模型参数,而将其它分析方法笼统地归于非模型分析法中。模型分析法中的各种模型只适合于信号是平稳或局部平稳的情形。由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种肌肉运动相对于语音频率来说是极缓慢的,因此一般认为在2040ms的短时间内语音信号是平稳的,所以完全可以用短时平稳的分析方法。语音信号产生模型是对发声器官的模拟和仿真。数字模型就是用数字处理方法实现这种物理系统的模拟,由此可估计出语音波形的参数,因此,这种数字模型也是语音参数模型。我们知道发声器官能发出一系列的声波是出于声道受到气流的激励而产生的。声道的一端是喉,另一端是嘴,其中包含有声带、声门、口腔和鼻
7、腔等。根据声带振动与否,语音可分为浊音和清音两大类。声带在气流的作用下发生振动,从而产生准周期的声波激励,这种激励经过口腔和鼻腔的谐振作用而形成浊音,有时称为有声音。气流经过口腔的唇齿部分,如果引起湍流就产生摩擦音,有时因为唇部突然张开而形成爆破音。凡是声带不振动的声音,统称清音,有时也称为无声音。用数字方法模拟这种功能时,用准周期的脉冲序列来模拟声带振动的激励,而用随机噪声模拟清音的激励,口腔、鼻腔等所组成的声道谐振特性可用时变数字滤波器来模拟。所谓建立数学模型,就是要寻找一种可以表达一定物理状态下量与量的数学表示。建立了数学模型才能够用计算机对语音信号进行模拟和处理。建立数学模型的基本原则
8、是要使这种关系不仅能具有最大的精确度,还要最简单。数字滤波器的频率响应受到一些参数的控制。不断控制清浊音开关、激励脉冲的周期以及噪声源强度,同时随着不同的发音改变滤波器特性,输出的信号就是所要求的语音信号序列。通过对发音机理和语音信号的产生机理的分析,可以将语音信号分为三个部分,在声带以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”;从声门到嘴唇的呼气通道是声道,是“声道系统”;语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。如图2-1所示为语音信号的产生模型:图2-1 语音信号产生模型语音信号是一个局部平稳的随机信号,它的激励参数和声道滤波器的参数均随时间而变化,但是由于发声器官
9、的惯性使这些参数的变化速度受到限制, 对于声道参数,在一较短的时间内(1030ms)可近似认为是不变的,因此语音的短时分析帧长一般取为20ms左右。对于激励源参数,大多数情况下这一结论也是正确的。但是有些音的变化速度特别快,例如塞音或塞擦音的爆破段,20ms的时间间隔就过长,这时取5ms的间隔更为恰当。模型中将语音信号截然分为受周期脉冲激励和噪声激励两种情况,与实际情况并不完全符合,将清浊音开关换为叠加号更为合适,这样激励信号可以是上述两种激励按任意比例相叠加,这更加符合实际情况(即使如此,这个模型也不能完全包括所有的情况)。除了这些限制以外,这个模型的局限性主要表现在它的传输函数不包含有限传
10、输零点,而像鼻音、擦音这样一些音的声道传输函数中是包含有限零点的。一种解决问题的方法是在声道模型中引入若干有限传输零点,但是这将使模型复杂化。另一种方法是适当提高阶数P,使得全极点模型能更好地逼近具有此种零点的传输函数。综上所述,完整的语音信号得数字模型可以用三个子模型:激励模型声道模型和辐射模型的串联来表示。它的传递函数可表示为:H(z)=AU(z)V(z)R(z) (2-1)这里,U(z)是激励信号,浊音时U(z)是声门脉冲即斜三角脉冲序列的z变换;在清音的情况下,U(z)是一个随机噪声的z变换。V(z)是声道传输函数,既可以用声管模型,也可以用共峰模型来描述。实际上就是全集点模型: 应该
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 564501101 语音 信号 毕业设计 论文
链接地址:https://www.31ppt.com/p-3930692.html