语音信号处理课件,作业.ppt
《语音信号处理课件,作业.ppt》由会员分享,可在线阅读,更多相关《语音信号处理课件,作业.ppt(86页珍藏版)》请在三一办公上搜索。
1、第02章基础知识1,第2章 语音信号基础知识,人类的语言器官语音产生过程语音信号产生的数字模型语音信号的特性人类的听觉功能,第02章基础知识2,1.人类的语言器官,人类能以语言沟通,进而累积知识,形成文化,其中一个主要的原因,就是人类具有较其它生物优越的发音器官。人类的发音器官能够产生多样性的声音,构成丰富的词汇,无疑是最关键的因素。声音是一种波,能被人耳听到,它的振动频率在2020 000 Hz之间。,1、人类的语言器官,第02章基础知识3,1.人类的语言器官,人体发音器官肺、气管、喉(包括声带)和声道,肺是语音产生的能源所在;声带为产生语音提供主要的激励源;声道是指声门至嘴唇的所有器官:咽
2、、鼻腔、口腔等,它们具有非均匀截面,且随时间变化,起共鸣器(或谐振器)的作用。,1、人类的语言器官,第02章基础知识4,1.人类的语言器官,图2-1 人类的发音器官,注:喉部以上的部分统称为声道;气管和肺在声门以下,1、人类的语言器官,第02章基础知识5,1.人类的语言器官,图2-2 最重要的发音器官之一:声带,(a)闭合状态(b)张开状态,甲状软骨 杓状软骨 环状软骨 声门 声带,1、人类的语言器官,第02章基础知识6,2.语音产生过程,肺,声带,声道,直流气流,声音,嘴唇,声压波,速度波,能源,激励源,谐振源,辐射源,交流气流,2、语音信号产生过程,第02章基础知识7,声门气流和嘴部声压,
3、2、语音信号产生过程,第02章基础知识8,物理模型,2、语音信号产生过程,第02章基础知识9,2.语音产生过程,语音的形成过程空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。浊音(Voiced sounds):声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,这时候就造成周期性的激发气流,如a,o;清音(Unvoiced or Fricative sounds):声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d;爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放,如b,p。能被人耳听到,它的振动频率在2020 000
4、 Hz之间,2、语音信号产生过程,第02章基础知识10,2.语音产生过程,语音的两个重要声学特性:浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80500 Hz左右。共振峰(Fn,n=1,2,.):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要,越多越精确
5、。,2、语音信号产生过程,第02章基础知识11,口腔对声源频谱的调制共振峰,2、语音信号产生过程,第02章基础知识12,共振峰是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓,或称谱包络。语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性,即音色。元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要考虑三个共振峰,而在语音合
6、成技术中考虑五个共振峰是最为现实的。声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。,第02章基础知识13,前三个共振峰的频率范围,2、语音信号产生过程,第02章基础知识14,2.语音产生过程,理想状态下共振峰的计算:假设声道截面是均匀的(此时可把声道看作一个粗细均匀的圆筒),从喉到唇的距离L=17 cm,音速c=340 m/s,则共振峰将发生在:谐振频率发生在500Hz的奇数倍,2、语音信号产生过程,第02章基础知识15,3.语音信号产生的数字模型,在研究了发声器官和语音的产生过程以后,便可以建立一个离散时域的语音信号产生的数字模型,它将是我们
7、将数字信号处理技术应用于语音信号的基础。下图是一个完整的语音信号产生的数字模型:,3、语音信号产生的数字模型,第02章基础知识16,语音产生模型(Speech Production/Generation Model),4、语音信号的特性,第02章基础知识17,语音信号(Speech Signal),4、语音信号的特性,第02章基础知识18,数字语音信号表示(Representations of Speech Signals),4、语音信号的特性,第02章基础知识19,(1)激励模型,由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:
8、激励模型、声道模型、辐射模型激励模型 根据发浊音和发清音的机理又分为:(a)浊音激励(b)清音激励,3、语音信号产生的数字模型,第02章基础知识20,(a)浊音激励 由前面所讲发音过程可知,发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波,其周期为基音周期,单个脉冲的波形类似于斜三角波,故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入,其输出就是浊音激励。由于人类语音的频率范围主要集中在300Hz3400Hz,数字模型中的信号取样率一般为8KHz。,3、语音信号产生的数字模型,(1)激励模型,第02章基础知识21,由图可见,它是一个低通滤波器。频率分析表明,其幅度谱
9、按12 dB/倍频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有G(z)1/(1-g1z-1)(1-g2z-1)如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。,第02章基础知识22,周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式 E(z)AV/(1-z-1)(2-5)所以整个激励模型可表示为U(z)G(z
10、)E(z)AV/(1-z-1)1/(1-g1z-1)(1-g2z-1)(2-6),3、语音信号产生的数字模型,(1)激励模型,第02章基础知识23,(b)清音激励发清音时声道被阻碍形成湍流,所以可把清音激励模拟成随机白噪声。此处用均值为0方差为1并在幅值上为平稳分布的序列,具体实现时可采用随机噪声发生器来产生此序列。,3、语音信号产生的数字模型,(1)激励模型,第02章基础知识24,(2)声道模型两种建模方法:(a)声管模型(b)共振峰模型 共振峰模型将声道视为一个谐振腔,按此原则导出。基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型:(a)级联型(b)并联型(c)混合型,3、语音信
11、号产生的数字模型,(2)声道模型,第02章基础知识25,(a)级联型:适用于一般单元音,认为声道是一组串联的二阶谐振器:,这是一个全极点模型,极点就是这个多项式的根:,若P为偶数,解其根会得到共扼复数(conjugate complex)的根,表示成:,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识26,F=1/T-取样频率 i/-共振峰的频宽。Fi是-共振峰(formant)的中心频率,这样分解则每一个二阶因式均对应一个共振峰,其幅频特性是典型的二阶谐振特性,谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振
12、特性。,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识27,(b)并联型适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型:,通常PR,假设分子与分母无公因子且分母无重根,则此式可分解为以下部分分式之和的形式:,这就是并联型共振峰模型,每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识28,前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取3到5级。级联型结构较为简单,并联型各谐振器幅度可独立控
13、制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识29,(c)混合型我们可以根据发音的需要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度控制因子为AB,这是专为一些频谱特性较为平坦的音素如f、p、b而考虑的,以增强反谐振特性。,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识30,在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性,我们常用一个一阶的数字高通滤波器拟这个现象,这个滤波器又叫做辐射模型(radiation
14、 model),其数学式如下,完整的数字模型的系统函数由激励模型、声道模型和辐射模型的级联来表示:,3、语音信号产生的数字模型,(3)辐射模型,第02章基础知识31,第02章基础知识32,总结:,1.到此为止组成语音产生的数字模型的三个组成部分己介绍完毕。此模型并非最完备的模型,因为它对一些音是不适用的如浊音中的摩擦音,这种音要有发浊音和清音的两种激励,而不是简单的叠加关系,对这些音我们可用更精确的模型来模拟。2.语音产生的数字模型中增益控制(对Av或AN)代表了输出语音的音响强度;时变线性系统主要用来模拟声道的特性;3.数字语音处理中两个基本问题,即语音分析和语音合成,都是基于这个模型来实现
15、的;4.此数字模型的特点:系统参数固定不变短时分析;全极点性质零点可由多个极点逼近;激励源和声道互相独立适用于大多数数字语音处理。,3、语音信号产生的数字模型,第02章基础知识33,4.语音信号的特性,语音学和语言学概要语音的声学特性语音的时间波形和频谱特性语音信号的统计特性,4、语音信号的特性,第02章基础知识34,4.1语言学和语音学概要,对语音学和语言学的详尽讨论对我们来讲离题太远,但是对语音信号加以处理以改善或提取信息时,如果我们对语音信号的结构(信号中信息编码的方法)有尽可能多的知识则是很有帮助的。1.语言学:是以人类的语言为研究对象的一门科学,主要对控制语音中各个音的排列规则及其含
16、义进行研究。语言(Language)是从千百万个人的言语(Speech)中概括总结出来的规律性的符号系统。所以,研究语言首先要了解一下人的言语(说话)过程。,4、语音信号的特性,第02章基础知识35,4.1语言学和语音学概要,图3-1 人的说话过程分为五个阶段,(1)想说阶段:人的说话首先是客观现实在大脑中的反映,经大脑的决策产生了说话的动机;接着讲话神经中枢选择恰当的单词、短语以及按语法规则的组合,以表达他想说的内容和情感。这个阶段与大脑中枢的活动有关。,(2)说出阶段:由上阶段中枢的决策,以脉冲形式向发音器官发出指令,使它们各自相关的肌肉协调地动作发出声音来。另外还开动另一个“反馈系统”即
17、讲话者的听觉系统,来帮助修正语音。,(3)传送阶段:说出来的话语是一连串的声波,凭借空气为媒介传到听话者耳中。,(4)接收阶段:听话者从外耳收集到的声波信息,经过中耳的放大作用,到达内耳,经内耳基底内膜振动转化为耳蜗内的毛细胞的电位变化,由听觉神经传给大脑。,(5)理解阶段:讲话者大脑听觉神经中枢收到脉冲信息后,辨认出说话的人及其所说的信息,从而听懂讲话者的话。,4、语音信号的特性,第02章基础知识36,4.1语言学和语音学概要,从五个阶段来看,言语的过程包含着相当复杂的因素,其中有心理的、生理的、物理的以及个人的和社会的因素。这里,个人的因素还指讲活者的口音和用词造句的特色以及听话者的听音和
18、理解能力;社会的因素则是指讲话者和听话音对用于进行交际的手段有共同的理解的社会基础。语言是从言语中概括出来的一个符号系统。包括形式和内容两个方面,即语音的形式和语义的内容。将这两个基本要素相结合起来,可以构成语言的语素、词、短语和句子等的不同层次的单位;这个构成规则就是语法。目前我们可以利用语法和语义信息减小语音识别中搜索匹配范围,提高语音识别率。,4、语音信号的特性,第02章基础知识37,4.1语言学和语音学概要,2.语音学:研究语音中各个音的物理特征和分类的学科。从某种意义上讲,语音学与语音信号处理这门学科联系更紧密。大多数语言包括汉语在内可以用一组不同的音即音素来加以描述。对于汉语来说约
19、有六十个音素,包括元音、复合元音和辅音。研究语音学的途径有很多种,例如语言学家研究音素的不同特性或特征。而对我们来讲,只要研究不同的声学特征就够了,这包括发音的部位、姿态、波形和这些声音的频谱即语谱特征。本章后面几个话题均以语音学为基础。,4、语音信号的特性,第02章基础知识38,4.2 语音的声学特性,1.物理属性音色、音调、音强和音长;音色:也叫音质,是一种声音区别于另一种声音的基本特征,是由声道的位置和形状决定。音调:声音的高低,决定于声波的频率的高低,而声波频率的高低又由语音的基音频率F0所决定。F0高则音调高,低则音调低。一般说来,老年男性音调偏低,小孩和青年女性音调偏高。音强:声音
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 课件 作业
链接地址:https://www.31ppt.com/p-5484267.html