语音信号处理第2章.ppt

上传人：牧羊曲112

文档编号：5318033

上传时间：2023-06-25

格式：PPT

页数：32

大小：609.01KB

《语音信号处理第2章.ppt》由会员分享，可在线阅读，更多相关《语音信号处理第2章.ppt（32页珍藏版）》请在三一办公上搜索。

1、2.1概述2.2语音和语言2.3汉语语音学2.4语音生成系统和语音感知系统2.5语音信号生成的数学模型2.6语音信号的特性分析,第2章语音信号处理的基础知识,2.1 概述,语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。目的:一、通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息；二、通过处理的某种运算以达到某种用途的要求，例如人工合成出语音、辨识出讲话者、识别出讲话的内容等等。,2.2 语音和语言,人们讲话时发出的话语叫语音，它是一种声音，具有称为声学特征的物理特性。语音（Speech）是声音（Acoustic）和语言（Language）的组

2、合体。可以这样定义语音：语音是由一连串的音组成语言的声音。人的说话过程可以分为五个阶段：（1）想说阶段（2）说出阶段（3）传送阶段（4）理解阶段（5）接收阶段,2.2 语音和语言,人的说话的过程：,2.2 语音和语言语言是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位，以及词法、句法、文脉等语法和语义内容等。语言学是语音信号处理的基础。语音学(Phonetics)是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。现代语音学发展成为三个主要分支：发音语音学、声学语音学、听觉语音学。,2.2 语音和

3、语言语音是人的发声器官发出的一种声波，它具有一定的音色，音调，音强和音长。其中，音色也叫音质，是一种声音区别于另一种声音的基本特征。音调是指声音的高低，它取决于声波的频率。声音的强弱叫音强，它由声波的振动幅度决定。声音的长短叫音长，它取决于发音时间的长短。说话时一次发出的，具有一个响亮的中心，并被明显感觉到的语音片段叫音节（Syllable）。一个音节可以由一个音素（Phoneme）构成，也可以由几个音素构成。音素是语音发音的最小单位。,2.2 语音和语言任何语言都有语音的元音（Vowel）和辅音（Consonant）两种音素。元音：当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时，

4、这些声腔完全开放，气流顺利通过，这种音称为元音。辅音：呼出的声流，由于通路的某一部分封闭起来或受到阻碍，气流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素称为辅音。发辅音时由声带是否振动引起浊音和清音的区别，声带振动的是浊音，声带不振动的是清音。,2.2 语音和语言决定元音音色的主要因素是舌头的形状及其在口腔中的位置(简称舌位)、嘴唇的形状(简称口形)等。元音的另一个重要声学特性是共振峰（Formant）。共振峰参数是区别不同元音的重要参数，它一般包括共振峰频率（Formant Frequency）的位置和频带宽度（Formant Bandwidth）。一般地说，就语音的基音频率而言是女声

5、和童声高于男声，但是实验表明：区分语音是男声还是女声、是成人声音还是儿童声音，更重要的因素是共振峰频率的高低。,2.3 汉语语音学汉语语音的特点：音系简单。这是指音素少、音节少。音节的结构也比较简单。由于清辅音多，而且多是弱清音，而且开口呼的音节占全部音节的一半以上，所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。,汉语的拼音方法汉语由音素构成声母或韵母。有时，将含有声调（汉语通常认为有五个声调）的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词（其中主要是两音节字构成

6、的两字词，约占74%），最后再由词构成句子。国际上，都是用音标来描述拼音过程的。汉语也不例外。汉语拼音的音标包括：声母表、韵母表和声调符号等。,汉语音节的一般结构,汉语的声调汉语是一种声调语言，相同声母和韵母构成的音节随声调的不同而具有完全不同的意义，对应着不同的汉字。汉语普通话的声调只有阴平、阳平、上声、去声以及“轻声”等五种声调。,2.4 语音生成系统和语音感知系统语音发音系统人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道（Vocal Tract）。声道的形状主要由嘴唇、颚和舌头的位置来决定。由

7、声道形状的不断改变，而发出不同的语音。,语音听觉系统人耳由内耳、中耳和外耳三部分组成。,语音听觉系统人的听觉系统有两个重要特性，一个是耳蜗对于声信号的时频分析特性；另一个是人耳听觉掩蔽效应。如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲，耳蜗就象一个频谱分析仪，将复杂的信号分解成各种频率分量。并非所有的声音都能被人耳听到，这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指，在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。,2.5 语音信号生成的数学模型建立了语音信号的数学模型，才能够用计算机来定量地对语音信号进行模拟和处理。理想的模型是线

8、性的和时不变的。语音信号是非平稳随机过程，其特性是随着时间变化的，所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时，可以采用线性时不变模型。,激励模型激励模型一般分成浊音激励和清音激励来讨论。发浊音时，由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲，它的数学表达式如下：式中，N1为斜三角波上升部分的时间，N2为其下降部分的时间。单个斜三角波波形的频谱的图形如图2-18所示

9、。由图可见，它是一个低通滤波器。,激励模型上式表示斜三角波形可描述为一个二极点的模型。因此，斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。而该单位脉冲串及幅值因子则可表示成下面的z变换形式：所以，整个浊音激励模型可表示为：也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。,声道模型关于声道部分的数学模型，有多种观点，目前最常用的有两种建模方法。一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔，按此推导出的叫“共振峰模型”。共振峰模型，把声道视为一个谐振腔。基于物理声学的共振峰理论，可以建立起三种实用

10、的共振峰模型：级联型、并联型和混合型。,声道模型级联型这时认为声道是一组串联的二阶谐振器。从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音，则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联：,声道模型级联型,声道模型并联型对于非一般元音以及大部分辅音，必须考虑采用零极点模型。此时，模型的传输函数如下：通常，NR，且设分子与分母无公因子及分母无重根，则上式可分解为如下部分分式之和的形式：,声道模型并联型,声道模型混合型共振峰模型,辐射模型从声道模型输出的是速度波，而语音信号是声压波，二者之倒比称为辐

11、射阻抗。它表征口唇的辐射效应，也包括圆形的头部的绕射效应等。当然，从理论上推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表面积，则可近似地看成平板开槽辐射的情况。此时，可推导出辐射阻抗的公式如下：式中，这里，是口唇张开时的开口半径，是声波传播速度。图2-23 显示了辐射阻抗的实部和虚部的频率响应曲线。由辐射引起的能量损耗正比于辐射阻抗的实部，所以辐射模型是一阶类高通滤波器。,语音信号的数学模型综上所述，完整的语音信号的数学模型可以用三个子模型：激励模型、声道模型和辐射模型的串联来表示。如图所示：它的传输函数可以表示为：,2.6 语音信号的特性分析,语音信号的时域波形和频谱特性

12、在时间域里，语音信号可以直接用它的时间波形表示出来，通过观察时间波形可以看出语音信号的一些重要特性。下图是汉语拼音“sou ke”的时间波形。表示这段语音波形采用的采样频率是8kHz，量化精度是16bit。,语音信号的时域波形和频谱特性语音信号属于短时平稳信号，一般认为在1030ms内语音信号特性基本上是不变的，或者变化很缓慢。于是，可以从中截取一小段进行频谱分析。下图给出“sou”中音素“ou”的傅里叶变换：,语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单独分析的方法均有局限性。因此，人们致力于研究语音的时频分析特性，把和时序相关的傅立叶分析的显示图形称为

13、语谱图（Sonogram，或者Spectrogram）。,语音信号的统计特性语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量如均值和自相关函数来描述。表示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段语音信号的大量取样数据的幅度绝对值计算出其幅度直方图，然后，根据统计的振幅直方图，寻找近似的概率密度表达式。,语音信号的统计特性通过对语音信号的统计特性的研究表明，语音信号振幅分布的概率密度有两种逼近方法，一种是修正伽玛（Gamma）分布概率密度函数另一种是拉普拉斯（Laplace）分布概率密度函数,1.什么叫语音？什么叫语言？人们说话的过程可分为哪五个阶段？每个阶段的主要内容是什么？2.人类的发音器官包括哪些部分？在发音时各部分都起什么作用？音调频率有什么因素决定？发声时声道是如何活动的？3.人类的听觉器官包括哪些部分？在听音时他们是如何起作用的？基底膜是如何起关键作用的？4.人耳听觉的掩蔽效应分为哪几种？掩蔽效应的存在对我们研究语音信号处理系统有什么启示？5语音信号的数学模型包括哪些子模型？激励模型是怎样推导出来的？辐射模型又是怎样推导出来的？它们各属于什么性质的滤波器？,语音信号处理基础知识,