语音信号处理课件第03章时域分析.ppt

上传人：小飞机

文档编号：5841469

上传时间：2023-08-26

格式：PPT

页数：60

大小：914KB

《语音信号处理课件第03章时域分析.ppt》由会员分享，可在线阅读，更多相关《语音信号处理课件第03章时域分析.ppt（60页珍藏版）》请在三一办公上搜索。

1、第三章时域分析,引言语音信号的短时处理方法短时能量合短时平均幅度短时平均过零率短时自相关函数短时时域处理技术应用举例,引言,语音信号处理包括语音通信、语音合成、语音识别、说话人识别和语音增强等方面，但其前提和基础是对语音信号的分析。语音信号分析可分为时域、频域、倒谱域等方法。在分析处理之前必须把要分析的语音信号部分从输人信号中找出来，这项工作叫语音信号的端点检测。语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。语音分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音产生的数学模型，来分析和提取表征

2、这些模型的特征参数；共振峰模型分析及声管模型(即线性预测模型)分析即属于这种分析方法。非模型分析法，包括上面提到的时域分析法、频域分析法及同态分析法等。,引言,时域分析通常用于最基本的参数分析及用于语音的分割、预处理和大分类等。其特点为：表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。可以得到语音的一些重要参数。,引言,短时分析技术：语音信号有时变特性，是一个非平稳的随机过程。但在一个短时间范围内其特性基本保持不变。即语音的“短时平稳性”。“短时分析”，即对语音信号流采用分段处理。将其分为一段一段来分析，其中每一段称为一“帧”，由于语音通常在1030 ms之内是保持相对平稳的，

3、因而帧长一般取为1030 ms。注：对于某些要求较高的研究领域或应用场合(如语音识别)，应该考虑语音信号是时变或非平稳的，此时应采用“隐马尔可夫模型”,3.1 语音信号的短时处理方法,语音信号的波形在时间上是连续变化的，所以是一个连续时间信号，它的电位振幅可以是在一个电压范围内的任何电位，是一个连续值，这个电位信号我们叫它模拟信号。我们在处理语音信号时，通常是一小段一小段地观察语音信号的变化，也就是以音窗也可称作语音帧为单位，对每一语音帧内的信号，抽取出代表语音的特征参数，这就是短时语音处理。在本章中，我们先介绍如何将语音信号作取样与数字化，然后介绍基本的数字编码，即脉冲编码调制(PCM)。将

4、语音信号变成数字信号之后，我们可以计算短时段的信号能量、过零率、自相关函数等时域参数，以及在下一章将一个音窗内的信号作傅里叶转换，得到频域中的参数。,3.1 语音信号的短时处理方法离散时间信号,现在许多设备都是在数字系统中处理信号，所以模拟信号(analog signal)要经过一个模拟到数字转换器(analog-to-digital converter,ADC)，转换成数字信号(digital signal)，才能在数字系统(digital system)中储存或是让计算机处理。在数字系统中处理后的数字信号，要经过数字到模拟转换器(digital-to-analog converter,DA

5、C)，转换成模拟信号之后，才作为输出。将模拟信号转换成数字信号的过程，就叫做模拟到数字的转换。它需经过两个步骤，就是取样(sampling)与量化(quantization)。,3.1 语音信号的短时处理方法,取样所谓取样，就是以固定的时间间隔，将模拟信号的振幅记录下来。从数学上看，就是将模拟信号乘上一个周期性的脉冲信号，得到一序列的脉冲，其脉冲的大小就是在该取样的时间点上模拟信号的振幅。如果以时间函数xa(t)表示一个模拟信号，取样周期为Ts，则取样后的信号变成xp(t)，它等于xa(t)乘上一序列的脉冲，,(3-1)(3-2),p(t)是一个脉冲序列信号，表示如下式,3.1 语音信号的短时

6、处理方法,图3-1语音信号波形及其取样,3.1 语音信号的短时处理方法,如果我们对一个信号取样，而未对信号事先作低通滤波即反混叠滤波，取样频率又太低，这样得到的离散时间信号就不正确，取样得到的数字信号是不能用的。转换到频域看，若是取样频率太低，它的信号频谱就会发生重叠，用低通滤波器无法取出原来的频谱，因此就不可能完整地复原。这种取样之后使得频域上频谱重叠的现象，叫做信号混叠(aliasing)。,3.1 语音信号的短时处理方法脉冲编码调制,一个数字信号取样之后，变成离散时间信号，接下来就是要用数字方式来表示这个离散时间信号上的每个取样值。一个电位波形会有固定的电压范围，一个取样值可以是在此电

7、压范围内的任何电位。如果只能用固定数目的位来表示这些取样值，那么这些二进数字就只能代表固定的几个电位值，这个转换就是量化(quantization)，而转换之后只允许存在的几个电位值就是量化阶数(quantization level)。执行量化转换的硬件电路，就是量化器（quantizer)。以二进数字表示的信号就是数字信号(digital signal)，而这种将信号波形转变成二进数字的方法，就叫脉冲编码调制(pulse code modulation,PCM)。,3.1 语音信号的短时处理方法脉冲编码调制,图3-3等间距量化的例子,在-2V到+2V的电压范围内，用三个位代表的二进数字作量

8、化,3.1 语音信号的短时处理方法脉冲编码调制,如果有一个取样的电位为+0.65V，落在+0.5V到+1.0V的格子中，我们就知道它的对应二进数字是101，于是这个离散时间信号被转换成101所代表的数字信号。当要将数字信号还原成离散时间信号时，每三个位就组成一个数字，代表一个离散时间信号值，但是作为代表的电位，是该格子的中间值，以101为例，其代表的电位是+0.75V，所以还原之后的离散时间信号值是+0.75V，与原来的+0.65V相差0.10V，这个差值就是量化误差(quantization error)。对于每一格宽度为0.5V的量化方式，其误差值在-0.25V到+0.25V之间，也就是

9、格子宽度的一半。,3.1 语音信号的短时处理方法脉冲编码调制,将量化误差d(n)看成是一个随机变数(random variable)，其值就在-/2到+/2之间作均匀分布(uniform distribution)，其概率密度函数(probability density function,pdf)写成下式，,(3-8),平均值(mean)为0，方差(variance)为,(3-9),3.1 语音信号的短时处理方法脉冲编码调制,对于平均值为0的信号，其强度(intensity)即能量就等于其方差。我们计算其信号能量对量化误差引起的噪音能量的比值，就叫做量化信噪比(signal-to-nois

10、e ratio,SNR)，,(3-10),以分贝(decibel,dB)来表示信噪比，,(3-11),3.1 语音信号的短时处理方法脉冲编码调制,若是xmax取为4倍方差(x),(3-12),取样率经常取10 kHz。某些现代语音处理系统语音频率高端扩展到79 kHz，相应的取样率也提高到1520 kHz。,3.1 语音信号的短时处理方法取样率和量化字长的选择,(a)是一段语音信号400个取样值的包络曲线，(b)3 bit量化器的量化噪声与被量化信号之间存在着一定的相关性(c)8 bit量化噪声几乎已经看不出这种相关性了。,3.1 语音信号的短时处理方法取样率和量化字长的选择,(d)3 bi

11、t量化器的噪声与“平稳白噪声过程”的假设不大相符(e)8 bit量化器的噪声的自相关函数的估计几乎是一个冲激函数，这与“白噪声过程”的假设相一致。(f)3 bit量化噪声谱和语音信号谱的性质有某些相似，也是随着频率的升高而下降(g)8 bit时，其量化噪声谱就比较平坦了，这是典型的白噪声谱的形状。,3.1 语音信号的短时处理方法取样率和量化字长的选择,SNR(dB)6.02B-7.2 每bit字长对SNR贡献为6dB。当B7bit时，SNR35 dB。此时量化后的语音质量能满足一般通信系统的要求。语音波形的动态范围可达55 dB，故B应取10 bit以上。为了在语音信号变化的范围内保持35 d

12、B的信噪比，一般要求B11，实际常用12 bit来量化，其中附加的5bit用于补偿30 dB左右的语音波形的动态范围变化。,3.1 语音信号的短时处理方法取样率和量化字长的选择,3.1 语音信号的短时处理方法预处理,图3-4语音信号处理系统框图,反混叠滤波器：为了防止混叠失真和噪声干扰，必须在取样前用一个具有良好截止特性的模拟低通滤波器对语音信号进行滤波，该滤波器称为反混叠滤波器。有时为了防止50 Hz市电频率干扰，该低通滤波器实际上做成一个从100 Hz到3.4kHz的带通滤波器。对该滤波器的要求是其带内波动和带外衰减特性应尽可能好。,3.1 语音信号的短时处理方法预处理,平滑滤波器：D/A

13、后面的低通滤波器是平滑滤波器，对重构的语音波形的高次谐波起平滑作用，以去除高次谐波失真。预加重：现象:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800 Hz以上按6dB/倍频程跌落，为此要在预处理中进行预加重。目的:提升高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。位置:预加重可在A/D变换前的反混叠滤波之前进行，这样不仅能够进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。,3.1 语音信号的短时处理方法预处理,3.1 语音信号的短时处理方法加窗取语音帧,对于一段语音的离散时间信号x(m)，用一个固定长度的窗口(window)套上去，只看窗

14、口内的信号，对这些信号做计算，用以求出在这窗口内的语音特征(speech features)。这样的处理方式，就叫加窗(windowing)，而套上去的这一段语音即称为语音帧(frame)。通常窗口的长度是取1040 毫秒(ms)，这样一段语音信号，足以计算出语音的特征参数(feature parameters)。窗口的移动距离，大约会取520 ms，让前后的语音帧有部分重叠，这样能观察到语音特征改变的延续性以保证分析的准确性。,3.1 语音信号的短时处理方法加窗取语音帧,3.1 语音信号的短时处理方法加窗取语音帧,3.1 语音信号的短时处理方法加窗取语音帧,假设加窗的长度为N，在时域中

15、可以写成,(3-13),将窗函数w(m)乘在语音信号中的某一个时间点上，,(3-14),n是加窗位置标示，可以看出只有当m在n-N+1mn之间，才不会是0，也就是x(m)在n-N+1mn这一时段中被取出，作为一个语音帧。,3.1 语音信号的短时处理方法加窗取语音帧,在语音处理中最常用的两种窗函数是矩形窗(rectangular window)与海明窗(Hamming window)。矩形窗的数学式如下：,(3-15),海明窗数学式如下：,(3-16),3.1 语音信号的短时处理方法加窗取语音帧,图3-4常用的窗函数,3.1 语音信号的短时处理方法,语音信号短时处理的一般表示：其中T 为某种

16、运算关系，Qn为运算后的结果,3.2 短时能量和短时平均幅度,语音信号的能量分析是基于语音信号能量随时间有相当大的变化，清音段的能量一般比浊音段的小得多。能量分析包括能量和幅度两个方面。对语音信号采用短时分析时，信号流的处理用分段或分帧来实现。一般每秒的帧数约为33100，视实际情况而定。分帧既可连续，也可采用交叠分段的方法，使相邻帧有部分相重叠。,3.2 短时能量和短时平均幅度,振幅越大则能量越大，通常用以下方式计算语音能量短时平均能量函数变换T 是指平方和运算；两种计算方法：（3-17）,3.2 短时能量和短时平均幅度,振幅越大则能量越大，通常用以下方式计算语音能量短时平均能量函数变换

17、T 是指平方和运算；两种计算方法：（3-18）h(n)是无限冲激响应滤波器时，短时能量可递推计算得到,直角窗时h(n)1，0nN-1h(n)0，其他对应于该单位函数响应的数字滤波器的频率响应为它具有线性的相位频率特性，其频率响应中第一个零值所对应的频率为这里，fs为取样频率，而T1/fs为取样周期。,3.2 短时能量和短时平均幅度,矩形窗与海明窗的频率响应:海明窗的第一个零值频率位置比直角窗要大1倍左右，即带宽约增加1倍；同时其带外衰减也比直角窗大得多。,3.2 短时能量和短时平均幅度,对语音信号的时域分析来说:窗口的形状是重要的，选用不同的窗口，将使能量的平均结果不同：直角窗的谱平滑较好

18、，但波形细节丢失(高频分量)；而海明窗则相反。窗的长度对于能否反映语音信号的幅度变化，将起决定作用。如果N很大，它等效于带宽很窄的低通滤波器，此时En随时间的变化很小，不能反映语音信号的幅度变化，波形的变化细节就看不出来；反之，N太小时，滤波器的通带变宽，短时能量随时间有急剧的变化，不能得到平滑的能量函数。因此，窗口长度选择应合适。窗口长度选择应合适。这里所谓窗口的长与短，都是相对于语音信号的基音周期而言的。通常认为在一个语音帧内，应含有17个基音周期。然而不同人的基音周期变化范围很大，从女性儿童的2 ms到老年男子的14 ms(即基音频率为500 Hz70 Hz)，所以N的选择比较困难。通常

19、在10 kHz取样频率下，N折衷选择为100200(即1020 ms持续时间)。,3.2 短时能量和短时平均幅度,N51时，窗选得较窄，En随语音信号波形变化而很快起伏；N401时，窗选得太宽，En随语音信号波形的变化而很缓慢地变化；N101或N201时，En随语音信号波形的变化而快速变化，从而充分反映出此信号的特征。,3.2 短时能量和短时平均幅度,En的作用：反映出语音的能量或语音振幅随时间缓慢变化的规律。（浊音段能量比清音段大的多）En的应用：1）区分清音段和浊音段 2）区分声母和韵母3）区分无声和有声的分界(信噪比较高的信号)4)区分连字的边界 5）用于语音识别 En的缺点：对高电平

20、过于敏感，给加窗宽度的选择带来了困难。扩大了振幅不相等的任何两个相邻取样值(此处的取样值是指某语帧的短时平均能量值)之间的幅度差别，必须用较宽的窗函数才能平滑能量幅度的起伏。为了使En能准确反映语音能量的时变规律：数据窗w(n)或滤波器h(n)函数形式和宽度的选择相当重要。）,3.2 短时能量和短时平均幅度,图3-6 语音信号的短时平均能量曲线,3.2 短时能量和短时平均幅度,短时平均幅度变换T 是取绝对值求和运算；两种计算方法：或,3.2 短时能量和短时平均幅度,窗口长度N对平均幅度函数的影响与短时平均能量的分析结果相同。短时平均幅度的动态范围(最大值与最小值之比)比短时平均能量要小，实际

21、上短时平均幅度的动态范围接近于短时平均能量的平方根。同样可以区分出清音和浊音，但二者的电平差不如短时能量那样明显。在清音的范围内，Mn和En二者的区别特别显著。,3.3 短时平均过零率,计算一个语音帧内单位时间越过零线的平均次数，可以得出其短时平均过零率(zero crossing rate)或短时平均过零数。,声带振动时，是在发浊音，所以过零率低，声带不振动时，是在发清音，所以过零率就高，没有声音时若有噪音存在，也会有较高的过零率。,过零：信号波形穿越时间轴或零值线；对于离散时间信号而言就是相邻的取样值符号改变。平均过零率：单位时间（或单位样本）内过零的次数。,3.3 短时平均过零率,变换T

22、相当于平均过零率计算；短时平均过零率的计算方法：,3.3 短时平均过零率,图3-7 语音信号的短时平均过零率曲线,3.3 短时平均过零率,实际应用区分清、浊音,3.3 短时平均过零率,在背景噪声较大的情况下，从噪声信号中找出语音信号，判断出语音的起点和终点。注意：对于弱摩擦音f、h，弱爆破音p、t、k，鼻音ng、n、m，只用En(Mn)或Zn中一个参量判断语音的起点和终点是有困难的，必须同时用En和Zn或Mn和Zn。,3.3 短时平均过零率语音的端点检测,利用短时平均能量函数曲线与短时平均过零率曲线，我们可以做语音的端点检测(end-point detection)。在语音未开始之前，会取到

23、一段背景噪音的信号，在语音结束之后也会取到一段背景噪音。语音端点检测就是要找出语音从第几个语音帧开始，到第几个语音帧结束。语音端点侦测程序如下：取到的一段声音以固定语音帧长度及固定语音帧帧移，转成一序列的语音帧。然后计算每一语音帧的短时平均能量函数En,l与短时平均过零率Zn,l 其中l是语音帧的序号，l=1,2,3,.，语音帧能量以对数值表示,(2)最前面的若干个语音帧视为噪音部分，求其所有语音帧短时平均能量与短时平均过零率的分布，即计算其平均值与方差。,(3)设定两个能量门限值及一个过零率门限值。,3.3 短时平均过零率语音的端点检测,(4)沿着语音帧序列，标注第一个短时平均能量超过TEL

24、的语音帧，注记为NV。如果其后连续的B个语音帧，其短时平均能量大于TEL，而且B个语音帧之后，短时平均能量更是大于TEU，则NV视为可能的语音起点。反之，在NV之后的B个语音帧内，有小于TEL的，或是B个语音帧之后不会大于TEU，则可能只是短暂的噪音造成的现象。因此放弃此NV点，继续往下找。(5)找到NV之后，往回检查，看其前个语音帧短时平均过零率，是否大于TZ，若是就继续往回找，直到短时平均过零率小于TZ为止。这时候的语音帧视为真正语音的起点，将此语音帧订为N0。如果在NV之前，C个语音帧内没有短时平均过零率大于TZ者，就将NV作为真正的语音起点，这表示没有低能量的辅音在前面。,3.3 短

25、时平均过零率语音的端点检测,(6)从NV之后应该是元音，以后的语音帧能量大于TEL，就是语音存在，一直到能量小于TEL，就视为语音结束，语音终点的语音帧标注为NE。(7)从N0或NV到NE之间，就是语音存在的区域。,如果只是要找元音存在的语音帧，也可以用整句语音中的最大短时平均能量来估计，如：,3.3 短时平均过零率语音的端点检测,图3-8语音端点的检测,3.3 短时平均过零率语音的端点检测,3.4 短时自相关函数,相关分析：1)自相关 2)互相关语音信号处理的相关分析：短时自相关函数短时自相关函数应用：分析语音信号的同步性和周期性。回顾确定性信号序列自相关函数：,3.4 短时自相关函数,序列

26、自相关函数的性质：1)若此序列是周期的(周期为Np)，则 R(k)=R(k+Np)2)R(k)=R(-k)3)R(0)R(k)4)R(0)等于确定性信号序列的能量或随机序列的平均功率由性质1)、3)可知浊音的自相关函数周期性出现峰值点，且周期为基音周期。,3.4 短时自相关函数,短时自相关函数的定义计算方法：优点：在只需计算少数几个滞后时间的自相关值时；窗函数选择适当时，可得到递推计算方法,Rn(k)x(n)x(n-k)*hk(n)短时自相关函数可看做序列x(n)x(n-k)通过单位函数响应为hk(n)的数字滤波器的输出,3.4 短时自相关函数,由图3-18(a)、(b)可见:对应于浊音语音的

27、自相关函数，具有一定的周期性。在相隔一定的取样后，自相关函数达到最大值。图3-18(c)上自相关函数没有很强的周期峰值，表明在信号中缺乏周期性，这种清音语音的自相关函数有一个类似噪声的高频波形，有点像清音信号。,3.4 短时自相关函数,3.4 短时自相关函数,修正的短时自相关函数在语音信号处理中 N值至少要大于基音周期的二倍，否则将找不到第二个最大值点。N值也要尽可能地小；因为语音信号的特性是变化的，如N过大将影响短时性。由于语音信号的最小基频为80 Hz，因而其最大周期为12.5 ms，两倍周期为25 ms，所以10 kHz取样时窗宽N为250。因而，用自相关函数估算基音周期时，N不应小于2

28、50。由于基音周期的范围很宽，所以应使窗宽匹配于预期的基音周期长基音周期用窄的窗，将得不到预期的基音周期；而短基音周期用宽的窗，自相关函数将对许多个基音周期作平均计算，这是不必要的。为解决这个问题，可用“修正的短时自相关函数”来代替短时自相关函数，以便使用较窄的窗。,3.4 短时自相关函数,修正的短时自相关函数修正的短时自相关函数是用两个长度不同的窗口，截取两个不等长的序列进行乘积和，两个窗口的长度相差最大的延迟点数K。这样就能始终保持乘积和的项数不变，即始终为短窗的长度。,图3-20表示了相应于图3-18所给例子的修正自相关函数。在N401时因为波形变动的效应超过了图3-18中逐渐变细的效

29、应，所以这两张图看上去很相似。,3.4 短时自相关函数,短时平均幅度差函数,短时自相关函数是语音信号时域分析的重要参量。它有两个主要用途。一是判断清/浊音，并估计浊音的基音周期；二是它的傅里叶变换就是短时谱。因为计算自相关函数的运算量是很大的，其原因是乘法运算所需时间较长。简化计算自相关函数的方法有多种，如FFT等，但都无法避免乘法运算。为了避免乘法，一个简单的方法就是利用差值。为此常常采用另一种与自相关函数有类似作用的参量，即短时平均幅度差函数(AMDF)。短时平均幅度差函数只需加、减法和取绝对值的运算；与自相关函数的相加与相乘运算相比，运算量大大减小，这尤其在硬件实现语音信号分析时有很大好处。为此，AMDF已被用在许多实时语音处理系统中。,3.5 短时时域处理技术应用举例,语音段起止端点判断两级判决法短时能量短时平均过零率基音周期的估计短时自相关函数是区分清、浊音和估计基音周期的有效方法，但其包含的信息对基音周期的估计来说有许多是多余的；先对语音信号进行低通滤波，再计算自相关函数；中心削波技术；用短时平均幅度差代替短时自相关函数；,作业,给定两段信号判断其是否为语音信号；如是语音信号判断其起点和终点的位置；判断其为浊音信号还是清音信号；如是浊音信号，进行基音周期的估计。,