语音信号的同态滤波和倒谱分析.ppt
,7 语音信号的同态滤波和倒谱分析,一、同态信号处理的基本原理二、复倒谱和倒谱三、语音信号两个卷积分量的复倒谱四、语音信号倒谱五、MEL频率倒谱参数(MFCC),一、同态信号处理的基本原理,1.同态信号处理的作用,同态信号处理也称为同态滤波,实现将卷积关系和乘积关系变换为求和关系的分离处理。,*,将非线性信号处理变为线性信号处理的过程。,语音信号x(n)可视为声门激励信息u(n)及声道响应脉冲响应h(n)的卷积:x(n)=u(n)*h(n)通过处理可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期。解卷积。,清/浊开关,基音周期,冲激序列发生器,随机噪声发生器,增益G,u(n),输出语音x(n),LPC系数a1,a2,ap,u(n),线性预测滤波器Hl(z),x(n),2.同态信号处理的基本原理,进行如下处理:,(1)特征系统D*完成将卷积信号转化为加性信号的运算。,(2)逆特征系统D*-1,恢复为卷积性信号。,进行如下处理:,a.第一步和第三步的运算相同。b.第二步不同,前者是对数运算,后者是指数运算。,(3)特征系统D*和逆特征系统D*-1的区别,Z,exp,Z-1,Z,ln,Z-1,x(n),x(n),特征系统D*,逆特征系统D*-1,x(n),x(n),验证一个时域信号经过同态处理,是否回到时域?,线性系统,特征系统D*,逆特征系统D*-1,x(n)*,y(n)*,3.常见的同态信号处理系统,+,+,进行如下处理:,(1)第一个子系统特征系统D*完成将卷积信号转化为加性信号的运算。,(2)第二个子系统对加性信号进行所需要的线性处理(满足线性叠加原理等),(3)第三个子系统是逆特征系统D*-1,使其恢复为卷积性信号。,进行如下处理:,二、复倒谱和倒谱,1.复倒频谱域和复倒谱,和 信号也均是时域序列,可以证明,实序列的复倒谱是一个实的时间序列,又称之为复倒频谱域。是x(n)的复倒频谱,简称为复倒谱,有时也称为对数复倒谱。同样 是y(n)的复倒谱。,特征系统,逆特征系统,复倒谱的离散傅立叶变换定义,特征系统,逆特征系统,FT,ln,IFT,Z,ln,Z-1,x(n),x(n),求复倒谱,DFT,ln,IDFT,x(n),2.复倒谱分析中的相位卷绕,相位多值问题,One to many,不确定,在求复倒谱时,限制,由于语音是随机信号,这种限制不合理。解决的方法引入一个新的量倒谱来求复倒谱。,3.倒谱,取对数有:,仍然是复数,只考虑其实部。令:,c(n)是序列x(n)对数幅度谱的傅立叶逆变换,称为倒频谱,简称为倒谱,有时也称为对数倒频谱,其量纲为时间。c(n)就是要求取的语音信号倒谱特征。,FT,ln|.|,IFT,x(n),c(n),3.复倒谱和倒谱的关系,(1)复倒谱进行复对数运算,而倒谱只进行实对数运算。(2)倒谱中丢失了信号原有的相位信息,因此序列x(n)经过倒谱的特征系统和逆特征系统后,一般不能还原其自身。,FT,ln|.|,IFT,x(n),c(n),FT,ln,IFT,x(n),任何一个序列可写成偶对称序列和奇对称序列之和,(4)已知一个实数序列x(n)的复倒谱,可以由其求出倒谱c(n)。,偶对称序列是序列频谱的实部的傅立叶反变换,才是一个因果稳定序列。,是一个最小相位序列,(5)已知一个实数序列x(n)的倒谱c(n),可以由其求出复倒谱。,X(z)的零极点都应该在单位圆内,X(z)的零极点都是 的极点,因此只有当它们都在单位圆内,才能使 的极点全部在单位圆内。,复倒谱和倒谱具有线性关系。,设序列,求其复倒谱,大致画出其图形。,时域为有限长周期序列,复倒谱为无限长同周期衰减序列。,N 2N 3N 4N n,三、语音信号两个卷积分量的复倒谱,语音信号可看着声门激励信号和声道冲激响应信号的卷积。,进行如下处理:,复倒谱关系式,时变数字滤波器(h(n)),x(n)speech,u(n)excitation,M,r均为正整数,为幅度因子,为用样点数表示的基音周期,n,u(n),0,Np,2Np,MNp,u(n)的幅度呈衰减趋势,(1)对u(n)进行Z变换,求u(n)的复倒谱,(2)对U(z)取对数,并进行泰勒级数展开,(3)对 进行逆Z变换,求得u(n)的复倒谱,结论:一个有限长的周期冲激序列,其复倒谱也是一个周期冲激序列,其周期不变,只是序列变为无限长。同时其振幅随着k的增大而衰减,衰减速度比原序列要快。,n,0,Np,2Np,MNp,u(n)的幅度呈衰减趋势,n,0,Np,2Np,MNp,2.声道冲激响应序列,(1)对声道响应h(n)用零极点来描述,分别为单位圆内的零、极点个数,分别为单位圆外的零、极点个数,(2)对H(z)取对数,并进行泰勒级数展开,(3)对 进行逆Z变换,求得h(n)的复倒谱,结论:(1)h(n)为有限长实序列,则其复倒谱是双边实序列(2)由于|ak|、|bk|、|ck|和|dk|均小于1,故复倒谱是衰减序列,随着n的增大而衰减。,(3)复倒谱衰减速度快,更集中于原点附近,具有短时性,用短时窗函数提取声道响应序列的复倒谱是很有效的。(4)如果h(n)是最小相位序列,即bk0和dk0,则复倒谱序列为因果稳定序列。因此,最小相位序列的复倒谱是因果稳定序列。,四、语音信号的倒谱,倒谱关系式,由于倒谱和复倒谱之间的线性关系,因此有:(1)ch(n)的性质与h(n)的复倒谱性质一致,主要集中于原点附近。(2)cu(n)的性质与u(n)的复倒谱性质一致,呈现周期性,并且逐渐衰减。,Np,2Np,浊音信号,倒谱,图为一帧浊音信号的倒谱。一般人的基音周期的变化范围为2.2ms至20ms之间。若采样频率为22.05kHz,则对应的样点数为:49441。,浊音信号,倒谱,周期,周期,基音周期,清音信号,倒谱,图为一帧清音信号的倒谱,清音信号,倒谱,由于ch(n)随n增大而迅速递减,在n的间隔很少的值之外已经非常小,如采样频率10kHz,ch(n)在间隔为-25,25之外的值已经很小,可忽略。因此,基音信息和声道信息可以认为是分离的。,FT,ln|.|,IFT,FT,x(n),X(ejw),c(n),加短时窗,Ln|H(ejw)|,共振峰估计的方法,采用低时窗,取出原点附近的一部分信号,经过DFT得到的频谱就是声道的谱包络,经过峰值检测,来估计共振峰。,ch(n),Ln|H(ejw)|,Ln|X(ejw)|,如果h(n)是最小相位序列,即bk0和dk0,则复倒谱 序列为因果稳定序列。如果已知ch(n),可以求出。,逆特征系统D*-1,h(n),倒谱的作用:(1)区分清/浊音(2)求浊音的基音周期,可以得到浊音的激励信号。(3)得到声道的冲激响应h(n),同态声码器:,DFT,ln|.|,IDFT,量化,xn(n),X(k),c(n),加短时窗,ch(n),码字,基音估计清浊音判决,激励参数码字,ch(n),ch(n),DFT,EXP(.),IDFT,解码,基音周期清/浊音,激励信号发生器,卷积运算,h(n),解码,u(n),合成语音,原始语音,Exercises1.画出语音生成的数学模型,给出相应的表达式,并简单阐述。2.结合窗函数,说明语音的短时分析技术。3.常用的基音周期检测的方法有哪些?它们的基本原理是什么?4.常用的清/浊音判别方法有哪些?它们的基本原理是什么?5.设序列(1)求x(n)的复倒谱;(2)大致画出x(n)的倒谱。,FT,ln|.|,IFT,FT,x(n),X(ejw),c(n),加短时窗,Ln|H(ejw)|,ch(n),exp,|H(ejw)|,生物医学信号处理中倒谱的作用,时变数字滤波器h(n),x(n),u(n),根据倒谱中,幅值在0附近波动的特点,采用统计均值调制的方法,在倒谱域中嵌入水印,具有良好的不可感知和鲁棒性。,音频水印,可疑艺术品,不可见地隐藏其中!,含水印艺术品,可见水印,不可见水印,五、LPC复倒谱,六、MEL频率倒谱参数(MFCC mel-frequency cepstral coefficients),Mel频率倒谱参数(MFCC),着眼于人耳的听觉特性。人耳所听到的声音的高低与声音的频率并不成线性正比关系,而Mel频率尺度则更符合人耳的听觉特性。Mel(f)=2595lg(1+f/700)类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组。,1.Mel频率尺度,线性频率f,Mel频率Mel(f),Mel频率带宽随频率的增长而变化,在1000Hz以下,大致呈线性分布,带宽为100Hz左右,在1000Hz以上呈对数增长。将频谱通过24个三角滤波器,其中中心频率在1000Hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000Hz以下为线性分布,1000Hz以上为等比数列分布。,2.Mel频率带宽的划分,ml,ml,ml,Mel频率尺度,f,f,C(l)=h(l-1)=o(l+1),l,l-1,l+1,(1)三角滤波器的输出则为此频率带宽内所有信号幅度谱加权和。,3.求MFCC的方法,l=1,2,.,24,(2)对所有滤波器输出作对数运算,l=1,2,.,24,(3)作离散余弦变换(DCT)得到Mel频率倒谱参数(MFCC)。,i=1,2,.,P,P为MFCC参数的阶数,取P12。,DFT,三角滤波器组,ln(.),x(n),X(k),DCT,MFCC,Y(l),求MFCC的过程,4.MFCC的应用,现有语音识别系统采用的最主要的两种语音特征包括:(1)线性预测倒谱参数(2)MFCC参数,预处理,模型库,特征提取,后处理,测度估计,语音识别系统框图,输入,输出,THANKS,