《语音信号处理》PPT课件.ppt
《《语音信号处理》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音信号处理》PPT课件.ppt(177页珍藏版)》请在三一办公上搜索。
1、1,语音信号处理,院定选修课 学时:32学分:2信号信息处理的重要研究方向,2,第一章 绪 论,研究对象 语音:语言的声学表现。由人的发音器官发出的、具有一定语法和意义的声音。重要性:最重要、最有效、最常用、最方便的信息交换手段。“四会”语音信号处理:用数字信号处理技术对语音信号进行处理。新兴、综合性、交叉学科;涉及到语言学、声学、认知学、心理学。信号与信息处理的重要组成部分热门学科,存在大量机遇,3,研究内容包括:,语音编码压缩语音合成计算机讲话读文章语音识别口授打字机等,翻译关键词识别语音增强说话人识别“声纹”身份识别。,4,教学内容与目标:课程内容:基本概念的建立;各种理论和算法介绍。教
2、学目标:对语音信号处理有基本了解,为以后的研究工作做储备。,5,发展概况:39年的声码器用于通讯40年代后期的语谱仪60年代的数字模型70年代的LPC80年代的VQ以及HMM90年代的神经元等新技术,6,第二章语音信号处理的基础知识,2.1 概述本章讨论内容 1、语音产生模型 线性模型 2、语音学基本内容 信息交流“发音传递感知”三个阶段 发音语音学 确定发音机理 声学语音学 信号分析理论解释语音现象 听觉语音学 认识感知的过程,7,2.2 语音产生的过程语音是具有一定意义的声音。经分析:欲表达选择词、语句控制肌肉运动振动空气形成语音波 与箫、唢呐比较,8,等效为激励源声道喇叭口,9,等效为激
3、励源声道喇叭口激励源:声带声带振动频率基频(基音频率)清音 声带不振动浊音 声带振动声道:可变谐振腔不同形状、不同音共振(谐振)频率,c为声速,L为声道长度,n为谐振频率的序号,分析认为,声道的谐振频率(设截面均匀):,10,共振峰 Fn的局部最大值,称为共振峰。与声道对应,反映语音的频率特性,是语音的主要特征之一。不同人不同,同一人发不同音时也不同。,第一共振峰F1,第二共振峰F2,第三共振峰F3,11,一般地:语音识别,取前3个共振峰,而对语音合成,需取5个,12,2.3 语音信号的特性,2.3.1 语言和语音的基本特性语言,特殊的声音,按一定规则排列声音的物理属性音质:基本特征音调:频率
4、音强:量、响度、幅度音长:声音的长短语音特有的属性音节:语音流的最小单位音素:语音的最小单位,音素构成音节感情:重音语调声调等,13,2.3.2 语音的时间波形和频谱特性看一段实际语音,放大,结论1:时间的连续函数、频率幅度随时间变化是随机的,14,元音 其中一段再放大,结论2:短时间内近似认为不变,结论3:元音是准周期函数(基频),基音周期,15,清音,结论4:清音为随机起伏,16,2.4 语音信号产生的数字模型,理想模型标准准确 但不可能,必近似、简化简单 最好用成熟的理论线性模型,线性系统,语音信号,脉冲序列,脉冲序列 激励源,线性系统 声道喇叭口,激励源 周期序列(浊音)/随机序列(清
5、音)线性系统 短时内不变,17,一个实用模型,P16 图212,激励模型 声道模型 辐射模型,18,小结语音的时间波形 连续、随机、短时性、基频、清/浊音、共振峰线性模型 激励 声道 辐射,19,2.4.1 激励模型根据前节分析,激励源在清、浊音时不同,分别讨论浊音有人测量知,声带振动产生斜三角型脉冲波,Tp为冲激脉冲的周期,声门波模型产生单个声门脉冲,将其表示为Z变换,有:冲激序列:E(z)浊音激励模型:U(z)=AVG(z)E(z),清音 随机白噪声,20,2.4.2 声道模型声音在声道的传播涉及到许多物理定律(能量守恒、流体力学),需简化。有不同的模型。1、声管模型“短时”间声道是一个形
6、状稳定的级联管道 声音在不同截面积 间传输会有反射,反射系数:km(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面积Km是声道的特性,确定Km,就确定了声道!,A1 A2 A3.,21,2、共振峰模型根据声道近似为谐振腔的特性,有另外模型模拟其共振峰。35个,(1)级联型用串联网络模拟声道。一般元音用全极点模型,转移函数:,G 幅值因子Ak 模型系数P 极点个数(阶数),P、ak 决定了声道地特性(人的特征),p越大越吻合。一般p=812,利用Z变换的知识,把H(z)分解为多个二阶极点网络的级联:,H1,H2,H3,Hp/2,22,(2)级联型用并联网络模拟声道。大部
7、分音用零极点模型,转移函数:,级联简单,可用于一般元音,一般35级并联复杂,可用于许多音,但Ai难控制,23,1)辐射+声门脉冲的作用合并在线性系统中2)时变参数:基频、开关、增益、参数3)“终端模拟”(听输出结果)验证有效4)模型可能要修正,2.4.3 辐射模型声道输出的速度波,经口唇变成声压 辐射效应研究得模型R(z)=R0(1 Z-1),2.4.4 完整的语音信号数字模型综上,激励声道辐射有V(z)=U(z)H(z)R(z),准周期脉冲序列发生器,随机序列发生器,线性时变系统,基音周期,系统参数,清/浊音控制,增益控制,语音信号,24,2.5 语音感知研究人对声音的感知,对语音编码识别很
8、重要MP3。对人的感知认识还有过程。研究发现:,听觉(主观感觉)与声波不完全一样,声音三要属(响度、音调、音色)在人听起来相互影响,且人的敏感度不同,分配不同bit。,听觉掩蔽效应,利用感知加权滤波器改善语音质量,25,第三章 语音信号的时域分析,3.1 概述 为甚分析与怎样分析1、通过分析,进一步了解、区别语音,提取少量参数描述语音,获得基音、开关、增益等模型参数2、分析方法:模型分析 LPC、共振峰等非模型分析 时域、频域、倒谱域等3、“短时分析技术”基本方法,帧,加窗4、必要时考虑时变性,用HMM,本章用短时分析技术,在时域提取基频、清浊、增益,26,3.2 语音信号的数字化和预处理3.
9、2.1 取样率与量化字长的选择1、抽样定理 抽样频率 8K、16K等2、量化误差 e(n)平稳、均匀分布,大小与量化 间隔、编码字长(最小8bit)有关3、量化信噪比 SNR与信号的峰值、量化字长有关 一般分析,字长为16bit,反混叠滤波器,抽样,量化,模拟信号x(t),离散信号x(n),抽样信号,27,3.2.2 预处理1、语音信号处理框图2、滤波器特性要求 使混叠失真足够小,阻带 66dB,用9阶椭圆滤波器 3、加重 减小动态范围 H(z)=1 uz-1 与滤波器同时实现,也有在AD后,28,3.3 短时能量分析1、“短时分析”本章一直在用。取一段的方法:加窗“分帧”,帧长与帧移:取的点
10、数为帧长,乘以采样周期得帧长时间,两帧间隔为帧移两帧一定有重叠,否则有参数突变!,信号x(n),窗函数w(n),加窗后为x(m)w(n-m),29,2、短时平均能量及含义根据前法,对加窗后的信号求解XX得短时XX短时平均能量:每取一个n,得到一个En。n的间隔为帧移。上式变形:,H(z),X2(n),En,30,3、窗口选择以上分析见,加窗为一滤波器取出一部分。同前,滤波器的特性影响结果。希望直角窗 1,0nN-1h(n)=0,其他,海明窗(Hamming)h(n)=0.54-0.46cos2npi/(N-1),0nN-1h(n)=0,其他,更优,旁瓣影响大,取不出细节,但谱平滑,既平滑又能快
11、速响应,31,4、窗口长度选择 取不同N,对h(n)求付氏变换知N大带宽窄(3-11),取En低频分量(直流),变换慢,N小En高频多,变化快,得不到平滑的值。长度要合适,1020mS,窗口形状、长度贯穿于全部短时分析,32,5、用途区分清音浊音 En大浊音区分有无声 大信噪比,En很小无声,6、短时平均幅度MnEn的不足运算量大 x2大小x(高低电平)对En影响不同,浊,33,3.4 短时过零分析时域最简单的方法1、平均过零数过零:相邻取样值改变符号过零数:过零次数平均过零数:在单位时间内累计过零数。,反映信号的频率,2、语音信号的短时平均过零数,式中:sgn(x)为符号函数,取值/1 x(
12、m)、x(m-1)是相邻取样值 w(n)为窗口函数,34,3、短时平均过零数的应用清音/浊音判断清音随机噪声,高频,浊音周期信号,低频,清,浊,35,(2)单词分割与有无声确定单词的起止点,对语音识别很重要,实验室得到的语音,36,3.5 短时相关分析信号分析的手段,相关 相似,匹配滤波器3.5.1 短时自相关函数确定信号,周期序列,自相关函数的性质周期Np,R(k)=R(-k),R(0)最大,R(0)为平均功率,短时自相关函数,hk(n)=w(n)w(n+k),hk(n-m),x(n)x(n-k)*hk(n),计算量 设w1(n)=w(-n),m1=m-n=m=m1+n 则:,计算自相关,先
13、乘后加,运算量大!,用来求基音周期!,37,3.5.2 修正的短时自相关函数1、存在的问题,随k的变化,参加运算的项减少。极限k=N-1时无运算项!,2、修正的短时自相关函数 两个不同长度的窗w1(n)【0N-1】与w2(n)【0N-1+K-k】Kk,当w1,w2为直角窗时(0kK),k=250,k=0,38,3.5.3 短时平均幅度差函数问题的提出:自相关计算量大,大在乘法!短时平均幅度差函数(AMDF)定义:,式中R为x(n)的平均值w1、w2同修正的自相关函数中的定义,对于浊音信号,在周期倍数点上,幅值相等,Fn0,39,第三章小结,采样与反混叠短时分析方法、窗口与长度选择短时能量定义短
14、时过零分析短时相关分析与修正短时平均幅度分析(AMDF),40,第四章 语音信号的短时傅立叶分析,4.1 概述傅立叶重要性,时域频域,信号的某些特性短时谱:分帧处理,4.2 短时傅立叶变换 4.2.1 短时傅立叶变换的定义 1、短时傅立叶变换 对于第n帧语音信号,xn(m)=x(m)w(n-m),可见 既是时间n的离散函数,又是角频率的连续函数,41,讨论:,n不变,记y(m)=xn(m),标准的傅立叶变换,(2)不变,记 l=,两者卷积,w(n)系统y(n)信号信号经过线性系统,据此:短时傅立叶变换有两层含义,2、离散的短时傅立叶变换 令=2k/N,在0 k N-1,42,用傅立叶变换解释窗
15、口与长度,4.2.2 标准傅立叶变换的解释n不同,得不同值。n不变,一个一般傅立叶变换,短时功率谱:,海明,直角,分辨率,衰减,共振峰,43,改写短时傅立叶表达式:,由时域特性:,因此,可见,短时谱为信号谱与窗口谱的卷积,受窗影响,(1)窗口形状的选择,若.内为冲激函数,则Xn(.)=X(.)同谱!比较矩形与海明窗主瓣,(2)窗口宽度的选择,f01=1/NT,T为采样周期。N大,f01接近0,W(.)类冲激函数!但N大,短时性差,要综合考虑!,44,P44图4-2与图4-3海明比较,N=500(上)与N=50(下),比较,45,4.2.3 滤波器的解释,与通信原理中的幅度调制比较,46,4.3
16、 短时傅立叶变换的取样率短时谱既是时间n的函数,又是频率 的函数二维即:每个n都有一个X()。为用计算机保存短时谱既要对取样,又要对n取样。,1、时域取样率(对n)固定Xn(.)是w(n)的输出,设w(n)带宽为BHz,则带宽为B,时域取样率 2B(点/秒),B的确定:由 的第一零点01确定,01=2/N N点对应的时间为NTs=N/fs 故模拟角频率01fs B=01fs/2=fs/N 对于直角窗,的时域取样率2B=2fs/N(直角窗),47,2、频域取样率当n固定时,Xn(.)是的周期函数。根据“傅立叶变换的离散性与周期性”(如图),,3、总取样率n固定时:L=N时域取样率:2B总取样率:
17、SR=2BL,两者关系如下图,对Xn()抽样后,为了时域不重叠,取:T1NTs即LN取等,共N点,T1=NTs,共L点,fs=Lf1,48,4.4 语音信号的短时综合由Xn()恢复x(n)的方法:滤波器组求和法/FFT求和法,1、单一频率k 已知 则:,hk(m),取样率:x(n)10KHzXn()也要10KHz?,否!w(m)为低通,故Xn()带宽远小于X()可降低采样率,综合:网络综合,49,2、L个频率 取样后,有L个频率点,每个频率点有一个yk(n)。根据线性系统的理论,总输出:,可以证明y(n)=x(n),50,4.5 语谱图 一种分析短时谱的仪器,Xn()是时间n,频率的函数,要用
18、三维显示。二维易显,三维?,n,Xn,早期用亮度,现有用图形,为实时,也有仍用亮度,声纹,51,第四章小结与作业,第四章小结 1、短时傅立叶变换定义及两层含义 2、窗口形状、长度对短时谱的影响 3、短时谱的取样率(n,w)4、短时综合 5、语谱图,52,第五章 语音信号的同态滤波及倒谱分析,5.1 概述 从模型看,激励系统,如何从语音信号中取出激励序列、声道冲击响应?,语音信号 激励与声道的卷积 解卷积,算法:“参数解卷”线性预测分析,“非参数解卷”同态滤波(同态信号处理)把求卷积 求和,倒谱分析:同态分析的结果称为倒谱,53,5.2 同态信号处理的基本原理 1、不同信号的处理方法 加性信号
19、线性关系、叠加原理,处理方法成熟,乘性信号 卷积信号 非线性关系,不能用叠加原理,处理困难,2、卷积同态系统,y(n)=Hx(n)=Hx1(n)*Hx2(n),*表示离散时间卷积运算,卷积同态系统模型,任何同态系统可表示为三个子系统的级联,D*,L*,D*-1,*,*,+,+,+,+,特征系统,线性系统,逆特征系统,54,特征系统D*把卷积转换为和,把非线性变为线性,逆特征系统D*1 把和转换为卷积,把线性变为非线性,线性系统L*真正需要的处理算法,可利用信号与系统中所学过的各种处理手段,满足叠加原理,Z,ln,Z-1,*,+,+,+,Z,exp,Z-1,+,*,+,+,55,3、同态滤波的基
20、本原理设有x(n)=x1(n)*x2(n)(1)D*Z-ln-Z-1,(2)D*-1 Z-exp-Z-1,Y1(z),Y2(z),名称?,56,5.3 复倒谱和倒谱 1、概念,是x(n)经特征系统后的值,是时域序列,是信号的频谱取对数的反变换。由于与x(n)的谱间的关系,给他起名:,复倒频谱,Complex Cepstrum Spectrum,2、DFT下的特征系统 DFT运算快,一般用DFT、IDFT代替z变换,(1)D*,(2)D*-1,x(n)的频谱,x(n)的对数频谱,x(n)的复倒谱,57,3、复倒谱的幅度与相位 同傅立叶变换,复倒谱有幅频特性、相频特性,复数计算量大,考虑人的听觉对
21、相位不敏感,为减少运算量,丢掉相位,4、倒谱,若c1(n)、c2(n)是x1(n)、x2(n)的倒谱,且x(n)=x1(n)*x2(n)有c(n)=c1(n)+c2(n),C(n)与x(n)一对多的关系,由c(n)不可还原x(n),因丢相位,58,5.4 语音信号两个卷积分量复倒谱的性质,从模型知,在时域语音为 声门序列*声道序列。用前述方法,分析这两个序列。复倒谱求解方法,声门激励信号,求x(n)的复倒谱,(1)求z变换,(2)取对数,用泰勒级数展开ln(),59,(3)求逆变换,式中,结论:声门激励信号的复倒谱是无限冲激序列,幅度变、周期不变,5.4.2 声道冲激响应序列,模型,实系数,值
22、小于1,零点、极点;园内、园外,60,求对数,展开为泰勒级数再求逆Z变换得:,(n=0),(n 0),(n 0),结论:(1)双边序列(2)衰减序列(3)集中在原点附近,据此,可以用低倒谱窗从x(n)的倒谱中取出声道特性的复倒谱。(分离声道、声门),推导过程见机械工业出版社赵力编的语音信号处理,61,5.5 避免相位卷绕的算法,1、什么是相位卷绕?,对于傅立叶的乘积,取对数后的振幅与相位,和,的值可能大于2,而计算只在02间,即:,主值,称为相位卷绕,2、对复倒谱的影响,计算 时,相位与实际相位差2k,不是实际相位。误!,3、对策,改进算法,避开相位求和!,62,5.5.1 微分法利用傅立叶变
23、换的微分特性与对数微分特性,来避开相位卷绕,由傅立叶变换的微分特性,若,则,由于,同理:,把ln(.)代入上式,可求的nx(n),避开了相位求和!,缺点:nx(n)比x(n)含更多的高频成分,用x(n)的采样率会带来频谱混叠!,63,6.5.2 最小相位信号法设有因果序列x(n),则可分解为奇和偶:,零极在Z平面单位园内,可见:通过xe(n)求x(n),结论:求x(n)变为求xe(n),64,由傅立叶变换的奇偶虚实性知:,65,5.6 语音信号复倒谱分析实例,加窗信号,傅氏幅值,傅氏相位主值,复倒谱,倒谱,声道的倒谱,高通:声门低通:声道,66,声道、声门序列估计 取出倒谱,经逆特征系统得到的
24、y(n),分析得到的声道幅频,分析得到的声道相频,声道冲激响应估值,声门序列估值,清音信号的例子,得共振峰,基音周期,X(n)复倒谱低倒谱窗 声道的复倒谱 逆特征 声道冲激 高倒谱窗 声门的复倒谱 逆特征 声门序列,67,第五章 小结,同态滤波作用,特征、逆特征系统复倒谱与倒谱声门序列、声道序列的复倒谱分析相位卷绕与避免方法,68,第六章 语音信号的线性预测分析,6.1 概述67年用于语音信号处理。核心技术/用于各方面/真正实用 能精确地估计语音参数,效率高,预测参数:LPC、PARCOR参数、LSP参数,基本概念:用过去的一组值估计(预测)新值,6.2 线性预测分析的基本原理 6.2.1 基
25、本原理,全极点模型,原因P70,设输出的语音信号为s(n)激励信号为u(n),则,过去P个值的加权求和预测,语音特征:Np、G、ai,这些系数如何求?,69,6.2.2 线性预测 怎样求ai?方法多样。其中一种:,若,则称c(n)为误差。,在最小均方误差准则下,可确定一组系数ai,称为线性预测系数(LPC)(Linear Predictive Coefficients),6.3 线性预测方程组的建立,1、线性预测系数求解,预测值,预测误差,显然,A(z)称为“逆滤波器”或“预测误差滤波器”,e(n)是随机序列,均方误差表示为集平均?时间平均?,令,求出一组系数ai,均方误差,70,2 线性预测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音信号处理 语音 信号 处理 PPT 课件
链接地址:https://www.31ppt.com/p-6500932.html