欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    语音识别基础.ppt

    • 资源ID:5667361       资源大小:242.04KB        全文页数:37页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    语音识别基础.ppt

    语音识别基础,上海交通大学计算机系吴亚栋E-mail:Tel:62932057,第三章 语音信号处理基础,第三章 语音信号处理基础,3.1 短时分析与窗函数3.2 时域分析3.3 频域分析3.4 倒谱域分析3.5 线性预测分析3.6 矢量量化法,3.1 短时分析与窗函数,3.1.1 语音信号的数字化*3.1.2 短时分析概要*3.1.3 几种典型窗口*,3.2 时域分析,3.2.1 平均能量、幅度及过零数*3.2.2 自相关函数与平均振幅差函数*3.2.3 时域分析在语音识别中的用途,3.3 频域分析,3.3.1 短时傅里叶变换(DFT)*3.3.2 DFT与快速傅里叶变换(FFT)*3.3.3 振幅谱和功率谱*,3.4 倒谱域分析,3.4.1 倒谱的概念*3.4.2 倒谱的分析流程*3.4.3 倒谱系数的求法*3.4.4 倒谱分析在语音识别中的用途*,3.5 线性预测分析,3.5.1 线性预测分析的概念*3.5.2 线性预测系数的求解*3.5.3 线性预测分析在语音识别中的用途*,3.6 矢量量化法,3.6.1 矢量量化的原理*3.6.2 码本设计*-LBG算法(2分割法)概要3.6.3 矢量量化在语音识别中的用途*,:提交时间:,第三章 回家作业,3.1.1 语音信号的数字化,频率,采样周期(T),xa(t):模拟波形,x(n)=x(nT):取样值,时间,振幅,采样:时间方向的离散化采样频率(S)采样定理量化:幅度方向的离散化,语音信号的短时平稳性语音信号的短时分析短时信号的切取 分帧 帧长 帧移,3.1.2 短时分析的概要,3.1.3 几种典型的窗函数,矩形窗:汉明窗(Hamming):哈宁窗(Hanning):,WR=,1=(0nN-1),0=(Other),WHM=,0.5-0.46cos(2n/(N-1)(0nN-1),0=(Other),WHN=,0.5-0.5cos(2n/(N-1)(0nN-1),0=(Other),3.2.1 短时平均能量、幅度及过零数,短时平均能量的定义:*短时平均幅度的定义:*短时平均过零数的定义:*,短时平均能量Ej的定义,N-1 E=x(n)2 n=0 x(n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。Elog(j)=10log10(1+Ej)Elog(j):语音信号的对数短时平均能量(分贝)。,j,j,j,短时平均幅度Mj的定义,N-1 M=x(n)n=0 x(n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。,j,j,j,短时平均过零数Zj的定义,N-1 Z=neg(x(n)x(n+1)n=0 x(n):原样本序列x(n)在j时刻起,由长度为N 的窗口w(n)所切取出的短时语音段。neg(x)=,j,j,0(x0),1(x0),静息、无声及有声语音的Ej和Zj的分布关系,静息语音,无声语音,有声语音,0 10 20 30 40 50 60 70 80,静息语音,无声语音,有声语音,0 10 20 30 40 50 60 70 80,(a)短时平均能能量(dB)(b)短时平均过零数(次/10ms),3.2.3 短时自相关函数与平均振幅函数,短时自相关函数*(Short-Time Auto-Correlation Function)短时平均幅度差函数*(Average Magnitude Differential Function),自相关函数与AMDF函数,N-1 R(m)=(x(n)x(n+m)/N(0mN-1)n=0 N-1 r(m)=|x(n)-x(n+m)|/L(0mN-1)n=0 N-1 L=|x(n)|n=0,j,j,j,j,j,3.3.1 短时傅里叶变换(DFT),(1)DFT(Discrete Fourier Transform),(2)IDFT,3.3.2 DFT与快速傅里叶变换(FFT),在使用算法时应注意:(1)时间窗要求采用两端衰减型的窗函数(2)数据长度要求满足:N=2,M,短时帧长:200,FFT帧长:256,补零,3.3.3 振幅谱和功率谱,(1)振幅谱|X(k)|,|X(k)|=R(X(k)+I(X(k),j,j,j,j,2,2,1/2,(2)功率谱 S(k),j,S(k)=|X(k)|/N,j,j,2,3.4.1 倒谱的概念,定义:倒谱定义为信号短时振幅谱的对数傅里叶反变换。特点:具有可近似地分离并能提取出频谱包络信息和细微结构信息的特点。,3.4.2 倒谱的分析流程,DFT,Log|,IDFT,DFT,峰值检测,A,倒谱窗(lifter),x(n),B,C,D,E,F,时间窗,A:短时信号;B:短时频谱;C:对数频谱;D:倒谱系数;E:对数频谱包络;F:基本周期,3.4.3 倒谱系数的求法,c(k)=log10|X(k)|exp(j2kn/N)/N,j,j,=log10|X(k)|cos(2kn/N)/N,(0nN-1),3.4.4 倒谱分析在语音识别中的用途,提取声道特征信息:提取频谱包络特征,以此作为描述音韵的特征参数而应用于语音识别。提取音源信息:提取基音特征,以此作为描述音韵特征的辅助参数而应用于语音识别。,3.5.1 线性预测分析的概念,概念:一个语音取样的现在值,可以用若干个语音取样的过去值的加权线性组合来逼近,在线性组合中的加权系数就称为线性预测系数(LPC:Linear Predictive Coding)。特点:利用LPC技术可以从语音信号中抽取出声道特性。,x(n)=-a1x(n-1)+a2x(n-2)+apx(n-p),j,j,j,j,3.5.2 线性预测系数的求解概要(1),(1)设ej(n)表示时刻n的预测误差:ej(n)=xj(n)-xj(n)=xj(n)+a1xj(n-1)+a2xj(n-2)+apxj(n-p)=aixj(n-i)(这里,a0=1.0。),3.5.2 线性预测系数的求解概要(2),(2)对在分析区内的N个语音取样值的预测误差分别取其平方,然后进行累加。即,计算预测误差的能量Ej:N-1 Ej=ej(n)2 n=0(3)给出使Ej为最小的条件,即,E,a,j,i,=0,(1ip),3.5.3 线性预测分析在语音识别中的用途,(1)基于LPC的频谱包络 S(k)=2/|aiexp(-j2ik/N)|2(2)基于倒谱的频谱包络,i=0,P,3.6.1 矢量量化原理(1),(1)标量量化 对语音信号的每个取样值,或语音信号的每个特征参数值分别独立地进行量化,称为标量量化(一维)。-标量量化与传输率-波形量化:采样频率为10kHz、振幅量化为16bit的语音信号的传输速率是:16x10000=160,000bit/s(bps)。-波形特征参数量化:对次数为10、每秒100个特征矢量(如频谱包络参数),如振幅量化也为16bit的话,其传输速率是:16x100 x10=16,000bit/s。,i=0,3.6.1 矢量量化原理(2),(1)矢量量化*将语音信号的取样值或语音的特征参数值分成若干组,每组构成一个矢量,然后分别对每个矢量进行量化。这种量化就称为矢量量化(N维)。-波形特征参数矢量量化:设L=1024(40种语音单位,每个对应25种变形),即为了指定码本中任意码矢需要10bit,则对每秒100个特征矢量的传输需率就为1,000bit/s。(2)矢量量化过程*,3.6.2 码本设计-LBG算法概要,(1)初始化(2)码本分割(3)码字更新(4)码矢更新(5)码本大小确认,3.6.3 VQ在语音识别中的用途,矢量量化示意图,1,2,3,4,码矢,No.,VQ(Vector Quantization),1 4 2,t,矢量量化过程,设:有限矢量集合Y=yi,1iL,Y称为码本,L是码本的大小,yi 称为码矢,码矢是N维矢量,即yi=(yi1,yi2,yiN)T。码本搜索:对输入矢量x进行VQ的过程,就是在码本中以某种方式进行搜索,寻找一个与x最接近的码矢之过程,即用该码矢去替代x。这里,所谓最接近,应按某种失真测度d(x,yi)为标准来衡量。I=argmin d(x,yi)i 码矢地址编码:为了传输量化后得到的码矢yi,一般都需要进行编码。通常,并不是直接对yi进行编码,而是对yi在码本中的地址或标号进行编码。要传送的正是这个标号的码字I。在接受到标号的码字后,就可在接受端的码本中找到相应的码矢,这便是重建码矢。对于L级码本来说,为了表示其中任意一个码矢的标号,最多只要log2L个bit的二进制代码就够了。,矢量量化过程,设:有限矢量集合Y=yi,1iL,Y称为码本,L是码本的大小,yi 称为码矢,码矢是N维矢量,即yi=(yi1,yi2,yiN)T。码本搜索:对输入矢量x进行VQ的过程,就是在码本中以某种方式进行搜索,寻找一个与x最接近的码矢之过程,即用该码矢去替代x。这里,所谓最接近,应按某种失真测度d(x,yi)为标准来衡量。I=argmin d(x,yi)i 码矢地址编码:为了传输量化后得到的码矢yi,一般都需要进行编码。通常,并不是直接对yi进行编码,而是对yi在码本中的地址或标号进行编码。要传送的正是这个标号的码字I。在接受到标号的码字后,就可在接受端的码本中找到相应的码矢,这便是重建码矢。对于L级码本来说,为了表示其中任意一个码矢的标号,最多只要log2L个bit的二进制代码就够了。,

    注意事项

    本文(语音识别基础.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开