欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    音识别之MFCC特征提取.ppt

    • 资源ID:5888299       资源大小:8.43MB        全文页数:34页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    音识别之MFCC特征提取.ppt

    语音识别之MFCC特征提取,报告人:汤旭国学号:1130349093,8/29/2023,语音识别应用,预处理模块:对输入的原始语音信号进行处理滤除掉不重要的信息及背景噪声语音分帧(近似认为语音信号在10-30ms内是短时平稳的)预加重(提升高频部分)等处理,特征提取:去除语音信号中对于语音识别无用的冗余信息保留反映语音本质特征的信息 即提取出反映语音信号特征的关键特征参数形成特征矢量 序列,以便用于后续处理,声学模型训练:根据训练语音库的特征参数训练出声学模型参数 在识别时可以将待识别的语音的特征参数同声学模型进行匹配,得到识别结果。,语言模型训练:语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的情况下预测下一个即将出现的词语的内容。,语音解码和搜索算法:针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,语音是怎么产生,人通过改变声道的shape发出的不同声音。声道的shape包括舌头,牙齿等。我们可以分析不同声道产生的语音短时功率谱的包络识别语音 MFCCs(Mel Frequency Cepstral Coefficents)是一种能准确描述这个包络的特征,在语音识别人工特征方面,可谓是一枝独秀,主要的几个概念声谱图(Spectrogram)倒谱分析(Cepstrum Analysis)Mel频率分析(Mel-Frequency Analysis)梅尔倒频谱系数(Mel-Frequency Cepstral Coefficients),一、声谱图(Spectrogram),FFT FFT FFT,一、声谱图(Spectrogram),一、声谱图(Spectrogram),一、声谱图(Spectrogram),一、声谱图(Spectrogram),一、声谱图(Spectrogram),一、声谱图(Spectrogram),一、声谱图(Spectrogram),一、声谱图(Spectrogram),一、声谱图(Spectrogram),二、Cepstrum Analysis,峰值表示语音的主要频率成分,我们把这些峰值称为共振峰(formants)共振峰携带了声音的辨识属性(就是个人身份证一样,所以它特别重要)。用它就可以识别不同的声音。如何提取?,二、Cepstrum Analysis,语音信号序列时域:x(n)=h(n)*e(n)频域:X(K)=H(K)E(K)为了较好地将语音信号中的激励信号和声道响应分离倒谱:log|Xk|=log|Hk|+log|Ek|,二、Cepstrum Analysis,慢变化的包络快变化的周期化细致结构,二、Cepstrum Analysis,我们需要把这两部分分离开-卷积同态系统,二、Cepstrum Analysis,二、Cepstrum Analysis,二、Cepstrum Analysis,Mel-Frequency Analysis,现在给我们一段语音,我们可以得到它的频谱包络(连接所有共振峰值点的平滑曲线)理论我们可以得到特征向量,但是,Mel-Frequency Analysis,人类听觉感知的实验表明:听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,人耳就像一个滤波器组这些滤波器在频率坐标轴上不是统一分布的 在低频区域,分布密集 在高频区域,分布稀疏 如果在语音识别系统中能模拟人类听觉感知处理特点,就有可能提高语音的识别率,Mel-Frequency Analysis,梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)考虑了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中。,提取特征流程图,至此,特征向量提取完毕,这样就可以通过这些倒谱向量对语音分类器进行训练和识别主要参考资料:现代信号处理讲义http:/,谢谢!,

    注意事项

    本文(音识别之MFCC特征提取.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开