欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPTX文档下载  

    第8章 深度学习在语音中的应用ppt课件.pptx

    • 资源ID:1429021       资源大小:4.58MB        全文页数:25页
    • 资源格式: PPTX        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第8章 深度学习在语音中的应用ppt课件.pptx

    ,高级大数据人才培养丛书之一,大数据挖掘技术与应用,刘鹏 主编 赵海峰 副主编,BIG DATA,刘 鹏 张 燕 总主编,深度学习,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,28,2,习题,8.1 语音识别基础,第八章 深度学习在语音中的应用,of,28,3,语音识别最基本的定义是“电脑能听懂人类说话的语句或命令,而做出相应的工作“。50多年来,该技术渐渐开始改变我们的生活和工作方式,这种趋势的出现和下面几个关键领域的进步是分不开的。,1从实验室环境到实际应用场景,语音识别系统可以用来消除人类之间的障碍。人们如果想要与不同语言的使用者进行交流,需要另一个人作为翻译才行。S2S翻译系统可以用来消除这种交流壁垒。同时还可以整合到像Skype这样的一些交流工具中。下图列举了一个典型的S2S翻译系统的心组成模块,可以看到,语音识别是整个流水线中的第一环。,第八章 深度学习在语音中的应用,of,28,4,8.1 语音识别基础-人类之间的交流,语音与语音(Speech-to-Speech, S2S)翻译系统,除止之外,语音识别技术还有其他形式用来帮助人类交流。1、消息发送者的语音信息可以通过语音转写子系统转换为文本信息。2、利用语音识别技术进行输入可以更便捷。提高用户使用友好性。,第八章 深度学习在语音中的应用,of,28,5,1.1 语音识别基础人机交流,人机 交流,智能家居系统允许用户使用语音与之交互,用户通过它们来播放音乐、询问信息或者控制系统。,在融合语音识别技术后,游戏的体验将得到很大的提升。例如,在一些微软Xbox的游戏中,玩家可以和卡通角色对话以询问信息或者发出指令。,用户可以直接通过语音来搜索餐馆、行驶路线和商品评价的信息。目前,语音搜索类应用在iPhone、Android手机上已经非常流行。,PDA知晓移动设备上的信息,了解一些常识,并记录了用户与系统的交互历史。有了这些信息,PDA可以更好地服务用户。比如,可以完成拨打电话、安排会议、回答问题和音乐搜索等工作。,第八章 深度学习在语音中的应用,of,28,6,8.1 语音识别基础基本结构,以上是语音识别系统的典型结构,语音识别系统主要由图中的四部分组成:信息处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。,第八章 深度学习在语音中的应用,of,28,7,8.1 语音识别基础特征提取,特征提取,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)感知线性预测系数(Perceptual Linear Prediction, PLP)保留Mel滤波器输出各维度之间相关性的滤波器组特征(Filter Bank Feature),原始模拟信号首先经录入器件转化为数字信号,声学特征提取部分负责从数字化后的语音中提取声学特征信息。为保证识别准确率,该特征应该对声学模型的建模单元具有较好的区分性。同时,为了能够高效的计算声学模型参数和进行解码识别,声学特征需要在尽量保留语音中文本信息的前提下,抑制诸如说话人、信道、环境噪声等干扰信息,并且维持一个适中的维度。提取良好的具有区分性的声学特征对提升语音识别系统的性能至关重要。,第八章 深度学习在语音中的应用,of,28,8,8.1 语音识别基础声学模型,声学模型,高斯混合模型-隐马尔可夫模型(GMM-HMM) 最大似然准则(Maximum Likelihood, ML)最小分类错误(MCE)和最小音素错误(MPE)上下文相关的深度神经网络隐马尔可夫模型(CD-DNN-HMM),关于声学模型,有两个主要问题,分别是特征向量序列的可变长和音频信号的丰富变化性。可变化特征向量序列的问题在学术上通常由动态时间规整方法和隐马尔可夫模型(HMM)方法来解决。音频信息的易变性是由说话人的各种复杂的特征(如性别、健康状况或紧张程度)交织,或是说话风格与速度、环境噪声、周围人声、信道扭曲(如麦克风音的差异)、方言差异、非母语口音引起的。一个成功的语音识别系统必须能够应付所有这类声音的变化因素。,第八章 深度学习在语音中的应用,of,28,9,8.1 语音识别基础语言模型,语言模型,语音识别系统的目的是把语音转换成文字。具体来说,是输入一段语音信号,要找一个文字序列(由词或文字组成),使得它与语音信号的匹配程度最高。这个匹配程度一般是用概率来表示。用学 表示语音信号, 表示文字序列,则要求解的是,表示给定文字后语音信号的概率,表示一个文字序列本身的概率,8.1语音识别基础解码器,第八章 深度学习在语音中的应用,of,28,10,解码器,解码器(Decoder)是语音识别中的又一重要环节,为了能够识别出语音信息中所包含的文本信息,我们需要结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的语言模型概率,利用解码器通过相关搜索算法分析出最有可能性的词序列 。,基于动态规划思想的维特比算法(Viterbi Algorithm) Beam裁剪算法高斯选择算法 语言模型前看算法,8.1语音识别基础GMM-HMM模型,第八章 深度学习在语音中的应用,of,28,11,传统的GMM-HMM中,一般使用连续高斯混合模型刻画产生观察状态的概率密度函数。GMM的许多优点使它很适合于在HMM的状态层面对输入数据建模。例如,在有足够多的混合成分时,GMM能够拟合任何一种概率分布:GMM模型参数的计算可以被并行化,从而高效实现训练。上图给出了利用GMM-HMM建模语音信号的示例,我们可以观测到语音信号中的特征矢量,具体该某一观测特征矢量是由哪一个HMM状态产生的我们就无从知道,需要通过训练数据建模从而估计出观测值生成概率。,8.1语音识别基础GMM-HMM模型,第八章 深度学习在语音中的应用,of,28,12,下面简明讲述GMM-HMM在语音识别上的原理,建模和测试过程。为了便于读者理解,以一个词的识别全过程作为例子。,1、将声波分割成等长的语音帧,对每个语音帧提取特征(例如,梅尔频率倒谱系数),2、对每个语音帧的特征进行GMM训练,得到每个语音帧frame(o_i)属于每个状态的概率,3、根据每个单词的HMM状态转移概率计算每个状态序列生成该语音帧的概率。 哪个词的HMM序列计算出来的概率最大,就判断这段语音属于该词),8.1语音识别基础GMM-HMM模型,第八章 深度学习在语音中的应用,of,28,13,GMM-HMM在语音识别中应用的系统框图,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,28,14,习题,8.2 DNN-HMM混合系统,第八章 深度学习在语音中的应用,of,28,15,在这个框架中,HMM用来描述语音信号的动态变化,而观察特征的概率则通过DNN来估计。在给定声学观察特征的条件下,我们用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率。除了DNN内在的鉴别性属性,DNN-HMM还有两个额外的好处:训练过程可以使用维特比算法,解码通常也非常高效。,8.2 CD-DNN-HMM系统,第八章 深度学习在语音中的应用,of,28,16,CD-DNN-HMM包含三个组成部分,一个深度神经网络 ,一个隐马尔可夫模型 ,以及一个状态先验概率分布 。由于CD-DNN-HMM系统和GMM-HMM系统共享音素绑定结构,训练CD-DNN-HMM的第一步就是使用训练数据训练一个GMM-HMM系统。因为DNN训练标注是由GMM-HMM系统采用维特比算法产生得到的,而且标注的质量会影响DNN系统的性能。因此,训练一个好的GMM-HMM系统作为初始模型就非常重要。,训练CD-DNN-HMM的主要步骤,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,28,17,习题,8.3 语音输入法案例背景,语音识别是指机器通过学习实现从语音信号到文字符号的理解过程,近几十年取得了很大的进展,并产生了一些实用的语音输入系统,如IBM的ViaVoice和微软的语音输入法。在国内科大讯飞、搜狗知音、百度语音识别是中国三大语音技术的佼佼者。,of,28,18,第八章 深度学习在语音中的应用,如果将现有的语音识别技术和已经发展的十分成熟的拼音输入法相结合起来,使用语音识别技术代替手工敲击键盘,使用成熟的拼音输入法进行组词和选词,将会很大地提高输入效率。如果语音识别出现错误,还可以使用键盘进行修改,同时针对性地对识别错误的词语进行再训练,提高识别率。,8.3 语音输入法语音输入法设计,of,28,19,第八章 深度学习在语音中的应用,语音输入法是基于C/S结构设计的。它有一个语音服务器,即语音中心SpeechCenter,负责从声卡采集数据进行语音识别,为各个输入法客户端提供识别结果(拼音)。输入法的客户端是由拼音输入法FreeVoice的实体构成的,在Windows里,每一个输入法实际上是一个动态链接库,当有用户程序需要使用输入法的时候,系统就会生成一个相应的实体。它们之间的通信是通过TCP/IP网络协议实现的,语音中心还可以以广播方式向每一个输入法实体发送信息。,1请简述为什么深度神经网络适合语音识别?2请画出传统的GMM-HMM语音识别系统框图?3请画出DNN-HMM语音识别系统框图?4请简述语音识别技术在国内外发展的现状?5详细研究科大讯飞语音输入法,请阐述其优缺点?,习题:,AIRack人工智能实验平台一站式的人工智能实验平台,DeepRack深度学习一体机开箱即用的AI科研平台,BDRack大数据实验平台一站式的大数据实训平台,云创公众号推荐,手机APP推荐,网站推荐,感谢聆听,

    注意事项

    本文(第8章 深度学习在语音中的应用ppt课件.pptx)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开