欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    语音数据与语音合成课件.ppt

    • 资源ID:1490995       资源大小:5.83MB        全文页数:45页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    语音数据与语音合成课件.ppt

    语音合成技术,什么叫语音合成Text To Speech过程,简称TTS作用:将文本状态的文字信息转化为可听的声音信息“电脑会说话”,发声机理,语音产生的生理过程,总纲,1 . 数字语音信号2 . 语音合成技术3 . 数据制作与合成4 . 合成效果测听,数字语音信号,什么是数字语音信号语音:说话,声波传递的语言语音信号:记录下来的声波振动模拟语音信号: (磁带,唱片)数字语音信号:模拟信号数字化 (wav mp3 CD)- 计算机应用的需要如何数字化取样:采样率(时间尺子,8K,16K,44K,每秒样点数量)量化:量化精度(幅度尺子,16bit,-3276732768范围),数字语音信号,取样和量化,数字语音信号,波形不能说明内容,数字语音信号,频域介绍一段任意波形可以由一系列正弦波形组合而成离散傅里叶变换数学表示:最高值,采样率的一半(16K wav;max freq = 8K Hz)人可听辨的频率范围: (20Hz 20kHz)电话语音信道的频率范围(60Hz 3400Hz),数字语音信号,语谱图,数字语音信号,清音和浊音浊音:声带的快速振动,声带能够将稳定气流转换成振动振动频率称为基频,准周期性清音:紊乱气流,肺部气流通过声道中的狭窄处产生爆破音:突然爆破,数字语音信号,声学特征如此杂乱多变的信号,如何描述,如何恢复?语音信号产生的数字模型(源-滤波器模型),数字语音信号,声学特征基频:发浊音时声带振动引起的周期变化,我们听感音调高低主要由基频决定,中文声调还用于区分语义谱参数:描述声道和口唇辐射共振峰,LPC,倒谱参数,总纲,1 . 数字语音信号2 . 语音合成技术3 . 数据标注与合成4 . 合成效果测听,语音合成技术,主流技术路线基于统计规则的大语料库拼接语音合成系统基于HMM的参数语音合成系统基于HMM的语料库拼接语音合成系统两条道路:要么是波形切分再拼合起来,要么是声学参数转化出来,语音合成技术,基于统计规则的大语料库拼接语音合成系统传统大语料库合成, InterPhonic 5.0之前单元挑选波形拼接超大规模音库制作语料设计,音库录制,精细切分,韵律标注规则统计,针对不同发音人的细致调整优点:音质最佳,正常句子的自然度也很好缺点:非常依赖音库的规模大小和制作质量,存在一定稳定性问题,不能应用在小型设备中样例:,输入文本,拼音信息和韵律结构信息,每个单元将取多个候选s1 s2 s3 s4,目标代价挑选候选单元,词典等文本分析知识,大规模语音库,再考虑连接代价决定最后选定单元s1 s2 s3 s4 s5 s6,输出语音,语音合成技术,InterPhonic系统处理流程,语音合成技术,基于HMM的参数语音合成系统首先进行语音特征参数的提取以音素为单位(中文为声韵母),使用HMM (Hidden Markov Model)对自然语流的频谱特征参数进行建模采用基于决策树的聚类方法对上下文相关模型进行聚类,以提高模型的鲁棒性,得到预测参数最后生成参数输入合成器,得到合成语音优点:所需音库规模小,标注精度要求相对降低,自然度高,系统小,灵活度高,ViviVoice,AiSound缺点:音质相对较差,带有合成器风格样例:,语音合成技术,参数语音合成系统框架,语音合成技术,HMM参数建模用声学参数针对音素建模为什么要建模?描述的音素特征变化隐马尔科夫模型( Hidden Markov Model - HMM ),语音合成技术,决策树模型聚类有了模型怎么使用?来一句话怎么预知用哪个模型?基于上下文的信息的决策树聚类,语音合成技术,基于HMM的语料库拼接语音合成系统利用HMM目标模型和连接模型来指导单元挑选结合参数训练模型的数学统计模型优势和波形拼接的高音质,相对以前的大语料库技术在自然度上有较大提升自主原发,意义重大优点:拥有明确目标和度量准则,音质好,自然度高,系统搭建自动化程度高,InterPhonic 5.5以上版本缺点:仍然需要很大规模的语料库,计算量较大样例:,语音合成技术,基于HMM的单元挑选系统结构图,总纲,1 . 数字语音信号2 . 语音合成技术3 . 数据制作与合成4 . 合成效果测听,数据制作与合成,数据与合成的关系音库数据是合成系统的基石,离开了音库谈合成就是“无源之水 无本之木”一份音库的制作质量,直接决定了该发音人合成系统的能达到什么效果,数据制作与合成,数据制作过程音库设计音库录制音素切分韵律标注音素检错基频修正索引制作,数据制作与合成,音库设计与合成一个设计良好的音库要有较好的音素,韵律覆盖率广泛的语料来源,保证超大规模库的稳定某方向定制语料,提升某特应用场合的效果,对语料库拼接技术很重要“还烦请大家收集更多更好的语料文本”,数据制作与合成,音库录制与合成录音控制很重要录音室环境,隔除噪音话筒的摆放,能量幅度范围如何保持发音人的发音状态轻松心态,自然流程,不要带情绪,除非这是情感库适度原则,不要疲劳录音,宁缺勿滥批次比对,及时与之前数据做比对,可加入重复句“还请大家多关注录音质量”,数据制作与合成,音素切分与合成切分精度精切:大语料库拼接标准,周期下降沿粗切:参数合成与HMM拼接,模型具有一定内部切分调整能力粗切不代表切分不重要,好的初始位置能帮助模型自切。电脑未必比人聪明,清浊好定,浊浊也难定,还需修正停顿位置什么地方有Sp,silv,pau?标准L3层以上边界,30ms以上计算机才能使用如果本来有停顿却没有加silv,停顿段会影响前后音素单元质量一些录音缺陷也可塞给停顿位置,鼻息,口水音合成样例:The*psychotropic*airplanes#underwrote*the*dispassionate*song。,数据制作与合成,音素切分与合成音变处理连续语流总存在一些规则音变或者不规则音变,导致所读不是原来词典音素音素是身份牌,这个错了后果很严重!修改标准:尊重录音中文:声调变化,儿化,轻读。没被改过的音变就是地雷英文:连读,吞音,弱化,缩写词吞音标准:有无音位,或者我去掉这个读有无差别英文音素短,不是母语,更需小心“还请大家切音时多细心”,数据制作与合成,韵律标注与合成韵律标注是音素的档案,据此来分门别类,听候取用良好的韵律标注帮助我们构建正确有效的统计预测结构,上下文韵律决策树如果韵律标注是错误的,连锁毁灭性破坏韵律标错 - 聚类分错 - 模型建错 - 预测走错 - 参数找错 - 挑选看错 - 合成出错 -客户很生气- game over,数据制作与合成,韵律标注与合成中文韵律:调型,停顿层次(L0 L1 L2 L3 L4 L5)英文韵律:ToBI ( Tone and Break Index)停顿层次: Tone Break边界调: Phrase Tone重读: Pitch Accent,数据制作与合成,韵律标注与合成标注不同对合成的影响实例重读 But*I*did*not(H*)*enjoy*it*long。边界调 Now*run*along(L-H%),and*tell*them*to*hurry。,数据制作与合成,韵律标注与合成一致性!一致性非常重要,统一标准面对模棱两可的地方,如何取舍?个人尊重大家意见新人咨询资深意见多讨论,多比对对新录库可以按批次做一致性检查“还请大家细致统一的标注韵律”,数据制作与合成,音素检错与基频修正评测会给数据打分纠错,合成也需要挑出音库中可能存在的地雷检错种类:浊浊修正调型修正音素修正基频修正特点:直接锁定位置判断,规律性强“还请大家多反馈检错时的规律总结”,数据制作与合成,索引制作与合成音库索引将音库韵律和参数信息整理保存合成需要从索引中提取数据,拼接合成在系统挑选时还需要直接使用索引较为固定,但一旦出错不易更改某个词性错位问题遗留很久才被发现(技术人员的错误)“制库工作很繁琐,烦劳大家了”,总纲,1 . 数字语音信号2 . 语音合成技术3 . 数据制作与合成4 . 合成效果测听,合成效果测听,测听与合成效果测听是评判合成系统好坏的硬性指标常用测听项目音质自然度相似度主观打分标准,(mean opinion score, MOS),合成效果测听,测听与合成音质测听注意事项对音质由技术路线主导,但敏感度因人而异,主观好恶16K原始录音音质可打5分16k原始分析合成可到4分波形拼接合成音质可超4分参数合成系统音质在3分附近尽量减少自然度上的错误对音质打分的影响一般测听要求黑盒:防止惯性打分0.5分间隔:提高一致性测听数量不能少,要有覆盖率和代表性一只好耳机,包住耳朵,提高音量其实,5分很高,2分很低,合成效果测听,测听与合成自然度测听注意事项同样是主观打分,个人标准看待说话人原始录音也只能接近5分参数合成较为流畅,相对平淡拼接合成存在不稳定性,波动较大自然度测听强调对不自然处的扣分同样尽量减少不同音质对自然度打分的影响一般测听要求黑盒:防止惯性打分0.5分间隔:提高一致性保证一定数据量,如果数量很多,可以分批测听5分太高,2分很丢人,合成效果测听,测听与合成相似度测听注意事项一般会提供目标人的录音作参照重点考察音色,兼顾基频,时长,口音一般测听要求黑盒不重要0.5分间隔:提高一致性,合成效果测听,测听与合成偏向性测听注意事项在两个较为接近的效果中取舍测听要求一定要黑盒!可以用黑盒工具,固定0, 1打分偏向性选择只能选一个在特别说明时,对难以区分的,可以同时选或不选,合成效果测听,测听与合成外教测听注意事项对外语种合成效果测听,native人士的感觉很重要一般只对整体感觉打分,综合音质自然度测听要求多交流说明我们的目的对关注的问题需要直接沟通控制测听时间和数量,保证测听质量,合成效果测听,测听与合成一句话总结“还请大家用灵巧的耳朵和聪慧的心灵帮助我们对每一句合成语音做出客观,细致,有代表性的评判”,谢谢!欢 迎 提 问,Thank you,拯畏怖汾关炉烹霉躲渠早膘岸缅兰辆坐蔬光膊列板哮瞥疹傻俘源拯割宜跟三叉神经痛-治疗三叉神经痛-治疗,拯畏怖汾关炉烹霉躲渠早膘岸缅兰辆坐蔬光膊列板哮瞥疹傻俘源拯割宜跟三叉神经痛-治疗三叉神经痛-治疗,

    注意事项

    本文(语音数据与语音合成课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开