欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    【教学课件】第三讲语音合成概述.ppt

    • 资源ID:5661290       资源大小:1.09MB        全文页数:31页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    【教学课件】第三讲语音合成概述.ppt

    第三讲 语音合成概述,背景目标基本问题技术历程典型系统,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,背景,计算机的普及人机自然语言交互语音合成在人机交互系统中的作用语音合成的其它应用,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,目标,“让计算机像人一样说话”从文字到语音TTS(Text-To-Speech)从概念到语音CTS(Concept-To-Speech)从意念到语音ITS(Intention-To-Speech)现阶段-TTS前瞻性-CTS等待时机-ITS,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,基本问题,原因从语音到文字的信息缺失从文字到语音(TTS)从文字到发音描述发什么音如何发音从发音描述到语音合成,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,技术历程,1937,Voder,Bell Lab.,H.Dudly1962,级联共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F.Charpentier2000s,Unit-selection,N.Campbell&A.Black,技术历程,1937,Voder,Bell Lab.,H.Dudly1962,级联共振峰,KTH,G.Fant1970s,混合共振峰,MIT,D.Klatt1986,PSOLA,F.Charpentier2000s,Unit-selection,N.Campbell&A.Black,音色,孤立音段音色,孤立音段音色,孤立词音色、韵律,语句韵律,语句,第三讲 语音合成概述,背景目标基本问题技术历程典型系统,典型系统,基于单元挑选的TTS系统构成(韵律导向)两个模块前端:文本处理,从文字到发音描述后端:语音处理,从发音描述到语音合成一个接口,发音描述数据库,合成单元,典型系统,例:北京交通大学成立于1896年。Text Normalization:北京交通大学成立于1896年,典型系统,例:北京交通大学成立于1896年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t),POS(Part Of Speech),典型系统,例:北京交通大学成立于1896年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)Prosodic Event:OutPut PWord Layer:北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tOutPut PPhrase Layer:#北京交通大学#成立于#一八九六年OutPut IPhrase Layer:#北京交通大学成立于一八九六年OutPut Sentence Layer:#北京交通大学成立于一八九六年,典型系统,例:北京交通大学成立于1896年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr)交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)Prosodic Event:OutPut PWord Layer:北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tPhonetizer:北 bei3 京 jing1(BL:北京)交 jiao1(BL:交通)通 tong1(BL:交通)大 da4(BL:大学)学 xue2(BL:大学)成 cheng2(BL:成立)立 li4(BL:成立)于 yu2(BL:于)一 yi1(BL:一八九六年)八 ba1(BL:一八九六年)九 jiu3(BL:一八九六年)六 liu4(BL:一八九六年)年 nian2(BL:一八九六年),典型系统,例:北京交通大学成立于1896年。Interface:2 1 2%0 0 2%0 ng 2%0 ng 2%0 ng 2%0 0 0 2%0 vg_pg 2%0 0 0 2%0 t 2%0 0 1 2,典型系统,例:北京交通大学成立于1896年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)GMM(jiao1)GMM(tong1)GMM(da4)GMM(xue2)GMM(cheng2)GMM(li4)GMM(yu2)GMM(yi1)GMM(ba1)GMM(jiu3)GMM(liu4)GMM(nian4)Segment Acoustic Predictor:occ(bei3)occ(jing1)occ(jiao1)occ(tong1)occ(da4)occ(xue2)occ(cheng2)occ(li4)occ(yu2)occ(yi1)occ(ba1)occ(jiu3)occ(liu4)occ(nian4),典型系统,例:北京交通大学成立于1896年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)Segment Acoustic Predictor:occ(bei3)occ(jing1)Unit Selection:argmin cost(sam(bei3),sam(jing1),sam(jiao1),)Corpus:bei3 jing1,典型系统,例:北京交通大学成立于1896年。Prosodic Acoustic Predictor:GMM(bei3)GMM(jing1)Segment Acoustic Predictor:occ(bei3)occ(jing1)Unit Selection:argmin cost(sam(bei3),sam(jing1),sam(jiao1),)Corpus:bei3 jing1Speech Synthesizer:北京交通大学成立于1896年。,后续题目,基础知识韵律原理分析关键技术数据库构建文本处理声学建模最优搜索/合成器相关研究音色调整/转换HMM合成器挑战,基于数据驱动的韵律建模,Two trainable components:based on an annotated corpusProsodic event predictorProsodic parameter predictor,韵律功能,Prosody structureEx.1,已经取得文凭的和尚未取得文凭的干部Ex.2,顺天府秋捐归您啦,八旗兵丁一年的赏讨下来了。Ex.3,政协十届一次会议主席团常务主席会议审议通过了政协十届一次会议提案审查委员会关于政协十届一次会议提案审查情况的报告草案(58)IntonationEx.4,明天是个晴天,最高气温.(flat)Ex.5,明天是个晴天!我们可以.(glad)Ex.6,明天是个晴天?(interrogative)AccentEx.7,明天是个晴天 vs.明天是个晴天MoodEx.8,明天是个晴天 glad vs.明天是个晴天 sadprosody is not all for mood,timbre is changed also,韵律的声学实现,In acoustic,prosody is presented as the variances ofpitchdurationintensitypause,韵律描述,C-ToBI defined1st,prosody structure知觉判断等级与韵律层级结构对应 coming,accent index,汉语韵律层次,韵律结构标注,按照语调短语、中间短语、音步/韵律词三个韵律层级,描述每段发音。语调短语(intonational phrase):具有完整的语调,听感上可独立成句的一段发音音步(foot):节奏的基本单位,一般由两个或三个音节构成,少数为单音节。韵律词(prosodic word):所有的句法词具有类似词的连调模式和词重音模式、较短的词组其它凡是属于一个音步的结构跨度为1-4个音节,极大多数为2-3个音节,少数为单音节和四音节结构。中间短语(intermediate phrase):介于语调短语和韵律词之间的节奏单元由一个或多个韵律词构成中间短语之间可能存在嵌套结构,韵律标注,依据听觉进行边界类型的判断,并辅助以特定类型处理的约定听觉判决所依据的线索基频重置,边界末音节展延,停顿,节奏的变化需从全局的、层级的角度考察每段发音标注符号BP2:用以界定语调短语边界BP1:用以界定中间短语边界BP0:用以界定有明显停顿的音步/韵律词间的边界空格:用以界定音步/韵律词边界*:用以界定韵律词内的音步边界特定类型约定位于短语边界的、听感上轻读的、作为短语间过渡的虚词,倾向于划归后一短语BP0为音步边界,且具有明显的停、顿,倾向于从严标出,一个韵律结构标注的例子,S1编者 按(BP2)世界上(BP1)有些事 是 相似的(BP2)甚至(BP0)惊人地 相似S2编者 按(BP2)世界上 有些事(BP1)是 相似的(BP2)甚至(BP0)惊人地 相似Problem of consistencytrainingacceptable,韵律的深层次标注,Accent IndexWhat is AI Sample 催眠师有相当的威望体现语义上的着重和聚焦的一种韵律特征Domains:word level:lexical stresssentence level:prominence,focus,emphasis,accentedWhy is AI neededmore smooth voicemore expressive synthesis voiceAI acoustic realizationrelativity:relative accented/unaccenteduniversal:integrateAI prosody functionNew topicFocusStress pattern(技术/计数),AI初步实验,accent index automatically detectingbased on the hierarchically prosodic structureprosodic approximation-ratio of the syllable as the indicator,ref.to Xu Yis workprosodic parameters predicted with AI Samples 催眠师有相当的威望,课程报告4 语音合成综述及专题,阅读现代语音技术-基础与应用第五章,蔡莲红等编著,清华大学出版社,2003王仁华:“语音合成技术最新研究进展及其应用展望”初敏 Interspeech,ieee ssw,icassp,speech prosody在线演示科大讯飞 http:/捷通华声 http:/报告一,综述报告(提交:3-31)思考文语转换系统的任务基于数据库的文语转换系统的实现模块要求:参考文献3篇以上,相关分析注明出处报告二,专题报告(提交:4-14)四个专题选一:数据库、文本分析、韵律模型、波形拼接/合成器具体算法篇幅要求:2页(5号字)文件命名:学号_姓名_报告名称,

    注意事项

    本文(【教学课件】第三讲语音合成概述.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开