《语音人机交互》PPT课件.ppt
《《语音人机交互》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《语音人机交互》PPT课件.ppt(30页珍藏版)》请在三一办公上搜索。
1、第4章 人机主要交互技术(新一代人机交互技术),应用程序,语音合成,语音输入,语音输出,语音人机交互,语音识别,自然语言处理,自然语言生成,交互管理,语音合成,语音合成技术是使电脑或通信终端具有类似于人一样的说话能力的一项技术让机器说话可以通过录音/重放,或语音合成实现文语转换是语音合成的一种应用形式文语转换是连续语音识别的逆过程,孤立词/音段阶段,注重音色(音质,音品)语音合成的最早研究始于1779年Kratzen sten的研究他用一些材料制成具有各种特殊形状的共鸣腔,目的是研究如何用管形器官模型来模拟5个单元音 A、E、I、0、U1791年,Von Kempelen制成了一种能说话的机器
2、1939年,BELL LAB的H.Dudley应用共振峰原理制作了第一个电子合成器VODER(VOice DEmonstratoR).20世纪70年代,线性预测技术用于语音合成语句阶段,注重韵律1980年,MIT的D.Klatt设计制造了著名的共振峰语音合成器1986年,E.Moulines和F.Charpentier提出了基于时域波形修改的语音合成算法PSOLA2000s,Unit-selection,N.Campbell&A.Black,国外语音合成的发展,按照人类语言功能的不同层次,语音合成可分为三个层次:(1)从文字到语音的合成(Text-to-Speech)(2)从概念到语音的合成(
3、Concept-to-Speech)(3)从意向到语音的合成(Intention-to-Speech),语音合成的层次,文本,文本分析,输出语音,语音合成,语音库,韵律分析,字典/词库分词规则,文语转换系统组成,多音字库儿化音库,语音合成技术,语言学处理规则,协同发音/韵律规则,语音合成系统的三个主要组成部分:文本分析模块韵律分析模块语音生成模块,文本分析主要功能使计算机从这些文本中能够认识文字,从而知道要发什么音、怎么发音(声调),并将发音的方式告诉计算机,另外还要让计算机知道文本中,哪些是词,哪些是短语、句子,发音时到哪应该停顿,停顿多长等等,文本规整,多音字处理,声调判定,特殊声调调整,
4、特殊符号,停顿处理,语音处理,自动分词,系统词库,多音字词库,变调规则库,特殊声调规则,文本分析的任务,(1)文本规整将输入的文本规范化。在这个过程中,要查找拼写错误,处理缩略语与外文字词等,同时分析文本中出现的数字、特殊字符、专有词语,并将文本中出现的一些不规范或无法发音的字符过滤掉。(2)词的切分和词法分析分析文本中词或短语的边界,确定文字的读音,以及各种多音字的读音方式。,文本分析的主要工作步骤,(3)语法和语义分析根据文本的结构、组成和不同位置上出现的标点符号,确定语气的变换以及不同音的轻重方式,即语言学处理。确定停顿位置,长短,语调升降,语法重音等(4)输出文本分析模块将输入的文字转
5、换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。,文本分析的主要工作步骤,文本分析的主要方法/词的切分方法(1)基于规则的方法(2)基于统计的方法(3)人工神经网络的方法,基于规则(Rule-based)的方法正向最大匹配法、反向最大匹配法、逐词遍历法最佳匹配法、二次扫描法等等。,基于规则方法的特点优点:结构较为简单、直观,易于实现。缺点:需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的相应的背景知识。应用:这些方法能够取得较好的分析效果,直到目前,这些方法依然被广泛的使用。,基于统计与人工神经网络的方法(连续语音识别的逆过程,语言模型部分)基
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音人机交互 语音 人机交互 PPT 课件

链接地址:https://www.31ppt.com/p-5606805.html