《SASR技术》PPT课件.ppt
《《SASR技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《SASR技术》PPT课件.ppt(81页珍藏版)》请在三一办公上搜索。
1、TTS&ASR技术,Agenda,语音合成技术概述TTS语音合成技术语音识别技术概述ASR语音识别技术语音处理的发展和趋势,语音合成定义,解决如何让机器象人说话的问题。其目的:能将任意文本实时地转换为自然语音输出,且输出的语音清晰可懂。,语音合成技术的应用,语音是信息传播的一大媒介。近年来,提供语音服务的语音系统迅速发展起来。传统的语音系统一般采用预录音回放技术,由于这种方法必须对信息文本事先进行录音,并存为声音文件,因此,所占用的存储空间很大。另外,一个更大的缺点是不能实时反映信息的更新,应用范围有很大的局限性。,录音wav,回放,传统的语音系统,语音压缩编码,输入语音,恢复语音,现在的语音
2、合成技术,无需对大量的信息进行录音,极大地减少了工作量和节省了存储空间,尤其是在信息内容需要经常变动的动态查询场合,如股市行情查询、有声Email系统,都是传统的预录音技术无法代劳的。结合其他技术,语音合成技术可以广泛应用于金融、邮电、工商、政府机关、交通、教育、游戏等领域。,几个语音合成技术的应用实例,1.电话查询系统 工商信息电话查询系统、银行电话查询系统、股票查询系统、交通信息查询系统、考试成绩查询系统等。,2.教育与娱乐软件,普通话教学软件是帮助想学普通话的用户,以往的普通话教学软件只是将预先录好音的单词逐个读给用户听,有了语音合成技术,可以将任意文本中的整句话、整段话读给用户听,学习
3、效率明显提高。,现在计算机游戏中的人物,或者不会说话,或者只会“播放”已经录好的声音。利用语音合成,游戏中的人物可以说出任意的话语,不同的人物可以通过选用不同的音库而形成不同的说话风格。增加了游戏的趣味性和互动性,3、游戏软件,1.语音信号的波形合成(录音合成技术)采用数字存储技术存储基本的语音信息。在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,生成高自然度的语句,这就是波形拼接的语音合成方法。为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。,语音合成技术方法,录音wav,回放,语音压缩编码,直接录放流程,语音库(语音单元)语音的波形编码,输入语音,挑选组合,回放,合
4、成语音,波形合成方法,2.语音信号的参数合成,根据语音产生的数学模型,利用短时平稳性,提出每帧语音信号的参数,这些参数经编码后组成一个语音参数库。输出时,从语音参数库中取出相应的参数,利用语音产生的数学模型恢复语音。共振峰合成和线性预测合成是该类合成技术中的重要方法。,3.语音信号的规则合成,将任意文本转换成声音的系统。包括语言学和声学处理。合成的词汇不是事先确定。常见的就是文语转换合成技术 text-to-speech(TTS)。系统中存储的是音素的声学参数,以及由音素组成音节、由音节组成词、由词组成句子的规则;控制音调、轻重音等韵律的各种规则。,给出待合成的字母或文字后,根据语义规则和语音
5、规则,确定每个字的音素的组成和句子的低层结构。为每一个词、每一个音节确定重音等级和语句结构及语调,其中包括各种停顿等,这样,文字串就变成了代码串。声学处理就利用规则将代码串转换成连续的语音波。,欢迎使用微软中国研究院中文语音合成系统 采用TTS技术合成语音http:/research.M,Agenda,语音合成技术概述TTS语音合成技术语音识别技术概述ASR语音识别技术语音处理的发展和趋势,TTS合成技术,TTS合成技术的应用TTS合成系统的构成文本分析韵律控制语音合成方法,TTS合成技术的应用,1.可以用于各种智能系统,如信息查询系统、自动售票系统或残疾人的辅助交流工具。2.可以用于通信设备
6、或一些数字产品,这样传递的信息不是语音,而是文字,在通信设备的终端将文字信息转换为语音即可,由于每个文字占用两个字节,因而极具有价值,文本,文本分析,韵律控制,合成模块,语音数据库,输出,TTS系统的构成,对输入文本进行分析切割出字词以后,通过语音合成方法把这些字词的发音合成出来,并串接起来,通过韵律调整,就可以得到较为自然的语句的发音。,文本分析,主要功能是使计算机能够识别文字,并根据文本的上、下文关系在一定程度上对文本进行理解,将发音的方式告诉计算机;另外,还要让计算机知道文本中哪些是短语、句子,发音时到哪应该停顿,停顿多长等等。,1.文本分析的主要功能:,2.文本分析工作的三个主要步骤:
7、,(1)将输入的文本规范化,处理用户可能的拼写错误,并将文本中出现的一些不规范或无法发音的字符滤掉;(2)分析文本中的词或短语的边界,确定文字的读音。(3)根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同音的轻重方式。,3.文本分析系统的基本框图,自动分词,多音字处理,声调判断,特殊声调调整,特殊符号,停顿处理,系统词库,多音字词库,变调规则库,特殊声调规则,自动分词,对句子以系统词库为模板用最大匹配的方法进行分词,从系统词库中提取相应的读音、声调和时长信息作为控制参数。,多音字处理,对自动分词处理后的句子中余下的字,首先查找多音字表,若不是多音字,则检索标准字库,
8、取得该字的读音和声调;若是多音字,则根据在多音字库中得到的信息从特征词库中读取相应的信息,选择恰当的读音和声调。,声调调整,根据变调规则库中的规则,对每个字的声调做一些调整,在词与词之间加入适当的停顿信息。,4.文本分析的输出,将输入的文字转换成计算机能够处理的内部参数(每个词的发音声母韵母声调),便于后续模块进一步处理并生成相应的信息。常见的文本分析方法:二元文法、HMM和神经网络法等。,语音合成方法,首先合成字的声母,再合成它的韵母,然后将韵母的声调调整到所需要的声调上,然后将声母和韵母连接起来得到最终合成的语音。,1.语音合成部分的主要功能:,单独发声的一个音节或是语音流中的任何一个音节
9、都可能由7部分组成。,无声段,2.语音数据库,(2)声母表:22个声母的波形(3)韵母表:38个韵母的波形(基音同步帧、过渡音和鼻音)(4)声调曲线:不同声调的声调曲线。,(1)汉字拼音库:每个汉字的拼音信息是一个二进制文件,其形式为:声母韵母声调标号。,3.语音合成步骤,拼音信息,声母,韵母,声调,基音同步帧、过渡音和鼻音库,声调曲线库,声母库,合成韵母,幅度调整,叠接,合成语音,五、韵律控制,韵律特征包括声调、语气、停顿方式、发音长短等。这些通过基频、音长、音强等参数来体现,通过控制这些参数达到对韵律的控制。包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等。,基音同步帧周期的
10、调整,把原始的基音周期调整为指定的基音周期,调整后的基音同步帧波形要与原始基音同步帧相似,幅度要基本相等。,Agenda,语音合成技术概述TTS语音合成技术语音识别技术概述ASR语音识别技术语音处理的发展和趋势,语音识别技术概述,语音识别的定义语音识别的应用语音识别的类型语音识别的方法语音识别的主要问题,一、语音识别的定义,语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面语言。通俗地说就是让机器能够听懂人说的话。所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。,二、语音识别的应用,语音识别技术是以语音为
11、研究对象,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域。随着语音识别技术的逐渐成熟,语音识别技术开始得到广泛的应用,涉及日常生活的各个方面如电信、金融、新闻、公共事业等各个行业,通过采用语音识别技术,可以极大的简化这些领域的业务流程以及操作;提高系统的应用效率。,1.语音识别以IBM推出的ViaVoice为代表,国内则推出Dutty+语音识别系统、天信语音识别系统、世音通语音识别系统等。2.数据库检索:对庞大的数据进行繁杂的检索和查询,通过使用语音识别技术,将变得轻松、方便。3.特殊的环境所需的语音命令:用语音发出操作指令。,语音识别应用实例,采用语音识别和语音合成技术,能与
12、客户进行交互式对话,帮助客户找到他们所需要的商品。一个动作传感器可以启动系统,询问顾客“需要我帮你寻找什么吗?”如果顾客回答说“我在找面包。系统将会告诉顾客:“面包在第11过道,就是直接往前第3个过道,我们今天有全麦面包特惠,需要我为您打印一张优惠券吗?,语音识别用于商场导购,德国西门子公司推出的一种新洗衣机,洗衣物非常专业,知道为什么样的脏衣物选择合适洗涤程序和洗涤剂,而主人只需要口头命令即可,比如“半个小时后再洗”。与普通洗衣机的不同之处是安装了语音识别芯片,能根据用户的语音指令确定洗涤程序。,语音识别用于家用电器,走入人类未来生活,三、语音识别的类型,1.以所要识别的对象来分,有:(1)
13、孤立词识别(字或词间有停顿,用于控制系统)(2)连接词识别(十个数字连接而成的多位数字识别或由少数指令构成词条的识别,用于数据库查询、电话和控制系统)(3)连续语音识别和理解(自然的说话方式)(4)会话语音识别(识别出会话语言),2.根据识别的词汇量来分,有:(1)大词汇(1000个以上的词汇,如会议系统)(2)中词汇(201000个词汇,如定票系统)(3)小词汇(120个词汇,如语音电话拨号),3.根据讲话人的范围来分,有:(1)单个特定人(2)多讲话人(有限的讲话人)(3)与讲话者无关,四、语音识别的方法,1.模板匹配法 在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SASR技术 SASR 技术 PPT 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5453512.html