《SASR技术》PPT课件.ppt

上传人：牧羊曲112

文档编号：5453512

上传时间：2023-07-08

格式：PPT

页数：81

大小：722.50KB

《《SASR技术》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《SASR技术》PPT课件.ppt（81页珍藏版）》请在三一办公上搜索。

1、TTS&ASR技术,Agenda,语音合成技术概述TTS语音合成技术语音识别技术概述ASR语音识别技术语音处理的发展和趋势,语音合成定义,解决如何让机器象人说话的问题。其目的：能将任意文本实时地转换为自然语音输出，且输出的语音清晰可懂。,语音合成技术的应用,语音是信息传播的一大媒介。近年来，提供语音服务的语音系统迅速发展起来。传统的语音系统一般采用预录音回放技术，由于这种方法必须对信息文本事先进行录音，并存为声音文件，因此，所占用的存储空间很大。另外，一个更大的缺点是不能实时反映信息的更新，应用范围有很大的局限性。,录音wav,回放,传统的语音系统,语音压缩编码,输入语音,恢复语音,现在的语音

2、合成技术，无需对大量的信息进行录音，极大地减少了工作量和节省了存储空间，尤其是在信息内容需要经常变动的动态查询场合，如股市行情查询、有声Email系统，都是传统的预录音技术无法代劳的。结合其他技术，语音合成技术可以广泛应用于金融、邮电、工商、政府机关、交通、教育、游戏等领域。,几个语音合成技术的应用实例,1.电话查询系统工商信息电话查询系统、银行电话查询系统、股票查询系统、交通信息查询系统、考试成绩查询系统等。,2.教育与娱乐软件,普通话教学软件是帮助想学普通话的用户,以往的普通话教学软件只是将预先录好音的单词逐个读给用户听，有了语音合成技术，可以将任意文本中的整句话、整段话读给用户听，学习

3、效率明显提高。,现在计算机游戏中的人物，或者不会说话，或者只会“播放”已经录好的声音。利用语音合成，游戏中的人物可以说出任意的话语，不同的人物可以通过选用不同的音库而形成不同的说话风格。增加了游戏的趣味性和互动性,3、游戏软件,1.语音信号的波形合成（录音合成技术）采用数字存储技术存储基本的语音信息。在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来，生成高自然度的语句，这就是波形拼接的语音合成方法。为了节省存储容量，在存入机器之前还可以对语音信号先进行数据压缩。,语音合成技术方法,录音wav,回放,语音压缩编码,直接录放流程,语音库（语音单元）语音的波形编码,输入语音,挑选组合,回放,合

4、成语音,波形合成方法,2.语音信号的参数合成,根据语音产生的数学模型，利用短时平稳性，提出每帧语音信号的参数，这些参数经编码后组成一个语音参数库。输出时，从语音参数库中取出相应的参数，利用语音产生的数学模型恢复语音。共振峰合成和线性预测合成是该类合成技术中的重要方法。,3.语音信号的规则合成,将任意文本转换成声音的系统。包括语言学和声学处理。合成的词汇不是事先确定。常见的就是文语转换合成技术 text-to-speech(TTS)。系统中存储的是音素的声学参数，以及由音素组成音节、由音节组成词、由词组成句子的规则；控制音调、轻重音等韵律的各种规则。,给出待合成的字母或文字后，根据语义规则和语音

5、规则，确定每个字的音素的组成和句子的低层结构。为每一个词、每一个音节确定重音等级和语句结构及语调，其中包括各种停顿等，这样，文字串就变成了代码串。声学处理就利用规则将代码串转换成连续的语音波。,欢迎使用微软中国研究院中文语音合成系统采用TTS技术合成语音http:/research.M,Agenda,语音合成技术概述TTS语音合成技术语音识别技术概述ASR语音识别技术语音处理的发展和趋势,TTS合成技术,TTS合成技术的应用TTS合成系统的构成文本分析韵律控制语音合成方法,TTS合成技术的应用,1.可以用于各种智能系统，如信息查询系统、自动售票系统或残疾人的辅助交流工具。2.可以用于通信设备

6、或一些数字产品，这样传递的信息不是语音，而是文字，在通信设备的终端将文字信息转换为语音即可，由于每个文字占用两个字节，因而极具有价值,文本,文本分析,韵律控制,合成模块,语音数据库,输出,TTS系统的构成,对输入文本进行分析切割出字词以后，通过语音合成方法把这些字词的发音合成出来，并串接起来，通过韵律调整，就可以得到较为自然的语句的发音。,文本分析,主要功能是使计算机能够识别文字，并根据文本的上、下文关系在一定程度上对文本进行理解，将发音的方式告诉计算机；另外，还要让计算机知道文本中哪些是短语、句子，发音时到哪应该停顿，停顿多长等等。,1.文本分析的主要功能:,2.文本分析工作的三个主要步骤：

7、,（1）将输入的文本规范化，处理用户可能的拼写错误，并将文本中出现的一些不规范或无法发音的字符滤掉；（2）分析文本中的词或短语的边界，确定文字的读音。（3）根据文本的结构、组成和不同位置出现的标点符号，来确定发音时语气的变换以及不同音的轻重方式。,3.文本分析系统的基本框图,自动分词,多音字处理,声调判断,特殊声调调整,特殊符号,停顿处理,系统词库,多音字词库,变调规则库,特殊声调规则,自动分词,对句子以系统词库为模板用最大匹配的方法进行分词，从系统词库中提取相应的读音、声调和时长信息作为控制参数。,多音字处理,对自动分词处理后的句子中余下的字，首先查找多音字表，若不是多音字，则检索标准字库，

8、取得该字的读音和声调；若是多音字，则根据在多音字库中得到的信息从特征词库中读取相应的信息，选择恰当的读音和声调。,声调调整,根据变调规则库中的规则，对每个字的声调做一些调整，在词与词之间加入适当的停顿信息。,4.文本分析的输出,将输入的文字转换成计算机能够处理的内部参数(每个词的发音声母韵母声调)，便于后续模块进一步处理并生成相应的信息。常见的文本分析方法：二元文法、HMM和神经网络法等。,语音合成方法,首先合成字的声母，再合成它的韵母，然后将韵母的声调调整到所需要的声调上，然后将声母和韵母连接起来得到最终合成的语音。,1.语音合成部分的主要功能:,单独发声的一个音节或是语音流中的任何一个音节

9、都可能由7部分组成。,无声段,2.语音数据库,(2)声母表：22个声母的波形(3)韵母表：38个韵母的波形（基音同步帧、过渡音和鼻音）(4)声调曲线：不同声调的声调曲线。,(1)汉字拼音库：每个汉字的拼音信息是一个二进制文件，其形式为：声母韵母声调标号。,3.语音合成步骤,拼音信息,声母,韵母,声调,基音同步帧、过渡音和鼻音库,声调曲线库,声母库,合成韵母,幅度调整,叠接,合成语音,五、韵律控制,韵律特征包括声调、语气、停顿方式、发音长短等。这些通过基频、音长、音强等参数来体现，通过控制这些参数达到对韵律的控制。包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等。,基音同步帧周期的

10、调整,把原始的基音周期调整为指定的基音周期，调整后的基音同步帧波形要与原始基音同步帧相似，幅度要基本相等。,Agenda,语音合成技术概述TTS语音合成技术语音识别技术概述ASR语音识别技术语音处理的发展和趋势,语音识别技术概述,语音识别的定义语音识别的应用语音识别的类型语音识别的方法语音识别的主要问题,一、语音识别的定义,语音识别是指从语音到文本的转换，即让计算机能够把人发出的有意义的话音变成书面语言。通俗地说就是让机器能够听懂人说的话。所谓听懂，有两层意思，一是指把用户所说的话逐词逐句转换成文本；二是指正确理解语音中所包含的要求，作出正确的应答。,二、语音识别的应用,语音识别技术是以语音为

11、研究对象，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域。随着语音识别技术的逐渐成熟，语音识别技术开始得到广泛的应用，涉及日常生活的各个方面如电信、金融、新闻、公共事业等各个行业，通过采用语音识别技术，可以极大的简化这些领域的业务流程以及操作；提高系统的应用效率。,1.语音识别以IBM推出的ViaVoice为代表，国内则推出Dutty+语音识别系统、天信语音识别系统、世音通语音识别系统等。2.数据库检索：对庞大的数据进行繁杂的检索和查询，通过使用语音识别技术，将变得轻松、方便。3.特殊的环境所需的语音命令：用语音发出操作指令。,语音识别应用实例,采用语音识别和语音合成技术，能与

12、客户进行交互式对话，帮助客户找到他们所需要的商品。一个动作传感器可以启动系统，询问顾客“需要我帮你寻找什么吗？”如果顾客回答说“我在找面包。系统将会告诉顾客：“面包在第11过道，就是直接往前第3个过道，我们今天有全麦面包特惠，需要我为您打印一张优惠券吗？,语音识别用于商场导购,德国西门子公司推出的一种新洗衣机,洗衣物非常专业，知道为什么样的脏衣物选择合适洗涤程序和洗涤剂，而主人只需要口头命令即可，比如“半个小时后再洗”。与普通洗衣机的不同之处是安装了语音识别芯片，能根据用户的语音指令确定洗涤程序。,语音识别用于家用电器，走入人类未来生活,三、语音识别的类型,1.以所要识别的对象来分，有：（1）

13、孤立词识别（字或词间有停顿，用于控制系统）（2）连接词识别（十个数字连接而成的多位数字识别或由少数指令构成词条的识别，用于数据库查询、电话和控制系统）（3）连续语音识别和理解（自然的说话方式）（4）会话语音识别（识别出会话语言）,2.根据识别的词汇量来分，有：（1）大词汇（1000个以上的词汇，如会议系统）（2）中词汇（201000个词汇，如定票系统）（3）小词汇（120个词汇，如语音电话拨号）,3.根据讲话人的范围来分，有：（1）单个特定人（2）多讲话人（有限的讲话人）（3）与讲话者无关,四、语音识别的方法,1.模板匹配法在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模

14、板存入模板库。在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。,特征矢量LPC倒谱c(n),语,文,学,音,wen,模板库,由于语音有较大的随机性，即使同一个人在不同时刻的同一句话发的同一个音，也不可能具有完全相同的时间长度，因此时间伸缩处理是必不可少的。DTW用满足一定条件的时间规整函数，描述待识别模式和参考模板的时间对应关系，求解两个模板匹配，就是累积距离测度最小对应的规整函数。,DTW(Dynamic Time Warping)动态时间规整,2.随机模型法采用HMM模型，使用概率参数来进行估计和判决。,无声段,鼻音段,声母辅音段,

15、元音段,送气段,前过渡段,后过渡段,(1)发音的各个段构成相应的状态。(3)基本单元发音速率（停留时间和转移时间）对应状态转移概率(0.5)。(2)声学变化（LPC倒谱）对应输出序列，概率分布成混合高斯密度函数。,A2,用HMM实现连续语音识别的框架,音子a,音子b,特征矢量,音子a,字 A1,句子,A1,P(A1),P(A2/A1),sa1,sa2,sa3,sa4,sa5,BEGIN,句法层：每个句子由若干字构成，每个字都选自于字库。字层：每个字由音子串接而成，需要一个数据库来描述每一个字如何用音子串接的。语音层：每个音子用一个HMM模型及其相应的参数来描述（状态及其状态间的转移）。声学层：

16、提取语音帧特征矢量。,1.对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则。2.语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息时不同的。一个人的说话方式随着时间变化。,五、语音识别的主要问题,3.语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。4.单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。5.环境噪声和干扰对语音识别有严重影响，致使识别率低。,Agenda,语音合成技术概述TTS语音合成技术语音识别技术概述

17、ASR语音识别技术语音处理的发展和趋势,ASR语音识别,ASR的定义ASR的流程ASR的分类ASR的学科特点ASR的历史,ASR的定义,两个不同层次的理解ASR:Automatic Speech Recognition，让机器把人说的语音翻译成文字自动语音理解（ASU）:在语音识别的基础上，理解人所说的文字意义目标：理解任何人在任何环境下的语音，模仿人的听觉能力,ASR的信号流框图,Front-end analysis,语音识别分类,按词汇量大小小词汇量（30）、中词汇量(100)大词汇量(无限量)发音是否连续：孤立词、连续语音按与说话人的关系：SD，SI按说话方式：朗诵语音、口语语音按应用目

18、标：通用、专用按实现方法：计算机软件，嵌入式系统，计算机网络，电话网络，无线网络,返回,学科特点:交叉学科,Signal ProcessingAcousticsPattern recognitionCommunication and information theory LinguisticsPhysiology and psychologyComputer Science and technology Cognitive science,History,What was the first success story of speech recognition?“Radio Rex”in t

19、he 1922,was the first success story in the field of speech recognitionlittle toy dog named Rex”Voice recognition,History,1936-AT&Ts Bell labs started study of speech recognition(funded by DARPA)1950s-Isolated digit,syllables,phonemes,small vocabulary1960s Japan,Hardware systemsUse of dynamic program

20、mingReddy(CMU):continuous speech recognition,History(cont),1970s,significant milestonesIsolated word became viable and usable:using pattern-recognition,DP and LPCIBMs efforts in large vocabularyAT&T Bell Labss efforts in SI ASR,-clustering algorithms1978 speak and spell toy by TI,History(cont),1980s

21、,Focus on connected word recognition two-level DP(NEC),One-pass method,Level buildingShift from template-based approaches to statistical modeling methods HMMApplying ANN in the late 1980sSystems:SPHINX(CMU),BYBLOS(BBN),SRI(Lincoln Labs),History(cont),1990s,Focus on continuous ASR Reduce the effect o

22、f noiseRobustnessOn-line learning(Speaker adaptation)Natural language front ends to ASRIBM Via VoiceDevelopment platform：VBVoice(Pronexus)1997 Dragon Systems,History(cont),21c:Technology to deal with environment variationASR for multi-languagesEmbedded System,Agenda,语音合成技术概述TTS语音合成技术语音识别技术概述ASR语音识别技

23、术语音处理的发展和趋势,Challenges of speech recognition,Ease of useRobust performanceAutomatic learning of new words and soundsGrammar for spoken languageControl of synthesized voice qualityIntegrated learning for speech recognition and synthesis,研究机构,UWUCLAPurdue University Stanford UniversityUniversity of Pi

24、ttsburgh,研究机构,清华大学中国科技大学哈尔滨工业大学安徽科大讯飞信息科技股份有限公司福建省海峡天音信息技术有限公司金耳麦-言丰科技,研究机构,IBM(Human Language Technologies ResearchIBM India Research Lab:Microsoft:PronexusIntelMore,应用领域,语音听写系统Via VoiceDragon SystemsVoxNaut:开放式多语言语音服务平台(,Italy)易说语音输入系列海峡天音 Pattek ASR 中科院自动化所普通话95%,应用领域（续）,智能人机界面语音信息服务政策咨询、航班信息、

25、交通信息查询股票信息查询公安的刑事侦察辅助电话监听：具有关键语音发现能力声纹身份侦察医疗临床应用身份认证:信息安全,应用领域(续),嵌入式产品应用电话、移动通信工具提供语音服务的交换机具有语言交互能力的机器人智能导游器具有语言沟通能力的智能玩具,典型产品,金立语音王A320德赛西威“EICC”车载高效人机互动系统SpeechMagic天朗分布式语音识别系统Windows XP 语音识别技术嵌入式语音识别语音识别芯片,金立语音王A320,能听会说的小秘书.让您操作起来轻松自在，个性十足语音朗读功能涵盖了未接来电、未读信息、时间、日期及星期的语音播报。让您闭着眼睛听信息,舒适惬意语音播号功能省却了

26、您翻找电话本的麻烦，轻轻说出名字，即刻拨出电话语音命、点歌台功能让您通过语音轻松到达指定菜单,德赛西威“EICC”车载高效人机互动系统,支持普通话对菜单的选择、功能的控制等功能，使得人和车通过设定的语言逻辑进行对话，提高驾驶高效性及安全性,语音识别专用芯片,Sensory RSC一4x系列凌阳语音识别单片机 SPCE061A ICRoute LD3320A,应用范例,运用到XBOX游戏中美国开通旅游交互语音识别服务包括股市行情，星座运情，交通指南，球赛结果以及其他可以在电话上获取的服务语音识别及合成芯片在玩具索尼公司的电子狗Aibo，零售价2200美元，且是限量生产（年产1万只）。东莞银辉爱

27、赛比,开发费用180多万美元,零售价人民币3600元,语音信号处理研究新方向,Voiceprint for IDDigital speech ForensicMultimedia Information RetrievalEmotion Analysis on speech Various Application,Voiceprint for ID,Speaker IdentificationWho are you?One-to-many matchSpeaker VerificationAre you Sam?One-to-one matchAdvantagesLow costDistanceHigh acceptabilityDisadvantagesNot the most secure of the biometric technologiesHuman voice changes over time,Digital speech Forensic,What did Sam say?It is really said by Sam?It is imitated by others?It is recorded and played back?It is the original record?,