语音技术前沿及应用.ppt
《语音技术前沿及应用.ppt》由会员分享,可在线阅读,更多相关《语音技术前沿及应用.ppt(93页珍藏版)》请在三一办公上搜索。
1、语音及语言研究、技术及应用,讯飞研究院,安徽中科大讯飞信息科技有限公司AnHui USTC iFlyTek CO.,LTD.2006年07月,范围与面向,本课程包括:什么是语音、语言,有什么特性(80分钟)智能语音及语言技术包括哪些,讯飞优势(120分钟)本课程面向:以前没有或者较少接触语音及语言技术的所有公司员工,什么是语音、语言,有什么特性,语音,讯飞语音 沟通无限语音:人类发音器官发出的声音语音产生于几百万年前但人类能听到的历史不过128年,(1877年:爱迪生发明留声机)无声电影=有声电影计算机、声卡=语音的计算机处理技术人类每天说的话如果存下来,,两个不同频率的“嘟”,语音链,语音产
2、生机理,元音发音器官形状,汉语辅音音素,语音进入计算机:波形和语谱图,喝(h e)茶,语音信号中的一些基本概念,波形语谱基频,采样率,量化比特数,声道数帧,音高,时长,能量,语音的特性1:波形不说明内容,语音的特性2:共振峰基本决定内容,语音的特性3:基频决定声调,语音的特性4:声音一样又不同,语音的特性4:汉语方言一级元音格局,引自:时秀娟,汉语方言元音格局的实验研究,南开大学博士论文,2005年4月。,哈尔滨,济南,青岛,天津,兰州,郑州,成都,南京,人类听觉系统,计算机眼中的语音,就是一系列的物理参数隐马尔科夫(HMM)语音建模10秒钟的数据10*16K*16bit的数据,且几乎没有任何
3、规律1000帧,每帧可以计算39个浮点数,3.9万个浮点数,也没什么规律40个音节,80个声韵母320个HMM状态,每个状态20个Gauss函数,每个高斯2参数每个声韵母分别包含哪些帧,几近无穷可能数据多!所能看到的数据和声韵母联系起来困难,语言,语音语言不分家语言:人类特有的能力有2500至3500种语言 汉语属汉藏语系,英语属印欧语系日耳曼语族 语言层级:音素、声韵母、音节、字、词、短语、句子、篇章以有限的音节和字按规定的文法构建出无限的句子语言理解:词法、语法、语义、语用,计算机眼中的语言,数据少意思多!寥寥数字,无穷意境,智能语音及语言技术包括哪些讯飞优势,智能语音及语言技术,语音合成
4、、识别、编码、转换、身份识别及确认、音色分类、评测、哼唱检索、音乐检索、语音检索、Singing TTS、降噪、音效语言基础研究:词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析 应用研究:拼音输入法、自动摘要、对话系统、文本分类、文本匹配、机器翻译、信息检索、信息抽取,语音合成技术(Speech Synthesis),即Text To Speech的过程,简称TTS技术中文信息处理领域中的一项前沿技术涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术主要解决的问题是将文本状态的文字信息转化为可听的声音信息,语音合成的历史,电子计算机发明以后,语音合成技术得到了飞
5、速的发展,方法也发生了根本性的变化,语音合成技术,语音合成技术,语言合成技术之一 Articulatory Synthesis 根据人类发音机理方式工作的合成方法 模型主要组成部分 声门波发生装置-声带 气管-口腔声道腔体模型 嘴唇的辐射模型 主要优缺点 真实的反映了人类发音的整个过程 人类发音过程的模型不够精确,无法得到清晰度高的语音,语音合成技术,语言合成技术之二 Source-filter Synthesis 基于语语音数据信号处理的合成方法 模型主要组成部分 声门波激励源 描述声道模型的滤波器 主要优缺点 合成语音的音质比上一种方法有很大的提高,但是仍然不是很好 可以对合成语音在音色和
6、声调上进行较为灵活的调整,语言合成技术之三 Concatenative Synthesis 利用原始语音片断作为合成单元 关键技术 原始语音片断的获取方法 原始语音片断的挑选方法和拼接算法 主要优缺点 合成语音的音质比上两种方法有质的提高,因为不需要进行大的调整 语料库的录制和制作工作量巨大,同时合成语音的灵活性较低,语音合成技术,输入文本,拼音信息和韵律结构信息,每个单元将取多个候选s1 s2 s3 s4,目标代价挑选候选单元,词典等文本分析知识,大规模语音库,再考虑连接代价决定最后选定单元s1 s2 s3 s4 s5 s6,输出语音,InterPhonic系统处理流程,语音合成技术,语言合
7、成技术之四 Trainable TTS 利用HMM模型直接对语谱和韵律进行建模 关键技术 HMM模型对特定人的语音进行建模 良好的合成器对预测出来的语谱和韵律参数进行合成 主要优缺点 合成语句自然流畅,普适性好 能够容易的模拟各种不同的说话人,不同情感,不同语气 因为采用合成器进行语音的合成,清晰度难以提高,语音合成技术,语音合成技术,语言合成技术之五 多模态语音合成 将语音合成与嘴唇,脸部运动结合起来 关键技术 对语音内容和嘴唇运动以及脸部运动进行同步 利用三维模型或者是图像录像进行脸部图像的生成 主要适用场合 可视聊天等各种沟通方式中(例如于msn,QQ等结合)电子游戏,娱乐服务中 智能计
8、算机的人机界面,休息五分钟,语音合成,分类:语种:普通话、粤语、英语、日语嵌入式识别、桌面应用、服务器级应用难点:语音的多变性信息从少到多,文本分析方法:波音拼接:单样本-多样本-Corpus-Based(讯飞)参数合成:源-滤波器模型-PSOLA-HMM-Based Trainable TTS(讯飞)融合:小尺度(5ms)样本拼接,参数样本挑选(讯飞)基于发音器官模型的语音合成水平:在新闻播报风格上超过一般人水平,达到4.3分(讯飞)但对于具有表现力和感情的合成,以及自由说话,还存在较多问题(讯飞),大语料库合成系统,粤语合成系统中文男声系统纯英文语音合成系统,STOP,STOP,STOP,
9、STOP,嵌入式合成系统,嵌入式合成系统可以广泛的应用在各种手机,PDA,芯片环境中,在容量和运算量受限的情况下,需要能够合成高自然度的语音。主要研究方向包括小型化高精度的前端文本分析基于听感量化思想的大语料库单元裁减算法伸缩性非常强的多层单元压缩算法压缩性能好,调整能力强的语音合成器,听感量化嵌入式系统嵌入式纯中文系统原型,STOP,STOP,Trainable TTS,Trainable TTS基于HMM对语音进行建模,并通过训练得到合成所需的参数预测模型基本不需要人工干预的情况下自动、快速地进行系统构建合成语音具有很高的自然度音质相比拼接合成有较大的差距,中文女声系统中文男声系统纯英文语
10、音合成系统,STOP,STOP,STOP,声音转换(Voice Conversion),功能:从一个人的声音转换为另一个人声音用途:模仿(娱乐、军工)分类:到特定人、到特定类(男女,老中少,方言)、声音改变实时转换、语音合成后续模块、在线训练难点:参数合成,音质不理想训练数据多少都不合适超音色特点难以实现方法:高斯混合模型和码本映射相结合(IBM、自动化所)基于支持向量回归的声音转换(吉林大学)HMM-Based Voice Conversion(讯飞)新方向:Average Model(讯飞)水平:高质量的声音数据达到50句以上、朗读风格,效果达到满意程度(讯飞)方言还不理想(讯飞),Voi
11、ce Conversion/Morphing,音色转换:在已有语音合成系统基础上模拟各种发音人说话;使合成系统具有快速适应能力,根据用户的需要提供个性化语音合成服务扩展语音服务在信息服务以外领域的功能(如娱乐),Voice Conversion/Morphing,音色转换:根据有限的目标说话人语音数据,采用模型自适应技术对参数预测模型进行说话人自适应在非常少(1句话)的目标数据基础上,都可以进行合成系统的说话人转换。,燕平 胡郁 50句燕平 刘庆峰 50句燕平 刘庆峰 5句燕平 刘庆峰 1句,STOP,STOP,STOP,STOP,Trainable TTS&Voice Conversion,
12、有些知识分子一生坎坷,除客观原因外,有没有主观因素呢。,Intonation&Emotion TTS,Intonation和EmotionTTS在现在陈述语气合成的基础上实现感叹,疑问,强调的效果在正常情绪合成的基础上增强系统在高兴,生气,悲伤等多种情绪方面的表现能力感叹疑问演示文本:没错!现在资金这么紧缺!你还想扩大生产规模?你说这件事情令人担忧?我觉得完全不会;,Intonation&Emotion TTS,我们现在进行的情感语音方面的研究主要包括以下几个方面的内容:情感语料库的设计与录制;情感语音韵律模型的研究,主要是研究情感语音中基频、时长等韵律参数相对于中立语音的变化规律,实现情感语
13、音的韵律预测;语音声源参数分析方面的工作,研究发音人在表达不同情感时声源参数对应的“音质”(Voice Quality)特征的变化规律;情感语音合成系统的建立,包括采用参数调整、Voice Conversion方法等。,中立合成情感合成高兴生气难过,语音识别技术,即Automatic Speech Recognition过程,简称ASR技术主要解决将语音信息转化为文本状态的文字信息的问题可以分为以下几个方面的技术 说话人鉴别 孤立词识别 连续语音识别,语音识别技术回顾,语音识别的历史,相对语音合成,语音识别更加困难,在电子计算机发明以前,很难进行这方面的工作,语音识别的复杂性孤立词/连续语音?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 技术 前沿 应用

链接地址:https://www.31ppt.com/p-5841491.html