语音技术前沿及应用.ppt
语音及语言研究、技术及应用,讯飞研究院,安徽中科大讯飞信息科技有限公司AnHui USTC iFlyTek CO.,LTD.2006年07月,范围与面向,本课程包括:什么是语音、语言,有什么特性(80分钟)智能语音及语言技术包括哪些,讯飞优势(120分钟)本课程面向:以前没有或者较少接触语音及语言技术的所有公司员工,什么是语音、语言,有什么特性,语音,讯飞语音 沟通无限语音:人类发音器官发出的声音语音产生于几百万年前但人类能听到的历史不过128年,(1877年:爱迪生发明留声机)无声电影=有声电影计算机、声卡=语音的计算机处理技术人类每天说的话如果存下来,,两个不同频率的“嘟”,语音链,语音产生机理,元音发音器官形状,汉语辅音音素,语音进入计算机:波形和语谱图,喝(h e)茶,语音信号中的一些基本概念,波形语谱基频,采样率,量化比特数,声道数帧,音高,时长,能量,语音的特性1:波形不说明内容,语音的特性2:共振峰基本决定内容,语音的特性3:基频决定声调,语音的特性4:声音一样又不同,语音的特性4:汉语方言一级元音格局,引自:时秀娟,汉语方言元音格局的实验研究,南开大学博士论文,2005年4月。,哈尔滨,济南,青岛,天津,兰州,郑州,成都,南京,人类听觉系统,计算机眼中的语音,就是一系列的物理参数隐马尔科夫(HMM)语音建模10秒钟的数据10*16K*16bit的数据,且几乎没有任何规律1000帧,每帧可以计算39个浮点数,3.9万个浮点数,也没什么规律40个音节,80个声韵母320个HMM状态,每个状态20个Gauss函数,每个高斯2参数每个声韵母分别包含哪些帧,几近无穷可能数据多!所能看到的数据和声韵母联系起来困难,语言,语音语言不分家语言:人类特有的能力有2500至3500种语言 汉语属汉藏语系,英语属印欧语系日耳曼语族 语言层级:音素、声韵母、音节、字、词、短语、句子、篇章以有限的音节和字按规定的文法构建出无限的句子语言理解:词法、语法、语义、语用,计算机眼中的语言,数据少意思多!寥寥数字,无穷意境,智能语音及语言技术包括哪些讯飞优势,智能语音及语言技术,语音合成、识别、编码、转换、身份识别及确认、音色分类、评测、哼唱检索、音乐检索、语音检索、Singing TTS、降噪、音效语言基础研究:词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析 应用研究:拼音输入法、自动摘要、对话系统、文本分类、文本匹配、机器翻译、信息检索、信息抽取,语音合成技术(Speech Synthesis),即Text To Speech的过程,简称TTS技术中文信息处理领域中的一项前沿技术涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术主要解决的问题是将文本状态的文字信息转化为可听的声音信息,语音合成的历史,电子计算机发明以后,语音合成技术得到了飞速的发展,方法也发生了根本性的变化,语音合成技术,语音合成技术,语言合成技术之一 Articulatory Synthesis 根据人类发音机理方式工作的合成方法 模型主要组成部分 声门波发生装置-声带 气管-口腔声道腔体模型 嘴唇的辐射模型 主要优缺点 真实的反映了人类发音的整个过程 人类发音过程的模型不够精确,无法得到清晰度高的语音,语音合成技术,语言合成技术之二 Source-filter Synthesis 基于语语音数据信号处理的合成方法 模型主要组成部分 声门波激励源 描述声道模型的滤波器 主要优缺点 合成语音的音质比上一种方法有很大的提高,但是仍然不是很好 可以对合成语音在音色和声调上进行较为灵活的调整,语言合成技术之三 Concatenative Synthesis 利用原始语音片断作为合成单元 关键技术 原始语音片断的获取方法 原始语音片断的挑选方法和拼接算法 主要优缺点 合成语音的音质比上两种方法有质的提高,因为不需要进行大的调整 语料库的录制和制作工作量巨大,同时合成语音的灵活性较低,语音合成技术,输入文本,拼音信息和韵律结构信息,每个单元将取多个候选s1 s2 s3 s4,目标代价挑选候选单元,词典等文本分析知识,大规模语音库,再考虑连接代价决定最后选定单元s1 s2 s3 s4 s5 s6,输出语音,InterPhonic系统处理流程,语音合成技术,语言合成技术之四 Trainable TTS 利用HMM模型直接对语谱和韵律进行建模 关键技术 HMM模型对特定人的语音进行建模 良好的合成器对预测出来的语谱和韵律参数进行合成 主要优缺点 合成语句自然流畅,普适性好 能够容易的模拟各种不同的说话人,不同情感,不同语气 因为采用合成器进行语音的合成,清晰度难以提高,语音合成技术,语音合成技术,语言合成技术之五 多模态语音合成 将语音合成与嘴唇,脸部运动结合起来 关键技术 对语音内容和嘴唇运动以及脸部运动进行同步 利用三维模型或者是图像录像进行脸部图像的生成 主要适用场合 可视聊天等各种沟通方式中(例如于msn,QQ等结合)电子游戏,娱乐服务中 智能计算机的人机界面,休息五分钟,语音合成,分类:语种:普通话、粤语、英语、日语嵌入式识别、桌面应用、服务器级应用难点:语音的多变性信息从少到多,文本分析方法:波音拼接:单样本-多样本-Corpus-Based(讯飞)参数合成:源-滤波器模型-PSOLA-HMM-Based Trainable TTS(讯飞)融合:小尺度(5ms)样本拼接,参数样本挑选(讯飞)基于发音器官模型的语音合成水平:在新闻播报风格上超过一般人水平,达到4.3分(讯飞)但对于具有表现力和感情的合成,以及自由说话,还存在较多问题(讯飞),大语料库合成系统,粤语合成系统中文男声系统纯英文语音合成系统,STOP,STOP,STOP,STOP,嵌入式合成系统,嵌入式合成系统可以广泛的应用在各种手机,PDA,芯片环境中,在容量和运算量受限的情况下,需要能够合成高自然度的语音。主要研究方向包括小型化高精度的前端文本分析基于听感量化思想的大语料库单元裁减算法伸缩性非常强的多层单元压缩算法压缩性能好,调整能力强的语音合成器,听感量化嵌入式系统嵌入式纯中文系统原型,STOP,STOP,Trainable TTS,Trainable TTS基于HMM对语音进行建模,并通过训练得到合成所需的参数预测模型基本不需要人工干预的情况下自动、快速地进行系统构建合成语音具有很高的自然度音质相比拼接合成有较大的差距,中文女声系统中文男声系统纯英文语音合成系统,STOP,STOP,STOP,声音转换(Voice Conversion),功能:从一个人的声音转换为另一个人声音用途:模仿(娱乐、军工)分类:到特定人、到特定类(男女,老中少,方言)、声音改变实时转换、语音合成后续模块、在线训练难点:参数合成,音质不理想训练数据多少都不合适超音色特点难以实现方法:高斯混合模型和码本映射相结合(IBM、自动化所)基于支持向量回归的声音转换(吉林大学)HMM-Based Voice Conversion(讯飞)新方向:Average Model(讯飞)水平:高质量的声音数据达到50句以上、朗读风格,效果达到满意程度(讯飞)方言还不理想(讯飞),Voice Conversion/Morphing,音色转换:在已有语音合成系统基础上模拟各种发音人说话;使合成系统具有快速适应能力,根据用户的需要提供个性化语音合成服务扩展语音服务在信息服务以外领域的功能(如娱乐),Voice Conversion/Morphing,音色转换:根据有限的目标说话人语音数据,采用模型自适应技术对参数预测模型进行说话人自适应在非常少(1句话)的目标数据基础上,都可以进行合成系统的说话人转换。,燕平 胡郁 50句燕平 刘庆峰 50句燕平 刘庆峰 5句燕平 刘庆峰 1句,STOP,STOP,STOP,STOP,Trainable TTS&Voice Conversion,有些知识分子一生坎坷,除客观原因外,有没有主观因素呢。,Intonation&Emotion TTS,Intonation和EmotionTTS在现在陈述语气合成的基础上实现感叹,疑问,强调的效果在正常情绪合成的基础上增强系统在高兴,生气,悲伤等多种情绪方面的表现能力感叹疑问演示文本:没错!现在资金这么紧缺!你还想扩大生产规模?你说这件事情令人担忧?我觉得完全不会;,Intonation&Emotion TTS,我们现在进行的情感语音方面的研究主要包括以下几个方面的内容:情感语料库的设计与录制;情感语音韵律模型的研究,主要是研究情感语音中基频、时长等韵律参数相对于中立语音的变化规律,实现情感语音的韵律预测;语音声源参数分析方面的工作,研究发音人在表达不同情感时声源参数对应的“音质”(Voice Quality)特征的变化规律;情感语音合成系统的建立,包括采用参数调整、Voice Conversion方法等。,中立合成情感合成高兴生气难过,语音识别技术,即Automatic Speech Recognition过程,简称ASR技术主要解决将语音信息转化为文本状态的文字信息的问题可以分为以下几个方面的技术 说话人鉴别 孤立词识别 连续语音识别,语音识别技术回顾,语音识别的历史,相对语音合成,语音识别更加困难,在电子计算机发明以前,很难进行这方面的工作,语音识别的复杂性孤立词/连续语音?Isolated or Continuous speech认人/不认人?Speaker-dependent or Independent小词汇量/大词汇量?Small or large vocabulary安静环境/噪杂环境?Environment robustness一般信道/电话信道?Channel adaptability,语音识别技术,语音输入,结果输出,判 决,比 较,特征提取,模 板,最基本的孤立字识别系统,语音识别技术,现代语音识别系统组成 前端处理(特征参数提取)最大限度地冗余信息的剔出,和最大限度地语音的区别特征的保留,同时具有ROBUST。例:LPC,LSP,DFT,MFCC。模型的建立与学习(生学模型、语言模型)声学模型建立与学习:模板,HMM。语言模型建立与学习:词 BI-GRAM,TRI-GRAM,POS BI-GRAM,有监督学习和无监督学习 自适应学习:OFF LINE 有监督与无监督,ON LINE 无监督 识别(分类)最佳路径搜索,决策最可能的结果 识别方法的有效性(运算量与最优性的矛盾),ROBUST性,语音识别技术,现代语音识别系统系统构成图,语音识别技术,隐马尔可夫模型(HMM),语音识别技术,电话语音识别技术电话信道环境下的非特定人连续语音识别考虑到电话信道特性,噪音,话机的差别等因素的语音识别ROBUST问题的研究电话信道环境下的非特定人连续语音识别数据库的建立,语音识别技术,安徽炫铃20次实际拨打记录分析,拨打时间:2005-5-1220次拨打,识别动作436次,产生声音296句占67.58,人声171句占39.04171句人声,语法内句子22.22语法内正确识别率60.53%,嵌入式语音识别,现有ASR的技术应用,近年来ASR核心研究的前进步伐放慢,性能几乎饱和现有系统鲁棒性还比较差使用时需要用户很好配合在噪声背景下,识别性能下降明显,现有的信号处理方法收效甚微面对对话中出现不符合语法的病句,集外词,任务外的词,说话习惯的嗯啊.等,现有的系统难以胜任和人类识别语音相比误差率要大一到两个数量级。这样的识别性能难以直接应用,但只要用户界面设计、实现的好,现有的技术可以发挥其应有的价值!,语音编码技术,语音编码技术的基本原理产生语音信号的源-滤波器模型码激励语音编码技术分析/合成语音编码技术,语音编码技术,产生语音信号的源-滤波器模型,语音压缩编码技术最新动态,语音编码技术,身份识别和确认(声纹识别),功能:通过语音识别或确认说话人身份分类:身份确认、身份识别文本相关、文本无关难点:相同人不同身体状态的音色有差别要防止恶意的模仿方法:GMM,HMM水平:1000个人,97%以上的识别正确率,音色分类,功能:通过语音识别或确认说话人音色分类:男女、老中少、南北方难点:男女相对比较容易方法:GMM水平:男女声,3秒,99%的效果(讯飞)南北声,3秒,80%的效果(讯飞),演示,休息五分钟,哼唱检索,功能:通过哼或唱出一首歌曲检索到相应的歌曲用途:声动炫铃、点歌难点:人哼唱的基频和时长不准确歌曲库大时,旋律本身比较混淆了效率方法:发音段检测+基频时长分析+动态匹配水平:1000首,8秒以上,前10候选正确率达到85%249首,8秒以上,前1候选正确率达到达到74%,前三:84%,前十:92%(讯飞),演示,音乐检索,功能:识别身边正在播放的音乐是哪首歌难点:环境噪声歌曲库大时,旋律本身比较混淆了效率方法:基频时长分析+动态匹配水平:3秒录音,几千首歌,识别准确率99%以上,语音检索,功能:输入文本或语音,找出包含该语音的录音难点:语音识别本身不鲁棒效率、网络传输效率方法:录音识别成音标或拼音层水平:检索效果还不错,Singing TTS,功能:让计算机会唱歌难点:韵律变换太大,合成音质损伤严重韵律建模难度大方法:建模后合成器调整水平:可以达到娱乐水平,语音增强,功能:将语音从噪声中分离出来难点:某些噪声很像语音;有些语音也算噪声;降噪效率方法:对语音和噪声分别建模噪音快速建模算法 水平:达到军工要求(讯飞),音效处理,功能:使语音产生别样的效果分类:在线离线难点:离线不是很难在线的情况下,算法复杂度如何降低方法:滤波器、能量频率转换水平:回声:水下:基频变换:(讯飞),评测技术,自动口语评测技术需求分析,国家普通话推广战略的迫切需求普通话水平测试人数增长迅速,工作量越来越大测试员水平的参差不齐,影响到测试结果公信力只有评分、没有反馈,难以达到“以测促学”目标指定时间和地点的考试方式难以满足海外考生需求自动口语评测系统组成客观评测:对学习者的发音水平进行评分 错误检测:对学习者的发音错误进行检测 反馈指导:对错误进行反馈,并进行学习指导,自动口语评测技术进展,2002年开始口语评测的研究2004年大规模的收集一级甲等标准普通话发音数据和普通话测试中的真实数据2004年12月,国家语委正式立项支持2005年取得重大进展,自动口语评测技术进展,2005年9月,国家语委在安徽召开现场会,科大讯飞核心技术在业界首次达到实用水平,(2005年9月26日国家语委现场测试数据),国家语委鉴定,语言方向技术的进展,基础研究:词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析 应用研究:拼音输入法、自动摘要、对话系统、文本分类、文本匹配、机器翻译、信息检索、信息抽取,语法规则库,讯飞的语言技术,分词断句,词典编撰,词性分析,语义分析,语法分析,语言模型,语音合成,语音识别,语音评测,文本韵律分析,文本分类,自动摘要,对话系统,基础研究,应用研究,语音合成前端,为语音合成后端提供:正确的拼音和音标自然的节奏、停顿合适的轻重读、语气语调信息所有这些信息将从输入的原始文本中分析获得,语音合成前端,分句,全角化,分词,语音合成前端,特殊符号处理,人名地名等未登录词识别,词性标注,语音合成前端,多音字处理(行、为、长、)“上上连变”(周总理)、“一不”变调(一定,一般)文本韵律分析(L0、L1、L3)句式判断(陈述、疑问、感叹)疑问焦点预测轻重读预测,语音合成前端,英文处理词典编撰特殊符号处理衍生词处理(happy-happiness,+ed,+es)复合词处理(applecore,SingingTTS)汉语拼音串处理(huguoping,beijing),曾老有没有在11:00查完房时为司马广criticized lisi呢?,语音合成前端,合成前端各处理环节,语言模型,一个句子的概率Unigram,bigram,trigram用于语音识别、拼音输入法、机器翻译,拼音输入法,功能:输入拼音,输出汉字难点:上这摊某被立即送往医院,但终因史学过多,不止身亡。伤者谭某被立即送往医院,但终因失血过多,不治身亡。方法:语言模型水平:95%以上的正确率,大家自有体会,自动摘要,功能:形成文章的摘要分类:单文档自动摘要、多文档自动摘要、Query相关自动摘要选摘句子、生成句子、改写句子难点:语义无法理解依赖于文章本身有无概括句方法:IDF,提示词,上下文指代消歧水平:新闻类型基本实用,其他文体困难(讯飞),对话系统,功能:通过对话完成某些信息查询或操作分类:基于文本的、基于语音的计算机控制、用户控制上下文相关、上下文无关用途:短信电话号码信息查询、点歌送歌聊天机器人、高级信息查询服务难点:真正的语义理解几乎没进展用户的表达方式各式各样:点歌、点首歌、点个歌、下个歌相同的文字可以表示不同的语义:我想点周华健的朋友送给我的朋友方法:槽、上下文约束文法水平:受限领域下,大部分的计算机主控条件下,对话成功率在95%左右(讯飞),文本分类,功能:将文本分成制定的若干个类别用途:网络净化器、反垃圾邮件反垃圾短信数字图书馆难点:取决于实际应用类别的定义之间的混淆程度方法:区分性训练(Bayes、SVM、EM)水平:基本成熟,可有效节约工作量反垃圾邮件:虚警率3%,漏警率0.5%(讯飞),文本匹配,功能:文本模糊匹配分类:两个文本串的匹配从一个长串中模糊匹配一个子串从大规模条目中快速匹配用途:搜索引擎、对话系统、信息匹配、文本条目查询难点:不同应用所需的模糊匹配的定义不一样匹配召回率和精度的平衡方法:动态规划繁简处理(国國)、分词处理(复合肥)、拼音处理(王峰锋)、同义处理(孤单孤独北半球)、焦点分析(讯飞公司)、上下文约束(一首朋友)水平:基本可以达到实用,但针对不同的应用需要调整(讯飞),机器翻译(MT),功能:语音分类:文本层面翻译、语音层面的翻译、(方言翻译)英文辅助写作、英文辅助阅读难点:信、达、雅贵府、看茶方法:IBM1IBM5基于对齐语料库EBMT水平:辅助功能有实效,信息检索,功能:Google、Baidu、MSN或受限领域文本的检索分类:互联网搜索、公司局域网搜索、Desktop Search难点:速度容量方法:建索引、倒排表、分布式TF*IDF,Okapi(BM25)Page Rank水平:成熟且实用,信息抽取,功能:从网页等非格式化信息转换为格式化的数据难点:非格式化信息各种形式都有所需信息往往比较多:机构(简称、地址、电话、网址、简介)Online的效率很难保证网页后台数据库的抽取方法:固定格式的网页分析模式学习和识别种子法水平:不是很成熟,但Offline情况下可以满足一些需求(讯飞),中文语音源头技术整合,讯飞研究院,擅长语音的数字信号处理,对汉语韵律规则非常了解,擅长语音建模和分析处理,讯飞的研究方向,语音合成语音合成系统国家标准制定可训练的语音合成系统(中文、英文)音色转换技术多感情色彩的语音合成,语音识别核心语音识别算法研究哼唱式歌曲检索技术语音自动分类技术声纹验证技术,自然语言合成和识别中的所需的文本分析技术反垃圾邮件和自动摘要系统实用的文本对话系统面向语音服务的网络信息抽取和搜索,口语评测普通话评测技术鲁棒性改进发音错误位置的自动检测技术外国人学汉语中国人学英语,我们一直在努力!We always do the best!,Email:,