《语音识别综述》PPT课件.ppt
8/1/2023,1,语音识别综述,8/1/2023,2,提纲,语音识别简介主流方法技术现状,8/1/2023,3,提纲,语音识别简介主流方法技术现状,8/1/2023,4,语音识别简介分类,根据处理的语音数据和识别结果分类连续语音识别(Continuous Speech Recognition)孤立词识别(Isolate Word Recognition)关键词检测(Key Word Recognition,Key Word Spotting)根据针对的发音人分类特定人语音识别(SD:Speaker Dependent)非特定人语音识别(SI:Speaker Independent),8/1/2023,5,语音识别简介分类,根据词汇量大小分类小词汇量(Small Vocabulary):几百以内中词汇量(Medium Vocabulary):几百到几千大词汇量(Large Vocabulary):上万,真实语言根据语音设备和通道分类桌面语音识别电话语音识别嵌入式设备语音识别,8/1/2023,6,语音识别简介当前研究工作,主要研究方向大词汇量连续语音识别(LVCSR:Large Vocabulary Continuous Speech Recognition)桌面:广播语音(新闻、访谈、广告)电话:真实、自然的对话主要研究单位美国:各大学(CMU,MIT,etc)大公司(IBM,Dragon,Intel,Microsoft)中国:声学所,自动化所,清华,北大,8/1/2023,7,语音识别简介主要应用,主要应用桌面输入法(ViaVoice):噪音、方言问题电话语音服务器:中国现阶段主要应用手机、PDA命令:比较热的方向,噪音、方言智能交互:信息亭,飞行员训练,8/1/2023,8,提纲,语音识别简介主流方法技术现状,8/1/2023,9,主流方法系统框架,特征提取,语言模型,自适应,第一遍识别,声学模型,前端处理,第n遍识别,语音,识别结果,识别结果,系统框架,8/1/2023,10,主流方法前端处理,前端处理消除个体的影响声道长度归一(VTN:Vocal Tract Length Normalization)端点检测短时能量高阶谱算法子带能量语音增强(去噪)维纳滤波,8/1/2023,11,主流方法特征提取(MFCC),8/1/2023,12,主流方法声学模型,声学模型确定发音串P(O|A)主流方法CHMMHMM的单元:三音子(Tri-Phone)注:Phone(Phoneme):音子,b,t,a Syllable:音节,ba,ti,tao Bi-Phone:二音子,b-a-t-a,b-a-t-a Tri-Phone:三音子 w-o-sh-i-sh-u-i,w-o-sh-i-sh-u-i,8/1/2023,13,主流方法语言模型,语言模型已知发音串写出词串P(S|LP)P(P|L)P(L|W)P(W|A)P(A)其中,W是字串,A是读音串,L是词串,P是词性串,S是词义串主流方法三元语法:Tri-gram,8/1/2023,14,主流方法搜索算法,搜索(解码)识别的主要过程通过搜索找到某一概率(P(W))最大化的字串W主流方法Viterbi搜索:HMM内部词网格搜索:HMM之间,8/1/2023,15,主流方法说话人自适应,说话人自适应根据新的语音重新调整模型参数特定人和非特定人之间的一种折衷主流方法MLLR(最大似然线性回归)对模型参数寻找一个最优线性变换y=Ax+bMAP(最大后验概率)求使得后验概率最大的参数max P(|x),8/1/2023,16,主流方法模型训练,声学模型调整HMM参数带噪声训练方言库训练语言模型计算N-gram概率数据稀疏问题,8/1/2023,17,主流方法模型训练,8/1/2023,18,主流方法模型训练,8/1/2023,19,主流方法模型训练,集群机自行设计、组装和调试20个节点,通过百兆交换机连接节点:P4 2.4GHz,512MB内存,40GB硬盘并行训练算法Linux平台基于NFS和SSH技术的数据并行算法数据自动分块,任务自动分发性能(用720小时的语音数据训练)从:原先的4周时间到:现在的3天时间,8/1/2023,20,提纲,语音识别简介主流方法技术现状,8/1/2023,21,技术现状识别效果,识别率美国:广播语音可达80中国:有较强噪声的朗读语音:70左右距离实用还有相当大的距离应用办公室等安静环境手机等特定应用,8/1/2023,22,技术现状主要问题,对噪音鲁棒性不高,在噪音环境效果严重下降识别系统技术严重趋同,技术创新不足MFCC+HMM+MLLR过分依赖训练数据量的增加语音库噪声库文本资源,8/1/2023,23,技术现状美国语音行业现状,工业界总体是近乎亏损,通过整合来降低成本整盘后盈利或持平的可能已经出现学术界做大系统的单位减少,专注于创新性的小项目/子课题的研究DARPA(Defense Advanced Research Projects Agency)集中资源扶植主力单位,不鼓励小而全的单位对创新研究的小任务也有明确的整合要求已完成实际需求为目的,8/1/2023,24,The End,终于完了谢谢大家下面的时间自由讨论请把自己关心的问题提出,大家共同讨论,