最新语音声纹识别技术及应用.ppt
《最新语音声纹识别技术及应用.ppt》由会员分享,可在线阅读,更多相关《最新语音声纹识别技术及应用.ppt(92页珍藏版)》请在三一办公上搜索。
1、最新语音声纹识别技术及应用,2018年1月,主要内容,2,声音处理,声音的三要素,音质,声音的三要素是音调、音色和音强,音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。,音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和不同振幅的混合声音。,音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振幅越大,强度越大。,对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。,音质与声音还原设备有关。,音质与信号噪声比(SNR)有关。,文件,数字化的音频文件主要分为4类:,波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav”。,MIDI音频文
2、件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名是“.mid”。,CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。,压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该格式的文件简称MP3文件。,声音处理,声音处理,获取声音,获得CD中的声音,录音,声音转换,如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音,这就是“采样”。可以使用Easy CD-DA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。,要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高的采样频率。可以使用Win
3、dows系统自带的“录音机”进行录音。,声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件,使用Windows的“录音机”转换即可,并且转换功能很强。如果要进一步处理,可采用CoolEdit(Adobe Audition)工具软件。,短时能量和过零率,语音分帧每帧10-30ms,帧间隔10ms短时能量对数平方和绝对值过零率(ZCR),6,参数提取的预处理,预加重:减少尖锐噪声影响,提升高频部分加窗:Hamming 减少Gibbs效应,7,各种参数的比较,Linear Prediction Cepstrum Coefficients(LPCC)假定所处理信号为自回归信号(不适用辅音)
4、;计算简单,但抗噪性差。Mel-Frequency Cepstrum Coefficients(MFCC)模拟人的听觉模型;强调低频部分,屏蔽噪声影响;识别率高,但计算量大。能量辅助作用,需归一化。音调对算法要求高,适于二次判别。,8,Mel-频率,目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力1kHz以下,与频率成线性关系1kHz以上,与频率成对数关系Mel频率定义1Mel1kHz音调感知程度的1/1000,9,Mel-频率,公式:频率Mel-频率:,-频率,-Mel-频率,Mel-频率,频率(Hz),10,MFCC,计算流程:,11,DFT,时域信号,线性谱域,Mel
5、滤波器组,Log,DCT,Mel谱域,对数谱域,MFCC,主要内容,12,语音识别,Automatic Speech Recognition(ASR)的中文含意是自动语音识别。语音识别技术的目标是让机器能够“听懂”不同人说的话,实现从声音到文字的转换。,13,语音识别基本术语,特定人和非特定人(话者相关或话者无关)词汇量(大,小)孤立词,连接词,关键词和连续语音自然发音和朗读发音口音(方言)背景噪音(环境噪音)信道差异(固定电话,麦克,手机等)声学模型(HMM,mono-phone,bi-phone,tri-phone)声学特征(MFCC)解码(Viterbi),14,语音识别基本术语,识别指
6、标:SER(Sentence Error Rate,句子错误率)WER(Word Error Rate,词错误率)CER(Character Error Rate,字错误率)PER(Phone Error Rate,音节错误率)采样率,8kHz(电话或手机),16kHz(麦克风)时域,频域端点检测,静音检测或有效音检测(VAD),15,语音识别分类,16,语音识别发展历史,50年代AT&T Bell Lab,可识别10个英文数字60年代LP较好地解决了语音信号产生模型,DP则有效解决了不等长语音的匹配问题。70年代DTW(Dynamic Time Warp)技术基本成熟,实现了基于LPC和DT
7、W技术相结合的特定人孤立词语音识别系统。80年代HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。90年代大规模应用,工业标准,理论进展缓慢。,17,语音识别潜在应用,18,语音识别系统框架,19,特征提取,训练,模式匹配,拒识,语法,模型,结果,语音,说话人自适应,语音识别过程,20,HMM基础(1),隐含Markov模型观测可见,状态隐含基本要素N-模型状态数=i-初始概率分布A=aij-状态转移矩阵B=bj(k)-输出概率矩阵,21,HMM基础(2),转移概率矩阵aij状态i到状态j发生跳转的概率,22,
8、HMM基础(3),输出概率bi(x)x属于状态i的概率,23,HMM基础(4),HMM的三个基本问题-模型评估问题(如何求:P(O|)-最佳路径问题(如何求:Q=q1q2qT)-模型训练问题(如何求:A、B、),24,模型评估问题(如何求:P(O|),前向概率给定HMM参数,在t时刻处于状态i,部分观察序列为o1o2ot 的概率后向概率给定HMM参数,在t时刻处于状态i,部分观察序列为ot+1ot+2oT 的概率,25,模型评估问题(如何求:P(O|),前向和后向递推的示意图,26,最佳路径问题(如何求:Q=q1q2qT),前向后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法不
9、完全的状态空间搜索保留状态转移路径的信息,27,最佳路径问题(如何求:Q=q1q2qT),Viterbi算法的搜索空间,28,Viterbi识别算法和路径回溯,29,模型训练问题(如何求:A、B、),优化问题优化目标:P(O|)最大Lagrange数乘法,辅助函数:,30,Baum-Welch参数重估算法:,31,模型训练问题(如何求:A、B、),连续HMM算法,连续的含义参数重估识别算法,32,“连续”的含义,连续混合高斯概率密度函数(pdf):每个状态表示为若干函数fn(x)的线性组合fn(x)是连续高斯概率密度函数,33,连续HMM参数重估(1),需要重估的参数:起始概率转移概率各状态中
10、不同pdf的权各状态中不同pdf的均值和方差,34,连续HMM参数重估(2),t时刻序列处于状态j、混合高斯密度l的概率,35,连续HMM参数重估(3),pdf的无溢出参数重估公式,36,识别算法,概率计算:P(O|)Viterbi算法对数形式与离散HMM相似,只需替换bjl(x),37,实际HMM系统的具体问题,起始概率的问题转移概率的问题模型的自适应区别性训练,38,起始概率的问题,自左向右结构的HMM,起始概率为:1,0,0,0即:只能从第一个状态开始,39,转移概率的问题,大量实验证明:转移概率对识别性能的影响是微不足道的训练过程中,常常将其设定为常数:aij=0.5识别过程中,不进行
11、log(aij)的累加仅考虑bi(.)的作用,40,模型的自适应(1),自适应的必要性口音感冒.MAP自适应算法MAP:最大后验概率准则本质上是重新训练一次,对原B矩阵进行微调特点:简单,对每个HMM单独自适应,只需一次发音,41,模型的自适应(2),MLLR算法MLLR:最大似然线性回归本质:将原模型的参数进行线性变换后再进行识别特点:少量语音可以对所有模型进行自适应,只要得到线性变换矩阵即可,42,区别性训练,传统HMM训练算法的缺陷MCE算法MCE:最小分类误差准则使用场合:小词表识别系统需要细致调整算法参数,才能保证收敛,43,中文语音识别的特点,相对于西方语言来说,中文有自己的独特之
12、处。中文是有调语言,发音的基本单元是声母和韵母并且以音节为自然单位,一个音节就是一个字甚至词,以至字词的时长很短,混淆度更大。另外,中文用415个基本的无调音节来构成7000多个基本汉字的发音,多音字很多。特别是,中文的发音和字是独立的,仅仅是中国大陆地区就有很多的方言,口音问题非常严重。特别是在做中文孤立词和短语命令识别的时候,由于没有上下文的信息并且语音的长度很短,口音会严重地降低识别率。,44,中文语音建模基元比较,45,语音识别应用举例,嵌入式语音识别:智能玩具:语音对话娃娃、语音声控机器人智能家电:语音识别台灯、语音识别插座智能手机:语音拨号电话语音识别:语音电话簿:电信增值智能语音
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 语音 声纹 识别 技术 应用
链接地址:https://www.31ppt.com/p-5753091.html