语音信号处理(ppt)语音识别.ppt
1.什么是说话人识别(SR)?说话人识别(Speaker Recognition,SR)技术是以话音对说话人进行区分,从而进行身份鉴别与认证的技术。在国外,说话人识别技术获得了广泛的研究,同时也有少量成熟产品问世。AT&T、TI与美国著名的通讯公司Sprint都已经展开了在声音识别领域的实验和实际的应用。说话人识别技术有着广阔的市场应用前景。通过SR技术,可以利用人本身的生物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。在互联网应用及通信领域,SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音E-mail、安全控制、计算机远程登录等领域。在呼叫中心应用上,SR技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出来者的身份,从而提供更个性化、更贴心的服务。,近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。,2.SR的历史60年代,计算机的应用推动了语音识别的发展。70年代,语音识别领域取得了突破80年代,语音识别研究进一步走向深入进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实 用。,我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。,3.语音识别技术语音识别系统的分类方式及依据 根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。,不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1所示。,特征提取,模式匹配,模型库,识别结果,语音输入,图1 语音识别的实现,语音 分析,身份声明,模型产生,模型存储,特征提取,距离测量,识别判决,表征说话人特点的基本特征 这些特征应该具有如下特点:(1)能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。(2)易于从语音信号中提取。(3)不易被模仿。,特征提取,声纹识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的声纹识别系统主要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类:谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为声纹识别特征。基音轮廓、共振峰频率带宽及其轨迹 这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。,特征提取,线性预测系数使用线性预测系数是语音信号处理中的一次飞跃,以线性预测导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数,如美倒谱系数、感知线性预测等。此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。,说话人识别的几种方法1.模板匹配法模板匹配法的要点是:在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量,这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词,数字串或句子中提取。在测试阶段,从说话人发出的语音信号中按同样的处理方法提取测试模板,并且与其相应的参考模板相比较。,2.概率统计方法 语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整,比较适合文本无关的说话人识别利用子词单元构成的隐含马尔柯夫模型,构成了一个说话人确认系统,每个子词单元用一个从左至右的HMM描写,每个模型包含2到3个状态。,3 动态时间规整方法 说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整DTW。,4 矢量量化方法 矢量量化最早是基于聚类分析的数据压缩编码技术。Helms首次将其用于声纹识别,把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。Bell实验室的Rosenberg和Soong用VQ进行了孤立数字文本的声纹识别研究。这种方法的识别精度较高,且判断速度快。,5 隐马尔可夫模型方法 隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在CMU和IBM被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用HMM识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。HMM不需要时间规整,可节约判决时的计算时间和存储量,在目前被广泛应用。缺点是训练时计算量较大。,提取特征矢量,初试分段,构造种子模型,读入一次发音的特征矢量,计数器初使化,Viterbi算法重分段,“语法”约束,模型参数,根据新的语音分段边界,重估计各HMM状态的输出分布均值和方差,求方差的特征值,特征矢及每次转移的概率,收敛,结束,最后一次发音,人工神经网络方法 人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目增加时可能大到难以训练的程度。把以上分类方法与不同特征进行有机组合可显著提高声纹识别的性能,如NTT实验室的T.Matsui和S.Furui使用倒谱、差分倒谱、基音和差分基音,采用VQ与HMM混和的方法得到99.3%的说话人确认率。,对于说话人确认系统,表征其性能的最重要的两个参量是错误拒绝率和错误接受率。前者是拒绝真实的说话人而造成的错误,后者是接受假冒者而造成的错误,二者与阈值的设定相关。说话人确认系统的错误率与用户数目无关,而说话人辨认系统的性能与用户数目有关,并随着用户数目的增加,系统的性能会不断下降。,总的说来,一个成功的说话人识别系统应该做到以下几点:能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定,如感冒等情况。不易被他人模仿或能够较好地解决被他人模仿问题。在声学环境变化时能够保持一定的稳定性,即抗噪声性能要好,声纹识别应用前景,与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性:用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍。利用语音进行身份识别可能是最自然和最经济的方法之一。声音输入设备造价低廉,甚至无费用(电话),而其他生物识别技术的输入设备往往造价昂贵。在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物等,与其他生物识别技术相比,声纹识别更为擅长,得天独厚。由于与其他生物识别技术相比,声纹识别具有更为简便、准确、经济及可扩展性良好等众多优势,可广泛应用于安全验证、控制等各方面,特别是基于电信网络的身份识别,通过SR技术,可以利用人本身的生物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。在互联网应用及通信领域,SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音E-mail、安全控制、计算机远程登录等领域。在呼叫中心应用上,SR技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出来者的身份,从而提供更个性化、更贴心的服务。,SR的未来 SR技术发展至今,尽管已经取得了不错的进展,要寻找更加优良的研究方法仍然有相当艰巨的路要走。由于技术条件所限,目前所采用的抽样建模方法还存在着不足。对SR最有影响的因素是在不同实验中声音特性信号的变更,包括说话者生理上的变动性以及实验条件的不稳定性等,这些都对SR识别系统构成严峻的挑战。此外,SR技术还应解决提取声音长期稳定的特征参数的问题。在两个人进行交谈时,自动从中提取出每个人的声音特性并加以区分的技术也是值得研究的方向。,