6语音信号处理说话人识别(2).ppt
《6语音信号处理说话人识别(2).ppt》由会员分享,可在线阅读,更多相关《6语音信号处理说话人识别(2).ppt(39页珍藏版)》请在三一办公上搜索。
1、说话人识别,说话人识别(1),说话人识别(Speaker Recognition):又称为话者识别,是指通过对说话人语音信号的分析处理,自动确认说话人是否在所记录的话者集合中,以及进一步确认说话人是谁。为什么能识别说话人?人与人间在发音器官上存在着差异,例如在声带和声管形状上的差异;讲话时发音习惯的差异,包括方言、土语、抑扬顿挫、常用词汇及讲话上的怪僻语等;说话人特点以复杂的形式反映在其语音波形中。使得每个人的语音都带有强烈的个人色彩。,说话人识别(2),说话人识别的分类 按其识别任务分:说话人辨认(Speaker Identification)判断某段语音是若干人中的哪一个人所说,是“多选一
2、”问题。又可分为开集和闭集两种。说话人确认(Speaker Verification)确定某段语音是否是指定的某个人所说,是“一对一”的判别问题。说话人分割和标注(Speaker Segmentation and Labeling)将多个说话人的数据分割标定为独立的部分。,说话人识别(3),说话人识别(4),说话人识别(5),根据识别对象的不同,还可将说话人识别分为三类:与文本有关(TextDependent)与文本无关(Text-Independent)文本提示型(Text-Prompted),说话人识别(6),说话人识别技术有着广阔的应用前景电话信道罪犯缉拿、法庭中电话录音信息的身份确认、
3、电话语音跟踪,为用户提供防盗门开启功能等等。通信领域,说话人识别技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登陆等领域。呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。,说话人识别(7),说话人识别的基本原理,说话人识别(8),几个问题1)语音信号的预处理和特征提取。即提取能够有效表征说话人特征的参数。2)说话人模型的建立和模型参数的训练。3)测试语音与说话人模型的匹配计算。4)识别与判决策略。即根据匹配计算的结果,采用某种判决准则判定说话人是否是所声称的说话人(说话人确认)或说话人到底是谁(说话人辨认)。,说
4、话人识别(9),性能的评价评价说话人识别系统性能的指标有很多,例如系统的识别率,训练时间的长短和训练语料的数量、识别响应时间、话者集规模、说话方式要求以及价格等。比如说,声控门锁识别响应时间要求很严格,但可获得充足的训练语料。司法鉴定,对识别响应时间的要求可以相对放松,但训练数据的充足性无法保证。说话人辨认系统常用的是识别率,以及错误率(误识率)。,说话人识别(10),说话人确认系统,则常用两个错误率来表示:错误拒识率(False rejection,简称FR),错误接收率(False acceptance,简称FA)。,说话人识别(11),说话人识别的特征提取在理想情况下,这些特征应该具有如
5、下特点:具有很高的区别说话人的能力,能充分体现说话人个体间的差异,而在说话人本身语音发生变化时保持相对稳定;在输入语音受到传输通道和噪声的影响时,能够具有较好的顽健性(robustness);易于提取和计算,且在特征的各维参数之间应有良好的独立性,在保持识别率的情况下,有尽可能少的特征维数;不易被模仿。,说话人识别(12),特征参数的评价方法 评价特征对识别的贡献有两种方法:通过定义F比和D比,来分别表征单个参数和多维特征矢量在特征空间中的区分能力,以衡量特征参数的有效性;在识别过程中通过增减分量的方法,考察每个特征分量的贡献。,说话人识别(13),F比和D比如果对同一人的不同次发音,其分布比
6、较集中;而不同说话人的发音分布相距较远,则所选择的这组特征参数就能够有效地描述说话人的个性特征。对单个参数而言,可以取两种分布的方差之比(称为F比)来作为有效性的度量准则。它反映了不同说话人的分散程度与各说话人自身的分散程度之间的对比关系。,说话人识别(14),F比,设:,为第i个说话人第t次发音得到的特征参数;,为对不同说话人求平均;,为对说话人的不同次语音求平均;,为对第i个说话人的特征均值的估值;,为对所有说话人均值 总均值的估值。,采用F比较大的特征一般会得到较好的性能。,说话人识别(15),D比 F比没有考虑到特征矢量中各维参数之间的相关性。把F比的概念推广到多维,人们定义了D比,用
7、以衡量多维特征矢量在说话人识别系统中的有效性。定义两个协方差矩阵,即说话人间的协方差矩阵 和说话人内协方差矩阵,,定义对多维特征矢量的可分性测度散度,即D比为,,D比考虑了特征矢量中各维参量之间的相关性。,说话人识别(16),增减分量法 在给定识别方法后,考察特征矢量中各分量对识别率的影响,可通过在特征矢量中增加或去掉它,考核识别率的变化来确定它的贡献。一种使用平均贡献函数来表征特征参数相对重要性的方法:,已知一K维特征矢量,可以用下式来定义其第i维分量的平均贡献,,其中,是以第i到第j维特征参数为特征时的识别率。,说话人识别(17),说话人识别系统中常用的特征 基于声道的LPCC 特征。基于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 说话 识别

链接地址:https://www.31ppt.com/p-2676408.html