基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用硕士设计.doc
《基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用硕士设计.doc》由会员分享,可在线阅读,更多相关《基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用硕士设计.doc(80页珍藏版)》请在三一办公上搜索。
1、东 南 大 学硕 士 学 位 论 文基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用Text-independent Speaker Recognition using GMM based on Genetic AlgorithmA Dissertation Submitted toSoutheast UniversityFor the Academic Degree of MasterBY Supervised by Department of Radio EngineeringSoutheast UniversityJanuary 2007独创性声明东 南 大 学 学 位 论 文
2、 独 创 性 声 明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名: 日 期: 东 南 大 学 学 位 论 文 使 用 授 权 声 明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保
3、密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权东南大学研究生院办理。研究生签名: 导师签名: 日 期: 目录摘 要基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用本文主要从说话人识别模型的初始化、训练和判别方法以及语音的端点检测等方面作研究探讨。在模型的初始化方面,方法一利用最大似然估计算法对模型进行初始化;方法二利用时间规整化方法对语音进行预先处理,用聚类后的语音对高斯模型的各成员密度函数分别进行初始化和训练。在识别模型的训练方面,主要研究高斯混合模型的模型训练。方法一利用最大似然估计算法对模型进行初始化,然后利用EM算法对初始
4、模型按一定比例进行修正,最终获得较优模型。方法二用方法一获得的部分最优个体作为遗传算法的初始种群,通过选择、交叉和变异,收敛到最优模型。遗传算法采用浮点编码,交叉和变异在一个种群的胜者组和败者组同时进行,最后改为优胜劣汰。判别方法方面,对一段语音中的帧得分进行不同变换,然后获得最终的得分,从而改善识别效果。语音的端点检测方面,分别利用简单的三门限方法和利用信噪比的方法进行端点检测。关键词:说话人识别,高斯混合模型,改进EM算法、改进遗传算法、端点检测69 目 录AbstractText-independent Speaker Recognition using GMM based on Gen
5、etic AlgorithmThis paper mostly explores in the initialization and training of speaker recognition models, the method of speaker decision and the voice activity detector.In the initialization of speaker recognition models, the initialization of Gaussion mixture models is investigated. First, utilize
6、 the maximum likelihood estimate to gain the initial models. Secondly, utilize the time warping network to gain the initial models.In the training of speaker recognition models, we also investigate the training of Gaussian mixture models. The first, utilizing the maximum likelihood estimate to gain
7、initial models, we modify these initial models with the expectation maximum algorithm according to a ratio. Then we obtain more optimal models. Secondly, using some of results that the first method attains for the initial group, the genetic algorithm converges to the most optimal models by selection
8、s, crossovers and mutations. The genetic algorithm utilizes the floating-point encoding. Crossovers and mutations are executed in the winning group and the failing group of a generation simultaneously. Finally, the optimal win and the poor fail.In the method of decision, making transforms to the fra
9、me scores of the test utterance, we compute the final score, improving the result of speaker recognition.In the voice activity detector, both the method using SNR and the mothod using magnitude and zero cross ratio are used and tested.Keywords: speaker recognition, Gaussian mixture models, advanced
10、expectation maximum algorithm, advanced genetic algorithm, voice activity detector目 录摘 要IAbstractII目 录III图片目录V表格目录VI第1章 绪论11.1. 研究说话人识别的意义11.2. 说话人识别的概念及其分类21.3. 说话人识别的国内外发展现状和存在问题21.3.1. 说话人识别的发展和现状21.3.2. 说话人识别目前存在的问题41.4. 本文组织结构5第2章 说话人识别的基本原理72.1. 引言72.2. 语音的发声原理72.3. 说话人识别的基本结构92.3.1. 语音的预处理92.
11、3.2. 说话人识别的特征选取122.3.3. 说话人识别的方法122.4. 本章小结13第3章 说话人识别的特征参数及其选取153.1. 引言153.2. 基音频率153.3. 线性预测编码(LPC)163.4. 复倒谱和倒谱183.5. MEL倒谱参数(MFCC)273.6. 差值倒谱283.7. 参数的选取方法293.8. 本章小结30第4章 说话人识别的识别方法314.1. 引言314.2. 矢量量化方法(VQ)314.3. 隐马尔可夫模型方法(HMM)374.4. 高斯混合模型方法(GMM)424.5. 本章小结42第5章 基于高斯混合模型的模型训练方法455.1. 引言455.2.
12、 模型初始化方法简介455.3. 最大似然估计(ML)465.4. EM及改进的训练方法475.5. 基于遗传算法的改进GMM模型训练方法495.5.1. 遗传算法简介495.5.2. 语音的规整化方法565.5.3. 基于遗传算法的改进GMM模型训练方法575.6. 本章小结60第6章 基于高斯混合模型的说话人判别方法616.1. 引言616.2. GMM模型识别中的问题616.3. 本章小结62第7章 说话人识别中的语音端点检测637.1. 引言637.2. 端点检测方法的研究637.2.1. 简单的端点检测方法637.2.2. 应用信噪比进行端点检测的方法657.3. 本章小结65第8章
13、 实验结果和结论678.1. 实验语音数据678.2. 改进的EM算法678.3. 基于遗传算法的改进模型训练方法68参考文献69致 谢72图片目录图片目录图 21语音产生模型8图 22说话人识别系统框图9图 31中心削波函数Cx16图32 卷积组合变为线性组合系统粗略图19图 33卷积组合变为线性组合详解图19图 34微商法求复倒谱23图 35最小相位法求复倒谱25图 36 Mel倒谱求解图28图 41说话人识别的矢量量化法32图 42矢量量化系统框图33图 43 LBG算法流程图36图 44 HMM模型37图 51遗传算法流程图50图 52时间规整网络的结构57图 61基于GMM说话人辨认
14、系统结构框图61表格目录表格81 系统识别率(成员密度函数总数为4,修正因子变化)67表格82系统识别率(成员密度函数总数为6,修正因子变化)67表格83系统识别率(成员密度函数总数为8,修正因子变化)67表格 84 系统识别率(修正因子为1,成员密度函数总数变化)68表格85 系统识别率(成员密度函数总数为24,修正因子变化)68表格86 系统识别率(成员密度函数总数为25,修正因子变化)68表格87 系统识别率(成员密度函数总数为25,修正因子变化)68表格88 系统识别率(成员密度函数总数为26,修正因子变化)68第1章 绪论第1章 绪论1.1. 研究说话人识别的意义说话人识别1又称声纹
15、识别,它利用语音信号来识别出说话人的身份,与指纹识别、人脸识别、虹膜识别、掌形识别、姿态识别等同属于生物识别的范畴。语音是人的自然属性之一,由于各个说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩。因此每个人的语音中蕴含着与众不同的个人特征。用语音来鉴别说话人的身份有着许多独特的优点:对于正常人来说,语音是人的固有特征,不会丢失或遗忘,具有随身携带性;每个人的声带、咽喉、口腔和鼻腔的构造不同,而且每个人在肺部收缩,压迫气流由支气管经过声门和声道的方式不同,导致每个人的语音特征有极强的个性,很难模仿,具有个人特性的唯一性;语音信号的采集简易方便,系统设备成本低。因
16、此,语音不仅具有自然唯一性、随身携带性、不会遗忘等特点,还具有数据采集设备的非接触性和简易性等其它生物特征所不具备的优点。语音信号的这些优点使得说话人识别在许多领域具有广泛的应用前景。说话人识别在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动检测和认证中具有极大的应用价值和广泛的应用前景,是当今语音信号处理和生物特征信息检测和识别领域的重要研究方向。在保安领域,可以利用说话人识别作为出入的凭证,如用特定人的声音是实现机密场所的出入人员的检查;在工厂职工的口令实现职工签名管理等。在公安司法领域,可以利用说话人识别作为罪犯身份鉴定的手段,如判断犯罪现场记录的声音是多个嫌
17、疑犯中的哪一个人的声音,将说话人辨认和确认结合起来还可以判断出嫌疑犯中是否包含真正的罪犯。日本警方研究人员经过长期研究表明说话人识别可以作为可信的法庭证据。在军事领域,可以利用说话人识别进行指挥员鉴别,然后判断不同的指挥员所处的位置,获取敌方作战部署的意图,从而在战争中可以知己知彼为最终的胜利增加筹码。在财经领域,可以利用说话人识别作为身份确认的有效手段,如电话预约业务中的声音确认自动转账会馆、余额通知和股票行情咨询等等。在信息服务领域,同样可以利用说话人识别作为身份确认的工具,如自动信息检索或电子商务等Internet信息服务中的声音身份确认等等。在医学应用中,可利用说话人识别系统响应患者的
18、要求,从而实现对机器假肢的控制,避免任何都能控制该假肢的弊病。对说话人识别的研究始于20世纪60年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G. Kesta用目视观察语谱图的方法进行识别,提出了声纹 (voiceprint) 的概念。此后,随着电子技术和计算机技术的发展,说话人识别的研究取得了突飞猛进的发展,动态规划、线性预测、矢量量化、隐马尔科夫模型等技术先后成功应用于说话人识别。识别的模型从单模板模型发展到多模板模型,从多模板模型发展到VQ模型、高斯混合模型、隐马尔科夫模型,再到人工神经网
19、络模型。识别环境从无噪声环境下对少数说话人的识别发展到复杂环境下对大量说话人的识别。所采用的识别技术从仅涉及动态规划发展到涉及统计信号处理、矢量量化与编码、模糊系统理论与方法、最优估计理论、人工神经网络、灰色系统分析等多科学领域。1.2. 说话人识别的概念及其分类自动说话人识别(Automatic Speaker Recognition :ASR),是从说话人的一段语音中分析和提取出说话人的个性特征,自动确定说话人是否在所登记的说话人的集合中,以及说话的人是谁的过程。很久以来它就是一个既有巨大吸引力而又有相当难度的课题。说话人识别又可以划分为两个范畴,即说话人辨认(Speaker Identi
20、fication)和说话人确认(Speaker Verification)。前者是把待测说话人的语音判定为属于语音库中多个参考人之中的某一个,是多者择一的问题。后者则是根据待测说话人的语音,确定是否与其所声称的参考说话人相符,这种确认只有两个结果,或是肯定(即得到确认),或是否定(拒绝承认)。另外对于说话人认识别来说,不管是辨认还是确认,都可以按照话语的文本可分为与文本有关(Tex-Dependent)的说话人识别和与文本无关(Text-Independent)的说话人识别。其中与文本有关话者识别可以采用很多方法。由于已知文本,提供了大量的信息,因此这些方法能获得较好的效果。然而,对于用户来说
21、固定的文本可能很不方便。而且,当说话人不合作或在日常会议中进行确认时与文本有关的话者识别就不起作用。为了避免这个问题,发展与文本无关的话者识别方法显得尤为重要。1.3. 说话人识别的国内外发展现状和存在问题1.3.1. 说话人识别的发展和现状随着社会、军事以及安全等领域需求的增长,美国、日本、欧洲等一些发达国家都相继加强了说话人识别的研究工作,我国一些高校和研究机构也对说话人识别进行了深入研究,并取得了一定的成果。在说话人识别的特征参数提取方面,1963年Bell实验室的S.Pruzansky2和1971年P.D.Breaker3提出了用短时谱中的信息作为说话人特征;1968年B.S.Atal
22、4采用基音频率、1971年G.Doddington5采用共振峰频率、1972年M.R.Sambur6用线性预测系数(LPC)、1973年S.Frurui和F.Itakura用语音对数域比例7、1972年J.J.Wolf8和1975年M.R.Sambur9从元音和鼻音中提取出较好的说话人特征、1974年B.Atal10通过比较各种参数得出倒谱系数为说话人识别提供最好的结果,倒谱成为说话人识别系统的首选参数;1983年Li and Wrench采用LPC倒谱参数11、1995年Reynolds等人1213采用了Mel倒谱,取得了较好的效果,Attili14于1988年采用倒谱、LPC系数和自相关系
23、数作为特征参数获得了很好的效果,从而使得倒谱参数与其他特征参数相组合的研究成为了说话人识别参数提取的研究热点15161718;1996年Colombi15将倒谱、差分倒谱相结合作为混合特征参数;Reynolds16采用了Mel倒谱和差分Mel倒谱相结合;Jungpa Seo17、Petry等人18于2001年将分形维数与差分LPC倒谱参数相结合均取得了很好的效果。在识别方法方面,七十年代到八十年代初,大多数说话人识别系统都采用模板匹配法(Pattern match)1011,如1974年,AT&T的Atal用模板匹配法研究了10人的与文本有关的说话人识别,其说话人辨识(0.5s)的误识率及说话
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 遗传 算法 混合 模型 文本 无关 说话 识别 中的 应用 硕士 设计
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4835799.html