毕业设计(论文)基于Kohonen神经网络的语音特征轨迹的可视化.doc
《毕业设计(论文)基于Kohonen神经网络的语音特征轨迹的可视化.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于Kohonen神经网络的语音特征轨迹的可视化.doc(36页珍藏版)》请在三一办公上搜索。
1、基于Kohonen神经网络的语音特征轨迹的可视化摘 要目前在语音识别处理领域有着诸多方法,其中的基本处理手段大都基于对语音特征矢量的比对分析,因为语音特征量能有效地代表语音特征,包括声道特征和听觉特征,具有很好的区分性,可以成为比对分析的依据。但是特征矢量抽象、不直观,给比对分析造成一定的困难。若能找到一种直观、简便的方法直接展现不同语音的特征矢量将给语音特征的辨识带来很大便利。本文针对语音特征轨迹可视化展现的方法进行了探讨:(1) 对语音特征矢量在时域、频域、倒谱域的提取方式进行了分析,特别是对语音在倒谱域上的MFCC特征提取方法给出了详细说明。(2) 对Kohonen神经网络的实现原理进行
2、了重点研究分析,对Kohonen神经网络的自组织特性、聚类特性、竞争学习等特性做了详细阐述。对基于Kohonen神经网络将语音特征的轨迹进行可视化展现的方法进行了探讨。(3) 用MATLAB在PC机上实现基于Kohonen神经网络的语音特征轨迹可视化系统,并对给定的语料进行语音特征轨迹测试。证明了语音轨迹在Kohonen二维平面的可视性和直观性。论文以语音特征轨迹可视化的实现为中心,阐述了Kohonen神经网络运用于语音特征轨迹可视化系统中的原理、建模方法以及可视平台的实现手段。本文由六部分组成:第一章对本毕业设计的研究背景和设计目标作宏观介绍;第二章对本文中用到的相关概念和原理进行介绍;第三
3、章对基于Kohonen神经网络的语音特征轨迹的可视化的方法进行重点讨论,给出系统的框架,内部模块的功能描述和接口;第四章详细讨论每个模块的实现方法;第五章通过实验数据对模块功能进行测试,讨论使用本文所述方法对语音特征轨迹实现可视化的效果;最后一章为总结和展望。关键词:Kohonen神经网络,自组织特征映射,语音识别,可视化THE VISUALIZATION OF SPEECH FEATURE TRACKS BASED ON KOHONEN NEURAL NETWORKS AbstractIn the paper, the model of how to show the visualizati
4、on of speech feature tracks is being discussed.First, investigates and analyzes the method of speech feature extraction and expound the main algorithm in the MFCC particularly and implement methods. Second, discusses in detail THE VISUALIZATION OF SPEECH FEATURE TRACKS with the methods based on Koho
5、nen neural network, Finally, design and implement the VISUALIZATION of SPEECH FEATURE TRACKS system used MATLAB at Windows platform. The experiments show that SPEECH FEATURE TRACKS can be draw at Kohonen two-dimensions plane.The paper is organized into six chapters: chapter 1 describes some concept,
6、 history and presents a brief overview of this design; chapter 2 mainly introduces some fundamental concepts of speech recognition and Artificial Neural Network; Chapter 3 discusses in detail THE VISUALIZATION OF SPEECH FEATURE TRACKS method based on Kohonen Neural Network. Based on this research, a
7、uthor gives a system flow and every modules interface; Chapter 4 discusses in detail the methods of every modules; Chapter 5 specific implement methods and analyzes the test data with the methods; Chapter 6 discuss the summing-up and vista.KEY WORDS: Kohonen Neural Networks,SOM,Speech Recognition,Vi
8、sualization目 录第一章前 言111语音信息处理的基本概念和现状11.1.1语音信息处理的各个领域112我的工作31.2.1工作目标31.2.2主要成果31.2.3本文的安排4第二章相关概念和基本原理521语音识别52.1.1语音学的相关知识52.1.2语音特征分析92.1.3语音识别算法1322神经网络的基本概念142.2.1人工神经网络的由来142.2.2人工神经网络的种类162.2.3 Kohonen神经网络的原理182.2.4 Kohonen神经网络的结构182.2.5 Kohonen神经网络的特点192.3 Kohonen神经网络用于语音特征分析的可行性20第三章系统实现2
9、231系统框架223.1.1语音输入223.1.2语音采集233.1.3特征提取233.1.4 SOM网络23第四章每个模块采用的算法和数据结构2441语音采集2442特征量提取2543 SOM网络26第五章实验结果30第六章总结和展望32参考文献33致谢34第一章 前 言11语音信息处理的基本概念和现状语音信号数字处理是指用数字化的方法对语音进行传送、存储、识别、合成、增强等处理,是数字化通信网中最重要、最基本的组成部分之一。应该说语音信号数字处理是一门涉及面很广的交叉科学,它与语音学、语言学、概率与数理统计以及神经生理学等学科都有非常密切的关系。1.11语音信息处理的各个领域l 语音识别(
10、Speech Recognition)以语音信号处理为研究对象,用声音来进行特定范围的词语辨别。所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。所以,要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定,根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。l 说话人识别(Speaker Recognition)它并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的特征,力求挖掘出包涵在语音信号中的个性因素,强调的是
11、不同人之间的差别。说话人识别多用于保安领域,如机密场所的进入控制、身份核查、合法使用通信线路、电子银行转帐业务的安全检查等。l 说话人区分(Talker separation)从多个说话人的混合话音信号中提取每个人的语音信号。由于混合语音信号往往是通过单声道进入处理系统,不同说话人的基音和共振峰往往交叉或重叠,所以区分起来难度很大。l 语言辨识(Language Identification)区分所处理的语音属于哪一种语言。这是一件相当困难的事,因为难以表征某种语言特有的参量。加之说话人的多种多样性,不同地区的口音和发音习惯更增加了问题的难度。l 语音编码(Speech Coding)语音信号
12、编码可分成两大类。第一类是编码存储回放系统,或称数字语音录放系统;第二类是编码传输解码系统,或称数字电话通信系统。数字语音录放系统具有灵活性高、可控性强、寿命长等优点,广泛应用在诸如数字录音电话、语音信箱、电子留言簿、发声字典、多媒体查询系统等。数字语音通信系统具有抗干扰性强、保密性好、易于集成化等优点,因此目前语音通信系统都在向数字化方向发展。在数字语音通信系统中,不仅要求能够实时编解码,往往还有抗信道误码等要求。l 语音合成文-语转换(Text-to-Speech Conversion)以文字串为输入的规则合成系统。其输入的文字串是通常的文本字串,文本分析器首先根据发音字典将输入的文字串分
13、解为带有属性标记的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级和语句结构及语调、各种停顿等,这样,文字串就转变为代码串。规则合成系统就可以据此合成抑扬顿挫和不同语气的语句。文-语转换系统除了依赖各种语义学、语音学、词规则外,还必须对文字内容有正确理解,这就涉及语用学以及篇章学问题,也就是自然语言的理解问题,所以真正的文-语转换系统实际上是一个人工智能系统。l 语音增强(Speech Enhancement)语音增强在一定意义上也可以说是实现一种说话人区分。只不过所区分的不是来自其他说话人的语音干扰,而是区分出在背景中的噪声。因为噪声对语音的识别精度有着重大的影像
14、。在实际生活中背景噪声环境十分复杂,有相对固定的环境噪声,如风机声,机械传动声等,这类为窄带噪声;还有一类噪声为宽带白噪声,其频谱很宽,但与语音的相关程度很小;再有就是非平稳的随机噪声,其特征是复杂多变,语音增强的目的在于改善语音的质量,压制和弱化背景噪声,凸显出语音本体。u 在语音信息处理的各个领域,存在有诸多处理的类型和手段。其中中对语音特征的分析则是一种基础的处理方式,从语音特征入手可以对语音信息进行各种深入的比对分析和加工处理。u 对语音提取其相应的语音特征矢量的过程也就是将语音以一定的规则进行矢量化的过程,矢量化的结果是产生了一个高维度的语音特征矢量矩阵。这个矢量矩阵包涵了对相应的语
15、音的特征的较为全面的描述。u 这个语音特征的矢量矩阵是抽象的和不容易直观理解的,从而也就对语音信息进一步的分析比对造成障碍。如果能够将其以一种比较直观的形式展现出来,将大大有利于对语音信息的深入处理。u 语音特征的可视表现方式有很多种,比如说波形图、频谱图、语谱图等(如【图11】所示),在对语音特征的表现方式上他们有着各自的优点,但也存在着不足。常常只是仅仅展现了语音的某些局部的特征,并不能全面涵盖语音的特征量,从而给语音信息的深入比对分析和加工处理带来了一定的困难。图1-1 几种语音信号的图谱12我的工作1.2.1工作目标探讨运用Kohonen神经网络的原理,借助其自组织、竞争学习、聚类等的
16、特点和优势,将语音特征的轨迹进行可视化展现的处理方法。以期利用语音特征轨迹可视化这种直观的表现方法,令其成为语音识别的前端处理“特征量相似性判断”的一种便捷的辅助工具。同时也是对Kohonen神经网络二维输出平面上的语音特征轨迹能否成为语音相似性比对的一种可行方法的探讨。1.2.2主要成果(1) 对语音特征矢量在时域、频域、倒谱域的提取方式进行了分析,特别是对语音在倒谱域上的MFCC特征提取方法给出了详细说明。(2) 对Kohonen神经网络的实现原理进行了重点研究分析,对Kohonen神经网络的自组织特性、聚类特性、竞争学习等特性做了详细阐述。对基于Kohonen神经网络将语音特征的轨迹进行
17、可视化展现的方法进行了探讨。(3) 用MATLAB在PC机上实现基于Kohonen神经网络的语音特征轨迹可视化系统,并对给定的语料进行语音特征轨迹测试。绘制出数字“0”“9”的Kohonen二维平面语音特征轨迹图,以此证明语音轨迹在Kohonen二维平面的可视化较为直观易辩。1.2.3本文的安排本文由六部分组成:第一章对本毕业设计的研究背景和设计目标作宏观介绍;第二章对本文中用到的相关概念和原理进行介绍;第三章对基于Kohonen神经网络的语音特征轨迹的可视化的方法进行重点讨论,给出系统的框架,内部模块的功能描述和接口;第四章详细讨论每个模块的实现方法;第五章通过实验数据对模块功能进行测试,讨
18、论使用本方法对语音特征轨迹实现可视化的效果;第六章为总结和展望。第二章 相关概念和基本原理21语音识别2.1.1语音学的相关知识 2.1.1.1声母和韵母音节是语音中最小的结构单位,也是人们可以自然地察觉到的最小的语音单位。普通话的音节一般由声母、韵母、声调三部分构成。一般说来,一个汉字的读音就是一个音节。它是由1至4个音素组成的。声母是音节的起始部分。普通话有22个声母,其中21个由辅音充当,此外还包括一个零声母(零声母也是一种声母)。声母后面的部分,普通话有39个韵母,其中23个由元音充当,16个由元音附带鼻辅音韵尾构成。因此,普通话的韵母是由元音或以元音为主要成分构成的。普通话的声母按照
19、发音方法可以分为5类1:(1)塞音有6个(b、p、d、t、g、k);(2)鼻音有3个(m、n、ng,其中只有m、n作声母);(3)擦音有6个(f、h、x、sh、s、r);(4)边音有1个(l);(5)塞擦音有6个(j、q、zh、ch、z、c)。每个汉字字音结构由声母、韵母和声调三部分构成。通常被称为零声母的音节,也就是没有辅音声母的音节,例如安(n),这个字音不是辅音开头,而是用元音a开头的,这样的音节就是零声母音节。普通话的声母按照发音时声带振动与否又可分为清音、浊音两类。清音:声门完全封闭,这时声道不是受声门周期脉冲气流的激励而是利用口腔内存有的空气释放出来而发声。由于该气流通过一个狭通道
20、时在口腔中形成湍流,因而明显的具有随机噪声的特点。相应的语音称为“清音”(Unvoice)浊音:说话时两片声带相互靠近但不会完全封闭,这样声门变成一条窄缝。当气流通过这个窄缝隙时其间的压力减小,从而两片声带完全合拢使气流不能通过。在气流阻断时压力恢复正常,因此声带间的空隙再次形成,气流再次通过。这一过程周而复始的进行,就形成了一串周期性的脉冲气流送入声道。这一周期气流脉冲串的周期称为“基音周期”,其倒数称为“基音频率”,基音频率取决于声带尺寸和特性,也决定于它所受的张力。用上述方式发出的语音是“浊音”(Voice)普通话声母中除了m、n、l、r为浊音外,其余都是清音。浊音的短时谱有2个特点:第
21、一,有明显得周期性起伏结构,这是因为浊音的激励源为周期脉冲气流。第二,频谱中明显具有几个突起点,他们的出现频率与声道的谐振频率相对应。这些突起点称为“共振峰”,共振峰按照频率由低到高排列为第一共振峰、第二共振峰,相应的频率用F1、F2来表示。一般浊音中,可以辨别的共振峰有5个,其中前3个(尤其是前2个)对于区别不同语音是至关重要的。清音的短时谱没有上2个特点,他十分类似于一段随机噪声的频谱。声母是一种辅音,所有辅音的共同特点是发音是声道处于某种阻挡得状态。另一个重要特点在于这是一种动态特征很强的音(发音时发声器官的状态变化较大)辅音的短时频谱也随着时间而有很大变化。元音与辅音相反,发声时声道不
22、受明显得阻挡,他的频谱结构相对稳定。2.1.1.2汉语数字“0”“9”发音的声韵特征本文所做的可视化实验数据就是基于数字“0”“9”语音发音的特征轨迹,所以在此对“0”“9”发音的声韵特征做介绍【图22】是汉语数字“0”“9”发音的的波形图(其中“1”发“yi”音)图2-2 汉语数字“0”“9”发音的的波形图汉语“0”“9”(又称为汉语数码语音)平均包含2.1个音素,存在大量音素相同的情况,例如“6”与“9”,其元音部分完全相同,只有辅音l与j不同。同样的现象还存在于易混淆的“0”“6”,“1”“7”“3”“4”和“2”“8”等语音对中5。汉语“0”“9”语音的辅音和元音列于【表21】中:数字
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 基于 Kohonen 神经网络 语音 特征 轨迹 可视化
链接地址:https://www.31ppt.com/p-3979398.html