毕业设计(论文)基于Kohonen神经网络的语音特征轨迹的可视化.doc
-
资源ID:3979398
资源大小:864KB
全文页数:36页
- 资源格式: DOC
下载积分:8金币
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
毕业设计(论文)基于Kohonen神经网络的语音特征轨迹的可视化.doc
基于Kohonen神经网络的语音特征轨迹的可视化摘 要目前在语音识别处理领域有着诸多方法,其中的基本处理手段大都基于对语音特征矢量的比对分析,因为语音特征量能有效地代表语音特征,包括声道特征和听觉特征,具有很好的区分性,可以成为比对分析的依据。但是特征矢量抽象、不直观,给比对分析造成一定的困难。若能找到一种直观、简便的方法直接展现不同语音的特征矢量将给语音特征的辨识带来很大便利。本文针对语音特征轨迹可视化展现的方法进行了探讨:(1) 对语音特征矢量在时域、频域、倒谱域的提取方式进行了分析,特别是对语音在倒谱域上的MFCC特征提取方法给出了详细说明。(2) 对Kohonen神经网络的实现原理进行了重点研究分析,对Kohonen神经网络的自组织特性、聚类特性、竞争学习等特性做了详细阐述。对基于Kohonen神经网络将语音特征的轨迹进行可视化展现的方法进行了探讨。(3) 用MATLAB在PC机上实现基于Kohonen神经网络的语音特征轨迹可视化系统,并对给定的语料进行语音特征轨迹测试。证明了语音轨迹在Kohonen二维平面的可视性和直观性。论文以语音特征轨迹可视化的实现为中心,阐述了Kohonen神经网络运用于语音特征轨迹可视化系统中的原理、建模方法以及可视平台的实现手段。本文由六部分组成:第一章对本毕业设计的研究背景和设计目标作宏观介绍;第二章对本文中用到的相关概念和原理进行介绍;第三章对基于Kohonen神经网络的语音特征轨迹的可视化的方法进行重点讨论,给出系统的框架,内部模块的功能描述和接口;第四章详细讨论每个模块的实现方法;第五章通过实验数据对模块功能进行测试,讨论使用本文所述方法对语音特征轨迹实现可视化的效果;最后一章为总结和展望。关键词:Kohonen神经网络,自组织特征映射,语音识别,可视化THE VISUALIZATION OF SPEECH FEATURE TRACKS BASED ON KOHONEN NEURAL NETWORKS AbstractIn the paper, the model of how to show the visualization of speech feature tracks is being discussed.First, investigates and analyzes the method of speech feature extraction and expound the main algorithm in the MFCC particularly and implement methods. Second, discusses in detail THE VISUALIZATION OF SPEECH FEATURE TRACKS with the methods based on Kohonen neural network, Finally, design and implement the VISUALIZATION of SPEECH FEATURE TRACKS system used MATLAB at Windows platform. The experiments show that SPEECH FEATURE TRACKS can be draw at Kohonen two-dimensions plane.The paper is organized into six chapters: chapter 1 describes some concept, history and presents a brief overview of this design; chapter 2 mainly introduces some fundamental concepts of speech recognition and Artificial Neural Network; Chapter 3 discusses in detail THE VISUALIZATION OF SPEECH FEATURE TRACKS method based on Kohonen Neural Network. Based on this research, author gives a system flow and every modules interface; Chapter 4 discusses in detail the methods of every modules; Chapter 5 specific implement methods and analyzes the test data with the methods; Chapter 6 discuss the summing-up and vista.KEY WORDS: Kohonen Neural Networks,SOM,Speech Recognition,Visualization目 录第一章前 言111语音信息处理的基本概念和现状11.1.1语音信息处理的各个领域112我的工作31.2.1工作目标31.2.2主要成果31.2.3本文的安排4第二章相关概念和基本原理521语音识别52.1.1语音学的相关知识52.1.2语音特征分析92.1.3语音识别算法1322神经网络的基本概念142.2.1人工神经网络的由来142.2.2人工神经网络的种类162.2.3 Kohonen神经网络的原理182.2.4 Kohonen神经网络的结构182.2.5 Kohonen神经网络的特点192.3 Kohonen神经网络用于语音特征分析的可行性20第三章系统实现2231系统框架223.1.1语音输入223.1.2语音采集233.1.3特征提取233.1.4 SOM网络23第四章每个模块采用的算法和数据结构2441语音采集2442特征量提取2543 SOM网络26第五章实验结果30第六章总结和展望32参考文献33致谢34第一章 前 言11语音信息处理的基本概念和现状语音信号数字处理是指用数字化的方法对语音进行传送、存储、识别、合成、增强等处理,是数字化通信网中最重要、最基本的组成部分之一。应该说语音信号数字处理是一门涉及面很广的交叉科学,它与语音学、语言学、概率与数理统计以及神经生理学等学科都有非常密切的关系。1.11语音信息处理的各个领域l 语音识别(Speech Recognition)以语音信号处理为研究对象,用声音来进行特定范围的词语辨别。所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。所以,要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定,根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。l 说话人识别(Speaker Recognition)它并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的特征,力求挖掘出包涵在语音信号中的个性因素,强调的是不同人之间的差别。说话人识别多用于保安领域,如机密场所的进入控制、身份核查、合法使用通信线路、电子银行转帐业务的安全检查等。l 说话人区分(Talker separation)从多个说话人的混合话音信号中提取每个人的语音信号。由于混合语音信号往往是通过单声道进入处理系统,不同说话人的基音和共振峰往往交叉或重叠,所以区分起来难度很大。l 语言辨识(Language Identification)区分所处理的语音属于哪一种语言。这是一件相当困难的事,因为难以表征某种语言特有的参量。加之说话人的多种多样性,不同地区的口音和发音习惯更增加了问题的难度。l 语音编码(Speech Coding)语音信号编码可分成两大类。第一类是编码存储回放系统,或称数字语音录放系统;第二类是编码传输解码系统,或称数字电话通信系统。数字语音录放系统具有灵活性高、可控性强、寿命长等优点,广泛应用在诸如数字录音电话、语音信箱、电子留言簿、发声字典、多媒体查询系统等。数字语音通信系统具有抗干扰性强、保密性好、易于集成化等优点,因此目前语音通信系统都在向数字化方向发展。在数字语音通信系统中,不仅要求能够实时编解码,往往还有抗信道误码等要求。l 语音合成文-语转换(Text-to-Speech Conversion)以文字串为输入的规则合成系统。其输入的文字串是通常的文本字串,文本分析器首先根据发音字典将输入的文字串分解为带有属性标记的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级和语句结构及语调、各种停顿等,这样,文字串就转变为代码串。规则合成系统就可以据此合成抑扬顿挫和不同语气的语句。文-语转换系统除了依赖各种语义学、语音学、词规则外,还必须对文字内容有正确理解,这就涉及语用学以及篇章学问题,也就是自然语言的理解问题,所以真正的文-语转换系统实际上是一个人工智能系统。l 语音增强(Speech Enhancement)语音增强在一定意义上也可以说是实现一种说话人区分。只不过所区分的不是来自其他说话人的语音干扰,而是区分出在背景中的噪声。因为噪声对语音的识别精度有着重大的影像。在实际生活中背景噪声环境十分复杂,有相对固定的环境噪声,如风机声,机械传动声等,这类为窄带噪声;还有一类噪声为宽带白噪声,其频谱很宽,但与语音的相关程度很小;再有就是非平稳的随机噪声,其特征是复杂多变,语音增强的目的在于改善语音的质量,压制和弱化背景噪声,凸显出语音本体。u 在语音信息处理的各个领域,存在有诸多处理的类型和手段。其中中对语音特征的分析则是一种基础的处理方式,从语音特征入手可以对语音信息进行各种深入的比对分析和加工处理。u 对语音提取其相应的语音特征矢量的过程也就是将语音以一定的规则进行矢量化的过程,矢量化的结果是产生了一个高维度的语音特征矢量矩阵。这个矢量矩阵包涵了对相应的语音的特征的较为全面的描述。u 这个语音特征的矢量矩阵是抽象的和不容易直观理解的,从而也就对语音信息进一步的分析比对造成障碍。如果能够将其以一种比较直观的形式展现出来,将大大有利于对语音信息的深入处理。u 语音特征的可视表现方式有很多种,比如说波形图、频谱图、语谱图等(如【图11】所示),在对语音特征的表现方式上他们有着各自的优点,但也存在着不足。常常只是仅仅展现了语音的某些局部的特征,并不能全面涵盖语音的特征量,从而给语音信息的深入比对分析和加工处理带来了一定的困难。图1-1 几种语音信号的图谱12我的工作1.2.1工作目标探讨运用Kohonen神经网络的原理,借助其自组织、竞争学习、聚类等的特点和优势,将语音特征的轨迹进行可视化展现的处理方法。以期利用语音特征轨迹可视化这种直观的表现方法,令其成为语音识别的前端处理“特征量相似性判断”的一种便捷的辅助工具。同时也是对Kohonen神经网络二维输出平面上的语音特征轨迹能否成为语音相似性比对的一种可行方法的探讨。1.2.2主要成果(1) 对语音特征矢量在时域、频域、倒谱域的提取方式进行了分析,特别是对语音在倒谱域上的MFCC特征提取方法给出了详细说明。(2) 对Kohonen神经网络的实现原理进行了重点研究分析,对Kohonen神经网络的自组织特性、聚类特性、竞争学习等特性做了详细阐述。对基于Kohonen神经网络将语音特征的轨迹进行可视化展现的方法进行了探讨。(3) 用MATLAB在PC机上实现基于Kohonen神经网络的语音特征轨迹可视化系统,并对给定的语料进行语音特征轨迹测试。绘制出数字“0”“9”的Kohonen二维平面语音特征轨迹图,以此证明语音轨迹在Kohonen二维平面的可视化较为直观易辩。1.2.3本文的安排本文由六部分组成:第一章对本毕业设计的研究背景和设计目标作宏观介绍;第二章对本文中用到的相关概念和原理进行介绍;第三章对基于Kohonen神经网络的语音特征轨迹的可视化的方法进行重点讨论,给出系统的框架,内部模块的功能描述和接口;第四章详细讨论每个模块的实现方法;第五章通过实验数据对模块功能进行测试,讨论使用本方法对语音特征轨迹实现可视化的效果;第六章为总结和展望。第二章 相关概念和基本原理21语音识别2.1.1语音学的相关知识 2.1.1.1声母和韵母音节是语音中最小的结构单位,也是人们可以自然地察觉到的最小的语音单位。普通话的音节一般由声母、韵母、声调三部分构成。一般说来,一个汉字的读音就是一个音节。它是由1至4个音素组成的。声母是音节的起始部分。普通话有22个声母,其中21个由辅音充当,此外还包括一个零声母(零声母也是一种声母)。声母后面的部分,普通话有39个韵母,其中23个由元音充当,16个由元音附带鼻辅音韵尾构成。因此,普通话的韵母是由元音或以元音为主要成分构成的。普通话的声母按照发音方法可以分为5类1:(1)塞音有6个(b、p、d、t、g、k);(2)鼻音有3个(m、n、ng,其中只有m、n作声母);(3)擦音有6个(f、h、x、sh、s、r);(4)边音有1个(l);(5)塞擦音有6个(j、q、zh、ch、z、c)。每个汉字字音结构由声母、韵母和声调三部分构成。通常被称为"零声母"的音节,也就是没有辅音声母的音节,例如"安"(n),这个字音不是辅音开头,而是用元音a开头的,这样的音节就是"零声母"音节。普通话的声母按照发音时声带振动与否又可分为清音、浊音两类。清音:声门完全封闭,这时声道不是受声门周期脉冲气流的激励而是利用口腔内存有的空气释放出来而发声。由于该气流通过一个狭通道时在口腔中形成湍流,因而明显的具有随机噪声的特点。相应的语音称为“清音”(Unvoice)浊音:说话时两片声带相互靠近但不会完全封闭,这样声门变成一条窄缝。当气流通过这个窄缝隙时其间的压力减小,从而两片声带完全合拢使气流不能通过。在气流阻断时压力恢复正常,因此声带间的空隙再次形成,气流再次通过。这一过程周而复始的进行,就形成了一串周期性的脉冲气流送入声道。这一周期气流脉冲串的周期称为“基音周期”,其倒数称为“基音频率”,基音频率取决于声带尺寸和特性,也决定于它所受的张力。用上述方式发出的语音是“浊音”(Voice)普通话声母中除了m、n、l、r为浊音外,其余都是清音。浊音的短时谱有2个特点:第一,有明显得周期性起伏结构,这是因为浊音的激励源为周期脉冲气流。第二,频谱中明显具有几个突起点,他们的出现频率与声道的谐振频率相对应。这些突起点称为“共振峰”,共振峰按照频率由低到高排列为第一共振峰、第二共振峰,相应的频率用F1、F2来表示。一般浊音中,可以辨别的共振峰有5个,其中前3个(尤其是前2个)对于区别不同语音是至关重要的。清音的短时谱没有上2个特点,他十分类似于一段随机噪声的频谱。声母是一种辅音,所有辅音的共同特点是发音是声道处于某种阻挡得状态。另一个重要特点在于这是一种动态特征很强的音(发音时发声器官的状态变化较大)辅音的短时频谱也随着时间而有很大变化。元音与辅音相反,发声时声道不受明显得阻挡,他的频谱结构相对稳定。2.1.1.2汉语数字“0”“9”发音的声韵特征本文所做的可视化实验数据就是基于数字“0”“9”语音发音的特征轨迹,所以在此对“0”“9”发音的声韵特征做介绍【图22】是汉语数字“0”“9”发音的的波形图(其中“1”发“yi”音)图2-2 汉语数字“0”“9”发音的的波形图汉语“0”“9”(又称为汉语数码语音)平均包含2.1个音素,存在大量音素相同的情况,例如“6”与“9”,其元音部分完全相同,只有辅音l与j不同。同样的现象还存在于易混淆的“0”“6”,“1”“7”“3”“4”和“2”“8”等语音对中5。汉语“0”“9”语音的辅音和元音列于【表21】中:数字 0 1 2 3 4 5 6 7 8 9元音 in i er an iz uiou I aiou辅音 l y / s s w l q b j表2-1 汉语数字“0”“9”发音的辅音和元音分布下面我们对汉语“0”“9”语音的辅音和元音作详细分析:辅音辅音分为浊辅音和清辅音两类:浊辅音汉语“0”“9”语音的浊辅音包括:半元音y、w,边音l、塞音b,它们由于声带发声,所以具有浊音的特征,具体表现为低频段100至400Hz间能量较高。由于它们发声时声腔都要形成一定阻碍,不象元音发声时声道畅通,所以又具有辅音的特性,对于半元音y、w及边音l表现为640至2800Hz间的频谱能量较元音为低,而塞音b的持续时间很短,我们难以利用其声学特征,因此对其不作讨论。清辅音汉语“0”“9”语音的清辅音包括清擦音s、不送气塞擦音j、送气擦音q。清擦音s非圆唇时的特点为能量分布下限很高,在4000Hz以上,而主要能量集中于5000Hz以上。j、q的同发声部位清擦音是x,所以它们的特征都表现为频谱上具有两个强频区,分布在3000Hz、4000Hz左右(非圆唇情况)。可见汉语“0”“9”语音的清辅音的能量主要都分布于高频部分1。元音汉语“0”“9”语音包含了汉语普通话中大部分的基本元音,它们都是靠声带发声,因此具有浊音性,频谱100至400Hz间能量较高,而其区分于浊辅音的特征为640至2800Hz间的能量较高。我们将以上分析总结于【表22】中: 浊 音 清 辅 音 元 音 浊 辅 音 声 学 特 征表2-2 汉语数字“0”“9”发音的辅音和元音特征频谱低频(0.1至0.4kHz间)能量较高;频谱中频(0.64至2.8kHz)能量较高频谱低频(0.1至0.4kHz间)能量较高;频谱中频(0.64至2.8kHz)能量较低频谱 高频(3.5kHz 以上)能量较高2.1.2语音特征分析(各种特征矢量的提取)在语音信号数字处理过程中,对语音信号特征量的提取和分析是关键。语音特征的选择和计算中,对特征量的要求是:()能有效地代表语音特征,包括声道特征和听觉特征,具有很好的区分性;()各阶参数之间有良好的独立性;()特征量要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。语音特征分析大体上有时域、频域、倒谱域等分析方法2.1.2.1时域特征量有短时平均能量、跨零数、自相关函数和幅差函数等。通常认为,语音信号具有短时平稳性,因此语音信号常被分段或分帧处理。一般来说每秒的帧数约为33100帧,视实际情况而定。·短时平均能量信号流的分帧是采用可移动的有限长度窗口进行加权的方法来实现的。如直角窗w(n):(式21)当然,也可以采用其他形式的窗口来分帧。不同的窗口选择(形状、长度),将决定短时平均能量的性质。因此,我们可以定义以n为标志的某帧语音信号x(m)的短时能量En:(式22)在直角窗口时为:(式23)若令h(n)=w2(n),则可写成普遍式为:(式24)·短时平均跨零数顾名思义,跨零是指信号通过零值,所以跨零数就是单位帧内信号值通过零值的次数。对于离散时间序列,跨零则是指序列取样值改变符号,跨零数则是每个样本的改变符号的次数。短时平均跨零数的定义为如【式25】所示:(式25)Zj:第j帧语音信号的短时平均跨零数(式26)一般而言,浊音具有较低的跨零数,而清音具有较高的跨零数。因此,也可以用短时平均跨零数Zn作为粗略估计其频谱性质的参数。在语音处理领域中,短时平均能量和短时平均跨零数这两个参量,常被用于识别寂静段和语音段的始点和终点的位置(语音端点检测)。在背景噪声较小时用前者来识别较为有效,在背景噪声较大时用后者来识别较为有效。但在很多情况下,需要联合使用这两个参量。2.1.2.2频域特征量由于语音信号x(m)是短时平稳的随机信号,所以可写出某一帧的短时傅立叶变换的定义式如【式27】:(式27)这里w(n-m)是窗口函数序列。同样,不同的窗口函数,将得到不同的傅立叶式变换的结果。由【式27】可见,短式傅立叶变换有两个变量:n和,所以它既是时序n的离散函数,又是角频率的连续函数。与离散傅立叶变换逼近傅立叶变换一样,如令=2k/N,则得离散的短时傅立叶变换如【式28】:(式28)0kN-1,它实际上就是Xn(ej)的频域的取样。这两个公式有两种解释:1)当n是固定时,它们就是序列w(n-m)x(m)(-m)的傅立叶变化或离散傅立叶变换;2)当或者k固定时,它们是一个卷积,即是信号序列与窗口函数序列的卷积。这相当于滤波器的运算。此外还有对应的反傅立叶变换,主要解决的问题是如何由Xn(ej)来恢复x(n),或者说,就是如何由某短时谱来合成语音信号的问题,其中也同样遇到时域的取样率和频域的取样率的问题。2.1.2.3倒谱域特征量倒谱是信号经傅立叶变换所得功率谱取对数后的逆傅立叶变换,它可将周期脉冲与声道相分离,进而从语音信号中得到说话人的声道参数。一般选择线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)作为语音识别的参数。二者都是将语音从时域变换到倒谱域上,前者利用线性预测编码(LPC)技术求倒谱系数,后者则直接通过离散傅利叶变换(DFT)进行变换。LPCC系数主要是模拟人的发声模型,是纯数学模型,未考虑人耳的听觉特性。它对元音有较好的描述能力,对辅音描述能力及抗噪性能比较差,而其优点为计算量小,易于实现。MFCC系数则考虑到了人耳的听觉特性,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果,具有较好的识别性能。由于它需要进行快速傅立叶变换,将语音信号由时域变换到频域上处理,因此其计算量和计算精度要求高。实验证明,采用这种技术,语音识别系统的性能有一定提高。本文所述系统实现中对语音特征量的提取就是采用的MFCC算法,在此对MFCC做相应介绍。 MFCC参数提取MFCC参数的基本思想是将语音的频域从线性频标变换为Mel频标,以符合人耳的听觉特性,其具体步骤为:1 假定已有一帧采样语音,N为帧长。为方便后面所需的FFT,我们取N256。对加Hamming窗后作N点FFT,将时域信号转化为频域分量。2 将线性频标转化为Mel频标。转化方法是将频域信号通过一系列三角滤波器。三角滤波器的中心频率间隔特点是在1000Hz以下为线性分布,1000Hz以上为等比数列分布。对于“0”“9”的数码语音,其频域范围为0至5500Hz,在其中安排24个滤波器,其中心频率值分布如【表23】所示 序号 1 2 3 4 5 6 7 8频率值(点) 2 4 6 8 10 12 14 16频率值(Hz) 86 172 258 344 430 516 602 688 序号 9 10 11 12 13 14 15 16频率值(点) 18 20 22 24 26 29 33 36频率值(Hz) 774 860 946 1032 1118 1247 1419 1548 序号 17 18 19 20 21 22 23 24频率值(点) 41 47 53 61 70 81 94 110频率值Hz1763表2-3 三角滤波器中心频率分布表 2021 2279 2623 3010 3483 4042 4730 三角滤波器的输出则为(式29) ,i = 1,2,.,24 其中为第i个滤波器的输出。3.用离散余弦变换(DCT)将滤波器输出变换到倒谱域:(式210) ,k = 1,2,.,P 其中P为MFCC参数的阶数,我们取P12。即为所求的MFCC参数。求出MFCC参数后,我们按倒谱权重公式【式211】对其进行加权,并按差分倒谱公式【式212】计算差分MFCC参数。最后我们可以得到24维的特征矢量用于识别。(式211) , (式212) , MFCC参数的优点与LPCC参数相比,MFCC参数具有以下优点:1 语音的信息大多集中在低频部分,而高频部分易受环境噪声干扰。MFCC参数将线性频标转化为Mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰。LPCC参数是基于线性频标的,所以没有这一特点。2 MFCC参数无任何前提假设,在各种情况下均可使用。而LPCC参数假定所处理的信号为AR信号,对于动态特性较强的辅音,这个假设并不严格成立,而汉语“0”“9”语音识别需要对辅音有较强的分辨能力,如“6”“9”,“1”“6”等,所以MFCC参数在汉语“0”“9”语音识别中优于LPCC参数。另外,当噪声存在时会给LPC分析的结果带来较大误差。因此,MFCC参数的抗噪声能力也优于LPCC参数。2.1.3语音识别算法现在应用较为广泛的语音识别的算法主要有以下几种:动态时间规整、离散隐马尔可夫模型、连续隐马尔可夫模型、人工神经网。2.1.3.1基于动态时间归整匹配的DTW算法从目前来看,这可能是一个最为小巧的语音识别的算法。其系统开销小,识别速度快,在对付小词汇量的语音命令控制系统中是一个非常有效的算法。 2.1.3.2基于统计的HMM算法这可能是目前最为成功的一种语音识别模型和算法了。目前所能见到的各种性能优良的连续语音的识别系统几乎无一例外地采用了这种模型。这是因为这种数学模型出现的时间较早,人们对它的研究也比较深入,已建立起了完整的理论框架。从80年代初人们开始用这种模型来描述语音信号后,就不断有人对它进行各种改良和发展。这种隐含马尔可夫模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的(例如这种状态可以是语音的某个音素),而是以某种隐含的关系与语音的观测量(或特征)相关联。而这种隐含关系在HMM模型中通常以概率形式表现出来,模型的输出结果也以概率形式给出。这为系统最后给出一个稳健的判决创造了条件。如今,各种形式的HMM模型和算法已日趋成熟,以它为基础已经形成了语音识别的整体框架模型,它统一了语音识别中声学层和语音学层的算法结构,制定了最佳的搜索和匹配算法,以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起。因此,HMM语音识别模型与算法是迄今为止最为完美的一个语音识别模型,从中也可看出完美的理论体系对研究工作所起的重要的指导作用。HMM技术非常有效,但是HMM要求大数据量的训练,以确定多种HMM参数。同时,HMM的不少参数和HMM的组构在很大程度上还依赖于经验调整。这些情况增加了应用HMM的困难。 2.1.3.3基于神经网络的训练识别算法近年来,并行分布式处理系统,或者说人工神经网络也成为热点,并被认为有可能解决语音识别问题和其他认知问题。人工神经网络已被研究多年。这些神经网络的模型主要是尝试着去模仿人类的神经系统,因为人类的神经系统在语音、听觉、影像和视觉方面均有很完美的表现,所以也期望这些模型能够在这些方面有出色的成果。神经网络的架构就是来自于现今对人类神经系统的认识。常用的神经网络语音识别模型大都是基于BP算法的各种模型,或者是由其演变而来的模型,如DNN、NPN、TDNN等。当然也有基于Self-Organize Feature Map(自组织)算法的模型,本文所探讨的语音特征轨迹的可视化也正是期望能够基于自组织的Kohonen神经网络的帮助下对多维的语音特征量进行处理,从而得到一个相对比较简约直观的二维平面上的语音特征轨迹输出 22神经网络的基本概念2.2.1人工神经网络的由来1. 生物神经元的特点一个典型的神经元可分为 (1)细胞本体 (soma)、(2)轴突 (axon)、以及(3)树突 (dendrites) 等三部份,见【图23】。图23 生物细胞的神经组织图树突的主要功能就是接受其它神经元所传递而来的信号。若导致位于轴突丘的细胞膜电位超过某一特定阀值(threshold)时,则所谓的活化电位(action potential) 的脉冲就会被激发出来。藉由管状的轴突传递至其它相连接的神经元。轴突的终点处是突触,这种细胞间的信号传递(见【图24】)以化学性的方式居多。 图24 神经信号的传递图当神经细胞被刺激时,在树突部位的细胞膜的特性会被改变,使得钠离子可以进入细胞內,导致细胞膜电位的改变,这种电位称为层次电位,其振幅与刺激强度成正比,并且会随着传递距离的增加而衰减。所有位于树突上,因刺激而引起的电位变化,都会朝向位于细胞本体上之轴突丘方向传递,若这些信号的综合效果,导致轴突丘的细胞膜电位的增加,而且超过某一特定的阀值(如 -55mv)时,则活化电位会被激发,见【图25】。 图25 细胞的活化电位活化电位以一种振幅大小不变的方式,沿着轴突方向传递。刺激强度的信息与活化电位的发生频率有关,而与其振幅的大小无关,其传递的速度与轴突的直径大小以及轴突上的细胞膜的电容及电阻性有关。 2. 人工神经网络在实际的神经网络中(比如人的视网膜)存在着一种“侧抑制”现象当某个神经细胞兴奋后,通过它的分支会对周围其他神经细胞产生抑制。这种侧抑制使神经细胞之间出现竞争,虽然开始阶段各个神经细胞都处于程度不同的兴奋状态,由于侧抑制的作用,各细胞之间相互竞争的最终结果是:兴奋作用最强的神经细胞所产生的抑制作用战胜了它周围所有其他细胞的抑制作用。自组织竞争人工神经网络正是基于上述生物结构和现象形成的。它能够对输入模式进行自组织训练和判断,并将其最终分为不同的类型。自组织映射(Self-Organizing Map ; SOM)神经网络是一种非监督式学习网络模式,是由芬兰学者Tuevo Kohonen教授在1979年到1982年间所发展完成的一种以竞争架构为学习基础的人工神经网络模式,所以又称Kohonen神经网络。一个典型的SOM人工神经网络的架构包括两个网络层 输入层和输出层,输入层的每个处理单元都是完全连接到输出层的每个结点上。图27 大脑皮质结构功能区域分布图神经细胞模型中还存在着一种细胞聚类的功能柱。它是由多个细胞聚合而成的,在接受外界刺激后它们会自动形成。一个功能柱中的细胞完成同一种功能。最常见的一个例子就是大脑结构的特性,入【图27】所示。大脑中有相似功能的脑细胞聚集在一块,譬如人类大脑中明显地有专门负责视觉、听觉、味觉等区块,也就是说脑神经细胞具有物以类聚的特性;生物细胞中的这些现象在SOM网络模型中有所反映。当外界输入不同的样本到SOM自组织映射网络中,一开始时输入样本引起输出兴奋的位置各不相同,但通过网络自组织后其输出处理单元会互相影响,当网络学习完成后,其输出处理单元相邻近者会具有相似的功能,而形成各聚类的输出群特定区域,它们分别代表了输入样本的分布,反映了输入样本的图形分布特征,所以SOM网络又常被称为特性图。2.2.2人工神经网络的种类 典型模型自适应谐振理论(Adaptive Resonance Theory简称ART) 神经网络属于非监督式网络,采用的是动态式的网络架构,也就是说,有足够数目的神经元等待被使用。由自适应谐振理论发展出来的有处理二元值输入的ART 1及处理连续信号的ART 2,除此之外,Fuzzy ART及ARTMAP也是相关的网络。Kohonen 网络(自组织映射图SOM)Kohonen神经网络是本文的重点,其内容在下一节详细介绍反向传播(Back Propagation)网络输入层 隐藏层 隐藏层 输出层图28 BP网络结构图属于监督式学习网络,适合诊断、预测等应用。BP网络由许多单层网络所连接,而每一层的网络则由数个神经元(或称节点)组成,见【图28】。最初由Werbos开发的反向传播训练算法是一种迭代梯度算法,用于求解前馈网络的实际输出与期望输出间的最小均方差值。BP网是一种反向传递并能修正误差的多层映射网络。当参数适当时,此网络能够收敛到较小的均方差,是目前应用最广的网络之一。BP网的短处是训练时间较长,且易陷于局部极小。BP网络一般由输入层、隐藏层和输出层三层架构。网络的训练方式包涵两个阶段:前馈阶段以及倒传递阶段。 Hopfield网络(反馈式网络、联想记忆)【图29】图29 Hopfield网络示意图离散的Hopfield网络 Hopfield网络的收敛特性是循环神经网络的代表,使用非同步的方式来更新神经元的输出,利用能量函数的局部极小特性来存储资料,网络收敛于某一稳定状态。 Hopfield网络的应用范围很广,如类比/数位转换器的设计以及用来解决最佳化的问题按学习的方法分类Generalized Delta rule倒传递网络(MLP)Hebbian Learning自联想、异联想Competitive LearningKohonen Soft-Organizing Feature Map(SOM)主要学习算法有监督(有导师)与无监督(无导师)学习