人工神经元模型课件.ppt
第四章 人工神经元模型,2,引言,2,3,前向神经网络模型,5,动态神经网络模型,模糊逻辑控制解决了人类智能行为的语言的描述和推理问题人工神经网络是模拟人脑细胞的分布式工作特点和自组织功能,且能实现并行处理、自学习和非线性映射等能力的一种系统模型。,一、引言,发展历史:1943年,心理学家McCmloch和数学家Pitts合作提出形式神经元数学模型(MP),揭开了神经科学理论的新时代。1944年Hebb提出了改变神经元连接强度的Hebb规则1957年Rosenblatt首次引进了感知器概念(Perceptron)。1976年,Grossberg提出了自适应共振理论1982年,美国加州工学院物理学家Hopfield提出了HNN模型,他引入了“计算能量函数”的概念,给出了网络的稳定性判据1986年,Rumelhart等PDP研究小组提出了多层前向传播网络的BP学习算法,一、引言,神经元网络系统的研究:神经元模型神经网络结构神经网络学习方法从神经元模型角度来看,有线性处理单元非线性处理单元从网络结构方面来看,有:前向网络反馈网络自组织网络,一、引言,神经元模型是生物神经元的抽象和模拟。可看作多输入/单输出的非线性器件。,ui 神经元的内部状态,i 阀值,xi 输入信号,j=1,2,n;wij 表示从单元uj 到单元ui 的连接权值;si外部输入信号,一、引言,数学模型,ui=f(Neti)yi=g(ui)通常可以假设 g(ui)=ui,则:yi=f(Neti)f为激励函数,通常有4种类型。,一、引言,1、阈值型2、分段线性型,一、引言,3、Sigmoid 函数型4、Tan函数型,一、引言,神经网络模型的种类相当丰富,已有近40余种各式各样的神经网络模型。根据连接方式的不同,神经网络的结构类型主要分4类:前向网络 反馈网络 相互结合型网络 混合型网络,一、引言,前向网络(a)、反馈网络(b)、相互结合型网络(c)、混合型网络(d),一、引言,神经网络的学习算法有导师学习:就是在训练过程中,始终存在一个期望的网络输出。期望输出和实际输出之间的距离作为误差度量并用于调整权值无导师学习:无导师学习指的是网络不存在一个期望的输出值,需建立一个间接的评价函数,一、引言,神经网络学习规则根据连接权系数的改变方式不同又可分为如下三类:相关学习 纠错学习 无导师学习,一、引言,相关学习:仅仅根据连接间的激活水平改变权系数。它常用于自联想网络。最常见的学习算法是Hebb规则:如果单元ui接受来自另一单元uj的输出,那么,如果两个单元都高度兴奋,则从uj到ui的权值wij便得到加强。用数学形式可以表示为:wij=yioj 表示学习步长,一、引言,纠错学习:有导师学习方法,依赖关于输出节点的外部反馈改变权系数。它常用于感知器网络、多层前向传播网络和Boltzmann机网络。其学习的方法是梯度下降法。最常见的学习算法有规则、模拟退火学习规则。规则学习信号就是网络的期望输出t与网络实际输出y的偏差j=tj-yj。连接权阵的更新规则为:wji=jyi,一、引言,无导师学习表现为自适应实现输入空间的检测规则。它常用于ART、Kohonen自组织网络。例如Winner-Take-All 学习规则 假设输出层共有no个输出神经元,且当输入为x时,第m个神经元输出值最大,则称此神经元为胜者。并将与此胜者神经元相连的权系数Wm 进行更新。其更新公式为:wmj=(xj-wmj),j=1,2,.ni式中0,为小常数,一、引言,神经网络的泛化能力当输入矢量与样本输入矢量存在差异时,其神经网络的输出同样能够准确地呈现出应有的输出。这种能力就称为神经网络的泛化能力。在有导师指导下的学习中,泛化能力可以定义为训练误差和测试误差之差。与输入矢量的个数、网络的节点数和权值与训练样本集数目之间存在密切的关系。,一、引言,18,引言,2,3,前向神经网络模型,5,动态神经网络模型,前向神经网络是由一层或多层非线性处理单元组成。相邻层之间通过突触权系数连接起来。由于每一层的输出传播到下一层的输入,因此称此类网络结构为前向神经网络,有三种结构:单一神经元单层神经网络结构 多层神经网络结构,二、前向神经网络模型,单一神经元:每一神经元的激励输出是由一组连续输入信号xi i=1,2,.,ni决定的,而这些输入信号代表着从另外神经元传递过来的神经脉冲的瞬间激励。设y代表神经元的连续输出状态值,0 为阈值,wj 决定第j个输入的突触权系数。,二、前向神经网络模型,单层神经网络结构:由ni个输入单元和no的输出单元组成。系统ni个输入变量用xj j=1,2,.,ni表示,no个输出变量用yi;i=1,2,.,no表示,i=1,2,.,no,二、前向神经网络模型,多层神经网络结构:是在输入层和输出层之间嵌入一层或多层隐含层的网络结构。隐含单元既可以与输入输出单元相连,也可以与其它隐含单元相连。,以单隐含层网络为例:,Oj为隐含层的激励,二、前向神经网络模型,i=1,2,.,no,j=1,2,.,nh,假设每一层的神经元激励函数相同,则对于L+1层前向传播网络,其网络输出的数学表示关系方程式一律采用:其中:l为各层神经元的激励函数,Wl 为l-1层到l层的连接权矩阵,l=1,2,.,L l 为l层的阀值矢量,二、前向神经网络模型,有导师学习的基本思想前向传播网络实质上表示的是一种从输入空间到输出空间的映射。对于给定的输入矢量X,其网络的响应可以由方程 Y=T(X)给出,其中T()一般取为与网络结构相关的非线性算子。神经网络可以通过对合适样本集,即输入输出矢量对(Xp,Tp)p=1,2,.,N来进行训练。网络的训练实质上是突触权阵的调整,以满足当输入为Xp时其输出应为Tp。对于某一特定的任务,训练样本集是由外部的导师决定的。这种训练的方法就称为有导师学习。,二、前向神经网络模型,有导师学习的思路:对于给定的一组初始权系数,网络对当前输入Xp的响应为:Yp=T(Xp)。权系数的调整是通过迭代计算逐步趋向最优值的过程,调整数值大小是根据对所有样本p=1,2,.,N 的误差指标 Ep=d(Tp,Yp)达到极小的方法来实现的。其中:Tp 表示期望的输出,Yp 表示当前网络的实际输出,d()表示距离函数。,二、前向神经网络模型,BP学习算法的推导:对于N个样本集,性能指标为()是一个正定的、可微的凸函数,常取前向神经网络是通过期望输出与实际输出之间误差平方的极小来进行权阵学习和训练,二、前向神经网络模型,学习算法是一个迭代过程,从输入模式Xp出发,依靠初始权系数,计算:第一个隐含层的输出为:第r1个隐含层:输出层,二、前向神经网络模型,误差反向传播学习算法推导:由性能指标函数Ep可得:其中:定义广义误差:,二、前向神经网络模型,则:上标变量r表示第r个隐含层,r=1,2,.,L,为第r-1层第i单元到第r层的第j单元的连接系数。r=L 为输出单元层:,二、前向神经网络模型,隐含层时,有:,二、前向神经网络模型,BP学习算法给定p组样本(x1,t1;x2,t2;.;xP,tP)。这里xi为ni维输入矢量,ti为no维期望的输出矢量,i=1,2,.,P。假设矢量y和o分别表示网络的输出层输出和隐含层输出矢量10:选0,Emax作为最大容许误差,并将权系数Wl,l l=1,2,.,L初始化成小的随机值。p1,E020:训练开始,o(0)pxp,ttp,二、前向神经网络模型,BP学习算法30:计算误差 E(tk-yk)2/2+E,k=1,2,.,no40:计算广义误差50:调整权阵系数60:若pP,pp+1转20,否则转70。70:若EEmax,结束,否则 E0,p1转20,二、前向神经网络模型,BP学习算法的注意事项:权系数的初值:一般情况下,权系数通常初始化成一个比较小的随机数,并尽量可能覆盖整个权阵的空间域。避免出现初始权阵系数相同的情况学习方式:增量型学习和累积型学习激励函数:由于常规Sigmoid函数在输入趋于1时其导数接近0,从而会大大影响其训练速度,容易产生饱和现象。因此,可以通过调节Sigmoid函数的斜率或采用其它激励单元来改善网络性能学习速率:一般说来,学习速率越大,收敛越快,但容易产生振荡;而学习速率越小,收敛越慢,二、前向神经网络模型,举例:4-1:假设对于期望的输入x1,x2T=1,3T,t1,t2T=0.95,0.05T。网络权系数的初始值见图。试用BP算法训练此网络(本例中只给出一步迭代学习过程)。这里,取神经元激励函数:学习步长为=1。,二、前向神经网络模型,二、前向神经网络模型,计算当前各层的输出,二、前向神经网络模型,计算广义误差,二、前向神经网络模型,连接权系数更新,二、前向神经网络模型,BP算法的MATLAB编程参见教材p90,BP改进算法快速BP算法 Fahlman在1988年首先提出。共轭梯度学习算法 经典优化方法,二、前向神经网络模型,40,引言,2,3,前向神经网络模型,5,动态神经网络模型,前向传播网络,从学习观点看,它是一种强有力的学习系统;从系统观点看,它是一种静态非线性映射反馈型神经网络具备非线性动力学系统所特有的丰富动力学特性,如稳定性、极限环、奇异吸引子(即浑沌现象)等。一个耗散动力学系统的最终行为是由它的吸引子决定的,吸引子可以是稳定的,也可以是不稳定的。-动态神经网络,三、动态神经网络模型,简单非线性神经元互连而成的反馈动力学神经网络系统具有两个重要的特征:(1).系统有若干个稳定状态。如果从某一初始状态开始运动,系统总可以进入某一稳定状态;(2).系统的稳定状态可以通过改变相连单元的权值而产生。,三、动态神经网络模型,如果将神经网络的稳定状态当作记忆,那么神经网络由任一初始状态向稳态的演化过程,实质上是寻找记忆。稳态的存在是实现联想记忆的基础。能量函数是判定网络稳定性的基本概念。下面我们先给出稳定性定义。定义3-1:神经网络从任一初态X(0)开始运动,若存在某一有限的时刻ts,从ts以后神经网络的状态不再发生变化,即:X(ts+t)=X(ts),t0则称网络是稳定的。处于稳定时刻的网络状态叫稳定状态,又称定点吸引子。,三、动态神经网络模型,动态神经网络模型的实质是其节点方程用微分方程或差分方程来表示而不是简单地用非线性代数方程来表达,主要介绍三种:带时滞的多层感知器网络 Hopfield网络 回归神经网络,三、动态神经网络模型,带时滞的多层感知器网络:多层前向传播网络是如何来处理动态序列问题的。利用静态网络来描述动态时间序列可以简单地将输入信号按时间座标展开,并将展开后的所有信息作为静态网络的输入模式1、输出是有限维独立的输入序列函数的动态系统 y(k)=fx(k),x(k-1),.x(k-n),三、动态神经网络模型,2、带反馈的动态网络系统y(k)=F(x(k),x(k-1),.x(k-n),y(k-1),y(k-2),.y(k-m),三、动态神经网络模型,以上2种神经网络的学习问题完全可以利用静态前向传播神经网络的BP算法来解决,Hopfield神经网络:提出一种相互连接的反馈型神经网络模型 将其定义的“能量函数”概念引入到神经网络研究中,给出了网络的稳定性判据。用模拟电子线路实现了所提出的模型,并成功地用神经网络方法实现了4位A/D转换。,三、动态神经网络模型,当网络神经元之间的连接权系数是齐次对称时,可以找到Lyapunov能量函数来描述此非线性动力学系统。且已经证明,此神经网络无论在何种初始状态下都能渐渐趋于稳定态。在一定的条件下,Hopfield网络可以用作联想存储器。介绍两种Hopfield网络二值型的Hopfield网络 连续型的Hopfield网络,三、动态神经网络模型,二值型的Hopfield网络:又称离散型Hopfield网络。这种网络结构只有一个神经元层次。每个处理单元均有一个活跃值,即抑制和兴奋神经元网络结构:,k 表示时间变量;i 表示外部输入;yi 表示神经元输出,通常为0和1或-1和1,三、动态神经网络模型,对于n个节点的离散Hopfield网络有2n个可能的状态,网络状态可以用一个包含0和1的矢量来表示,如Y=(y1 y2.yn)。每一时刻整个网络处于某一状态。状态变化采用随机性异步更新策略,即随机地选择下一个要更新的神经元,且允许所有神经元节点具有相同的平均变化概率。节点状态更新包括三种情况:01、10、或状态保持,三、动态神经网络模型,举例:假设一个3节点的离散Hopfield神经网络,已知网络权值与阈值如下图所示。求:计算状态转移关系。,三、动态神经网络模型,以初始状态y1y2y3=000为例假设首先选择节点V1,激励函数为:节点V1处于兴奋状态并且状态y1由01。网络状态由000100,转移概率为1/3同样其它两个节点也可以以等概率发生状态变化。,三、动态神经网络模型,状态转移图,三、动态神经网络模型,系统状态 y1y2y3=011是一个网络的稳定状态;该网络能从任意一个初始状态开始经几次的状态更新后都将到达此稳态。仔细观察上图状态转移关系,就会发现Hopfield网络的神经元状态要么在同一“高度”上变化,要么从上向下转移。这样的一种状态变化有着它必然的规律。Hopfield网络状态变化的核心是每个状态定义一个能量E,任意一个神经元节点状态变化时,能量E都将减小。这也是Hopfield网络系统稳定的重要标记。,三、动态神经网络模型,Hopfield利用非线性动力学系统理论中的能量函数方法(或Lyapunov函数)研究反馈神经网络的稳定性,并引入了如下能量函数:定理4-1 离散Hopfield神经网络的稳定状态与能量函数E在状态空间的局部极小状态是一一对应的,三、动态神经网络模型,神经网络的能量极小状态又称为能量井。能量井的存在为信息的分布存贮记忆、神经优化计算提供了基础。如果将记忆的样本信息存贮于不同的能量井。当输入某一模式时,神经网络就能回想起于其相关记忆的样本实现联想记忆。一旦神经网络的能量井可以由用户选择或产生时,Hopfield网络所具有的能力才能得到充分的发挥。能量井的分布是由连接权值决定的。因此,设计能量井的核心是如何获得一组合适的权值,三、动态神经网络模型,举例:如下图3节点DHNN模型为例要求设计的能量井为状态y1y2y3=010和111。权值和阈值可在-1,1区间取值,确定网络权值和阈值。,三、动态神经网络模型,解:对于状态A,当系统处于稳态时,有 W12+10 W23+30 W12+W23+20 W23+W13+30,三、动态神经网络模型,取W12=0.5,则:由(4-39)式,-11-0.5 取 1=-0.7;由(4-42)式,0.2W131.取 W13=0.4;由(4-40)式,021.取 2=0.2;由(4-43)式,-0.7W231.取 W23=0.1;由(4-44)式,-1W130.5 取 W13=0.4;由(4-41)式,-13-0.1 取 3=-0.4.,三、动态神经网络模型,由于网络权值和阈值的选择可以在某一个范围内进行。因此,它的解并不是唯一的。而且在某种情况下,所选择的一组参数虽然能满足能量井的设计要求,但同时也会产生我们不期望的能量井。这种稳定状态点称为假能量井。针对上例,如果选择的权值和阈值为:W12=-0.5,W13=0.5,W23=0.4,1=0.1,2=0.2,3=-0.7存在期望的能量井010和111,以及假能量井100,三、动态神经网络模型,DHNN的学习只是在此神经网络用于联想记忆时才有意义。其实质是通过一定的学习规则自动调整连接权值,使网络具有期望的能量井分布,并经记忆样本存贮在不同的能量井上。常用的Hopfield网络学习规则是:Hebb学习规则学习规则Hebb学习规则若i与j两个神经元同时处于兴奋状态,则它们之间的连接应加强,即:wij=yiyj 0.,三、动态神经网络模型,对于一给定的需记忆的样本向量t1,t2,.,tN,如果tk的状态值为+1或-1,则其连接权系数的学习可以利用“外积规则”,即化为标量形式为:单端情况,即神经元的活跃值为1或0时,则权系数的学习规则为:,三、动态神经网络模型,回归(Recurrent)神经网络与Hopfield神经网络非常相似。保留了部分前向传播网络的特性又具备部分Hopfield网络的动态联想记忆能力。Pineda在1987年首先将传统的BP学习算法引入到回归神经网络中来,并提出回归反向传播算法。,三、动态神经网络模型,离散型回归神经网络(DTRNN)的模型:其中:,N是神经网络的输出节点数,M是输入矢量X的维数,三、动态神经网络模型,DTRNN网络结构,三、动态神经网络模型,此类神经网络学习问题有两种DTRNN学习算法:网络模型作适当的处理后利用传统的BP学习算法进行学习;迭代法。,方法1:首先将回归神经网络按时间序列展开成一个多层的复杂前向传播网络来处理可构造出由n个回归网络结构复制串联而成的n层前向传播网络,三、动态神经网络模型,方法2:通过迭代算法实现递归计算:仍然采用梯度下降法,三、动态神经网络模型,