第七章:人工神经网络课件.ppt
2003-11-1,高等教育出版社,1,第七章:人工神经网络,7.1 人工神经元及人工神经网络模型7.2 前向神经网络7.3 反馈神经网络7.4 自组织竞争神经网络模型7.5 基于人工神经网络的数据挖掘本章小结,2003-11-1,高等教育出版社,2,人工神经网络简介,人工神经网络(Artificial Neural Network,简称ANN)是指由简单计算单元组成的广泛并行互联的网络,能够模拟生物神经系统的结构和功能。组成神经网络的单个神经元的结构简单,功能有限,但是,由大量神经元构成的网络系统可以实现强大的功能。人工神经网络在模式识别、计算机视觉、智能控制、信号处理、语音识别、知识处理、机器学习、数据挖掘等领域有着广泛的应用前景。,2003-11-1,高等教育出版社,3,历史事件,最早的形式化神经元数学模型是M-P模型,由美国心理学家McCulloch和数理逻辑学家Pitts合作,于1943年提出。 1949年,心理学家Hebb提出Hebb学习规则。 1958年,计算机科学家Rosenblatt提出感知器(Perceptron)的概念,掀起人工神经网络研究的第一次高潮。 1982年,美国加州工学院的生物物理学家Hopfield提出Hopfield网络模型,这标志着神经网络研究高潮的再次兴起。,2003-11-1,高等教育出版社,4,第七章:人工神经网络,7.1 人工神经元及人工神经网络模型7.2 前向神经网络7.3 反馈神经网络7.4 自组织竞争神经网络模型7.5 基于人工神经网络的数据挖掘本章小结,2003-11-1,高等教育出版社,5,M-P模型,M-P模型如图所示,,2003-11-1,高等教育出版社,6,M-P模型(续),其中,Ii-1, 1表示输入,Y-1, 1表示输出,权值Wi-1, 1表示输入的连接强度,正数权值表示兴奋性输入,负数权值表示抑制性输入。表示神经元兴奋时的阈值,当神经元输入的加权和大于时,神经元处于兴奋状态。神经元输出通过下式计算,其中,sgn为符号函数,2003-11-1,高等教育出版社,7,人工神经元的形式化描述,人工神经元的数学模型如图所示,2003-11-1,高等教育出版社,8,人工神经元的形式化描述(续),其中ui为第i个神经元的内部状态,i为神经元阈值,xj为输入信号,wji表示从第j个神经元到第i个神经元连接的权值。si表示第i个神经元的外部输入信号,上述假设可描述为:,2003-11-1,高等教育出版社,9,常用的神经元状态转移函数,阶跃函数 准线形函数 Sigmoid函数 双曲正切函数 f (x)=th (x),2003-11-1,高等教育出版社,10,状态转移函数图像,2003-11-1,高等教育出版社,11,人工神经网络的学习方式,死记式学习:网络连接权值根据特殊记忆模式设计而成,其值不变。在网络输入相关模式时,唤起对记忆模式的回忆,对输入模式进行相应处理。 有监督学习:网络将实际输出和教师指定的输出加以比较,得到在一定范数意义下的误差,由误差函数决定连接权值的调整,目的是使误差函数达到最小值。 无监督学习:网络的学习是自我调整的过程,不存在教师示教来指示网络输出是否正确。 有监督与无监督的混合学习:混合学习过程首先采用无监督学习抽取输入模式的特征,然后利用有监督学习方式对其进行处理,形成输入输出的某种映射。,2003-11-1,高等教育出版社,12,第七章:人工神经网络,7.1 人工神经元及人工神经网络模型7.2 前向神经网络7.3 反馈神经网络7.4 自组织竞争神经网络模型7.5 基于人工神经网络的数据挖掘本章小结,2003-11-1,高等教育出版社,13,感知器,感知器(Perceptron)是由美国学者Rosenblatt于1957年提出的一个具有单层计算单元的神经网络。单层感知器神经网络如图所示,其中,输入向量为X=(X1, X2, Xn ),输出向量为Y=(Y1, Y2, Ym )。最简单的感知器仅有一个神经元。,2003-11-1,高等教育出版社,14,感知器(续),感知器的输入向量为XRn。权值向量为WRn,可以通过学习训练调整W。单元的输出为Y-1, 1。其中, 若令Wn+1=,Xn+1=-1, 则有:,2003-11-1,高等教育出版社,15,单层感知器的学习算法,初始化权值和阈值:用较小的随机非零值初始化Wi(0)。其中,Wi(t) (1in) 为t时刻第i个输入的权值,Wn+1(t)为t时刻的阈值。 输入样本:X=(X1, X2, Xn, T ),T称为教师信号(即期望输出)。 计算网络的实际输出: 修正权值:Wi(t+1)=Wi(t)+ (TY(t)Xi ,i=(1, 2, n, n+1)其中,(0, 1)为学习率,用于控制修正速度。 转到步骤(2)重复执行,直到W对一切样本均稳定不变为止。,2003-11-1,高等教育出版社,16,多层前向神经网络,多层前向神经网络有一个输入层、一个输出层和若干个隐层。输入样本送入输入层后,传递给第一隐层。第一隐层节点对输入信号求加权和后,利用转移函数进行处理。第一隐层的输出传递给下一隐层,各个隐层依次类推,最后一个隐层的输出作为输出层的输入,输出层给出输入样本的网络预测。有两个隐层的前向神经网络如图所示:,2003-11-1,高等教育出版社,17,BP算法的提出,1985年,Rumelhart、Hinton和Williams给出了前向神经网络学习训练的误差后向传播算法(Back Propagation,简称BP算法),成功地解决了多层网络中隐含层神经元连接权值的学习问题。 基本的BP算法采用有监督学习方式,基于梯度下降算法,极小化误差函数。其主要思想是将学习过程分为信号正向传播过程和误差后向传播过程两个阶段。,2003-11-1,高等教育出版社,18,相关概念,设(Xp, Tp) 表示输入样本,p1, 2, N,N为输入样本的个数。W表示网络权向量。 误差函数:E (W)=g ( f (W, Xp, Tp) ),E称为误差(测度)函数。用误差函数来判别网络的实际输出向量Yp与教师信号向量Tp的误差。常采用二乘误差函数加以判别(m为输出向量的维数):,2003-11-1,高等教育出版社,19,相关概念,映射:对于给定的一组数据(Xp, Tp),神经网络通过一组特定的权值W,实现一定精度的映射。训练目的是希望得到的权值能产生最小的误差和最好的精度。从XpRn到YpRm的映射记为: f : XpRnYpRm 误差曲面:若隐层与输出层间的权值数目记为mn2,对于给定的训练样本(Xp, Tp),网络权向量W(W1, W2, Wmn2),通过误差函数E(W)计算出来的映射误差可描述为mn2+1空间的一个曲面,称为误差曲面。不同的E (W)对应不同的误差曲面形状。,2003-11-1,高等教育出版社,20,相关概念,网络学习:是指按照某种学习规则选取新的W,使E(W)E(W),即使E(W)对应的误差曲面上的点总是向山下移动,最终移到最深的谷底(全局最小)。若曲面有多个谷底,移动的过程可能陷入局部极小。 移动步长:也称学习率,步长较小时移动轨迹较慢且平滑,易陷入局部极小;步长较大时移动速度快,可能跳过局部极小,也可能跳过全局最小点,易产生振荡。一般情况下,开始时取较大步长,后期取较小步长。,2003-11-1,高等教育出版社,21,相关概念,梯度下降算法:如果移动是在误差曲面最陡的方向,或梯度下降的方向上进行,这样下山的速度快,称作最速梯度下降法。,2003-11-1,高等教育出版社,22,BP算法权值的修正量,BP算法基于梯度下降算法。在梯度下降算法中,权值的修正量正比于误差函数E(W)对W的负梯度,即: W (t+1)= W (t) +W (t),2003-11-1,高等教育出版社,23,BP算法权值修正公式的推导,设有N个学习样本(Xp, Tp),p1, 2, N,对于某个Xp,网络输出为Yp,节点i的输出为Oip,神经元节点i和j的连接权值为Wij,节点j的输入加权和为: 误差函数使用二乘误差函数:其中,,2003-11-1,高等教育出版社,24,BP算法权值修正公式的推导(续),根据netjp定义及求偏导数的链式规则有:令 ,上式改写为:,2003-11-1,高等教育出版社,25,BP算法权值修正公式的推导(续),为计算 ,由于使用链式规则有:,2003-11-1,高等教育出版社,26,BP算法权值修正公式的推导(续),若j是输出节点,则Ojp=Yjp,从而有:若j不是输出节点,则有:其中,2003-11-1,高等教育出版社,27,BP算法权值修正公式的推导(续),从而有:,2003-11-1,高等教育出版社,28,BP算法权值修正公式的推导(续),通过以上讨论,梯度下降算法对权值的修正为:,2003-11-1,高等教育出版社,29,三层前向神经网络,考虑一个三层的前向神经网络,设输入层节点数为n1,中间层节点数为n2,输出层节点数为m。设 为输入层节点i的输出; 为中间层节点j的输出; 为输出层节点k的输出;Tk为输出层节点k对应的教师信号;Wij为节点i和节点j间的连接权值;Wjk为节点j和节点k间的连接权值;j为中间层节点j的阈值;k为输出层节点k的阈值。,2003-11-1,高等教育出版社,30,三层前向神经网络(续),节点转移函数取为Sigmoid函数: Sigmoid函数是单调递增函数,且处处可导,其导数为:误差函数取为二乘误差函数:,2003-11-1,高等教育出版社,31,三层前向神经网络BP算法,(1)设定学习次数初值t=0;用小的随机数初始化网络权值和阈值,Wij(t)-1, 1,Wjk(t)-1, 1,j (t)-1, 1,k (t)-1, 1。 (2)输入一个学习样本(Xp, Tp),其中p1, 2, N、N为样本数,XpRn,TpRm 。 (3)计算隐层各节点的输出值:,2003-11-1,高等教育出版社,32,三层前向神经网络BP算法(续),(4) 计算输出层各节点的输出: (5) 计算输出层节点和隐层节点之间连接权值的修正量:,2003-11-1,高等教育出版社,33,三层前向神经网络BP算法(续),(6) 计算隐层节点和输入层节点间连接权值修正量: j1, 2, n2 (7) 利用下式修正输出层节点k和隐层节点j的连接权值Wkj,修正输出层节点k的阈值。其中k为(5)中求出的误差修正量。,2003-11-1,高等教育出版社,34,三层前向神经网络BP算法(续),(8) 利用下式修正隐层节点j和输入层节点i的连接权值Wji,修正隐层节点j的阈值。其中j为(6)中求出的误差修正量。 (9) 如果未取完全部学习样本,则返回步骤(2)。 (10) 计算误差函数E,并判断E是否小于规定的误差上限,如果E小于误差上限,或学习达到学习次数限制,则算法结束;否则更新学习次数t = t+1,返回步骤(2)。,2003-11-1,高等教育出版社,35,三层前向神经网络BP算法(续),步骤(2)至(4)为信号前向传播计算,步骤(5)至(8)为误差后向传播计算。 上述BP算法采用逐次修正法,即针对每个输入样本进行一次权值和阈值的修正,而一括修正法对每个输入样本计算修正量,对权值修正量逐次累加,但不马上进行权值和阈值修正,当全部学习样本学习结束后,才修正权值和阈值。 另一种修正方法是Memond法,该方法在修正权值向量和阈值向量时,考虑前一次的修正量。,2003-11-1,高等教育出版社,36,径向基函数神经网络,径向基函数(Radial Basis Function,简称RBF)神经网络是一种三层前向神经网络。RBF神经网络只有一个隐层,隐层单元的转移函数采用径向基函数,以对输入层的激励产生局部化响应,即仅当输入落在输入空间中某一指定的小范围内时,隐层单元才会作出有意义的非零响应。输出节点对各隐层单元的输出求加权和。输入单元和隐层单元的连接权值固定为1,只有隐层单元和输出单元的连接权值可调。 RBF训练速度快,具有很好的通用性。,2003-11-1,高等教育出版社,37,第七章:人工神经网络,7.1 人工神经元及人工神经网络模型7.2 前向神经网络7.3 反馈神经网络7.4 自组织竞争神经网络模型7.5 基于人工神经网络的数据挖掘本章小结,2003-11-1,高等教育出版社,38,Hopfield神经网络,Hopfield神经网络是典型的反馈神经网络。Hopfield神经网络的提出标志着人工神经网络的研究进入新的兴盛期。 Hopfield提出人工神经网络的能量函数概念,使得对网络的运行稳定性判断有了可靠且简单的依据。 Hopfield网络的一个显著优点就是易于通过电子电路实现。,2003-11-1,高等教育出版社,39,单层全反馈神经网络如图所示。每个节点的输出都和其他节点的输入相连,输入输出关系为:,2003-11-1,高等教育出版社,40,状态空间,由n个节点组成的反馈网络,在任意时刻t的状态向量为X=(x1, x2, xn),XRn,输出向量为Y=(y1, y2, yn),YRn。t时刻网络的状态可以通过X(t)和Y(t)表示。由Y(t)可以求得下一时刻的X(t1),X(t1)又对应新的输出Y(t1),网络不断地反馈演化过程,使状态向量X(t)随时间变化。状态的变化过程可以用n维空间的一条轨迹描述。从初始状态X(t0)出发,X(t0+t)X(t0+2t)X(t0+mt),这些点确定的轨迹是演化过程中所有可能状态的集合,称之为状态空间。,2003-11-1,高等教育出版社,41,网络的状态轨迹,对于不同的权值Wij和输入Ii (i, j1, 2, n),网络的状态轨迹可能有如下几种情况:经过一段时间t (t0)后,状态轨迹不再延伸,停留在X(t0+t)状态,这时称网络收敛到稳定点或平衡点。稳定点可分为: 渐近稳定点;不稳定的平衡点;网络的解;网络的伪稳定点 轨迹为环状,称为极限环。 如果X(t)的轨迹在某个确定的范围内变化,但既不重复又不能停下来,状态变化为无穷多个,轨迹不发散到无穷远,这种现象称为混沌(Chaos)。 如果X(t)的轨迹随时间一直延伸到无穷远,此时状态发散,系统的输出也发散。,2003-11-1,高等教育出版社,42,离散型Hopfield神经网络,离散型Hopfield神经网络(Discrete Hopfield Neural Network,简记为DHNN)的结构是一个单层结构的全反馈网络, DHNN有n个节点,W是一个nn的对称零对角权值矩阵,为n维阈值向量。每个节点可处于两个可能的状态之一,即1或-1。假设各节点的外加输入Ii=0,i=1, 2, n。令Xi (t)表示t时刻节点i的状态,则节点i的下一个状态由下面的算式决定:,2003-11-1,高等教育出版社,43,离散型Hopfield神经网络(续),其中,网络的状态向量为X(t)1, -1n,且wii =0,i=1, 2, n。,2003-11-1,高等教育出版社,44,离散型Hopfield神经网络的工作方式,网络的工作方式分为串行(异步)工作方式和并行(同步)工作方式。 串行(异步)工作方式:任一时刻t,只有某一个节点i(随机地或确定性地选择)变化,而其余n1个节点的状态保持不变,即:,2003-11-1,高等教育出版社,45,网络的工作方式(续),并行(同步)工作方式:任一时刻t,所有的节点都改变状态,即:,2003-11-1,高等教育出版社,46,离散型Hopfield神经网络的稳定性,若网络从一个初态X(t0)出发,经过一个有限时刻t,网络的状态不再发生变化,即: X(t0+ t + t0)=X(t0+ t) t00 则称网络是稳定的,这时所有的节点输出不再变化,网络稳定在某一状态。,2003-11-1,高等教育出版社,47,离散型Hopfield网络的能量函数,能量函数用来衡量网络的稳定性。若每步迭代的E0,则网络能量逐渐减少,网络将逐渐趋于稳定点。能量函数的单调下降,表明状态的变化是从远离吸引子到逐渐接近吸引子,从而使网络达到稳定。,2003-11-1,高等教育出版社,48,网络的稳定性,定理7.1 当网络工作在串行方式下时,若满足wij=wji ,wii=0,i、j=1, 2, n,则能量函数单调下降,网络必定收敛。 定理7.2 当网络工作在串行方式下时,若满足wij=wji ,wii0,i、j=1, 2, n,则能量函数单调下降,且网络必收敛。 定理7.3 当网络工作在并行方式下时,若满足wij=wji,则网络或者收敛于一个稳定点,或者收敛于极限环为2的一个周期解。,2003-11-1,高等教育出版社,49,网络权值的调整,离散型Hopfield使用Hebb规则来调整网络的权值,实现网络学习。网络待记忆的学习样本有N个,Xp,p=1, 2, N,XpRn,其每个分量为Xip,i=1, 2, , n,利用已知需要存储的样本来设计n个节点间的连接权值,如节点i和j间的连接权值为:,2003-11-1,高等教育出版社,50,网络权值的调整(续),其中,为一个正常数,初始化时wij=0,每输入一个样本,就在权值上加修正量,wij=wij+XiKXjK,当XiK和XjK同时兴奋或同时抑制时,XiKXjK 0,当XiK和XjK一个兴奋一个抑制时,XiKXjK 0。用Hebb规则修正权值可以满足wij=wji的条件,从而使网络在串行工作方式时保证收敛;在并行工作时系统或收敛,或出现极限环为2的振荡。,2003-11-1,高等教育出版社,51,连续型Hopfield神经网络,2003-11-1,高等教育出版社,52,连续型Hopfield神经网络(续),若定义网络中第i个节点的输入为ui,输出为vi,那么输入输出的关系为: 其中,n为网络的节点数,状态转移函数为Sigmoid型函数,一般取f (x)=1/ (1+e-x)或者f (x)=th( x)。,2003-11-1,高等教育出版社,53,连续型Hopfield神经网络的数学模型,连续型Hopfield神经网络的数学模型可以用形如下式的n个非线性方程组来描述。其中,vi是运算放大器i的输出电压,并且vi = f (ui)。,2003-11-1,高等教育出版社,54,能量函数,连续型Hopfield神经网络的能量函数E定义为:,2003-11-1,高等教育出版社,55,网络的稳定性,定理7.4 假定神经元转移函数为f(),存在反函数f -1(),并且是单调连续递增函数,同时网络结构对称,即Tij=Tji,Tii=0,那么沿系统的运行轨迹有d E/d t0;当且仅当d vi /d t=0时,d E/d t =0,i, j1, 2, n。 由定理可知,随时间t的变化,网络状态不断改变,网络能量逐渐降低。当且仅当网络中所有节点的状态不再变化时,网络达到能量极小点,也就是说,网络的稳定点就是使得能量函数取到极小的点。,2003-11-1,高等教育出版社,56,Boltzmann机,1984年由Hinton等人借助统计物理学的概念和方法,提出了Boltzmann机模型。在节点的状态变化中引入了概率和隐节点,并用模拟退火算法(Simulated Annealing,简称SA)进行学习。 模拟退火算法(SA)的特点是通用性强和可达全局最小,在系统能量减小的总体趋势过程中,允许偶尔向能量增加的方向搜索,以避开局部极小,从而达到全局最优状态。,2003-11-1,高等教育出版社,57,第七章:人工神经网络,7.1 人工神经元及人工神经网络模型7.2 前向神经网络7.3 反馈神经网络7.4 自组织竞争神经网络模型7.5 基于人工神经网络的数据挖掘本章小结,2003-11-1,高等教育出版社,58,自组织特征映射神经网络,1981年,芬兰学者Kohonen提出自组织特征映射(Self-Organizing Feature Map,简称SOM)神经网络模型。Kohonen认为,神经网络在接受外界输入模式时,会分成不同区域,各区域对输入模式有不同的响应特性,而且这一过程可以自动完成。,2003-11-1,高等教育出版社,59,网络结构,自组织映射网络结构如图所示,2003-11-1,高等教育出版社,60,Nj区域,输出层各个节点对输入模式的响应竞争通过侧抑制来实现。对于获胜的节点j,在其周围Nj区域内的节点在不同程度上得到兴奋,而在Nj区域以外的节点都被抑制,这个区域Nj可以是正方形也可以是六角形,如图所示。,2003-11-1,高等教育出版社,61,对于任意一个输出节点j有: 定义Nj (t)为训练过程中获胜节点的邻域,表示t时刻以节点Nj为中心的某一邻域内的所有节点,随着训练过程的进行,Nj (t)的半径逐渐缩小。不但要对获胜节点Nj调整权值,也要对其周围节点调整权值。保证对于某一类输入模式,获胜节点作出最大的响应,而相邻节点作出较大的响应。相邻的节点表征特征相近的输入模式。,2003-11-1,高等教育出版社,62,自组织映射网络的学习算法,用小的随机数初始化连接权值: t=0,0Wij1,i1, 2, n,j1, 2, m 对网络输入一个样本模式: XP=(X1, X2, Xn) 计算Xp与各个输出节点间的权值向量W的距离:选择有最小距离的节点N*j作为竞争获胜节点,表征输入模式: j1, 2, m,2003-11-1,高等教育出版社,63,自组织映射网络的学习算法(续),调整权值,使Nj(t)中的各节点的连接权值向量W向Xp靠拢: 其中,0 (t)1为增益函数,随时间t递减。 若还有输入样本则转步骤(2);当没有未输入样本输入,且满足: 或者完成指定的学习次数时,算法结束,否则转步骤(2)。,2003-11-1,高等教育出版社,64,自组织映射网络的学习算法(续),以上算法的步骤(3)和(4)实现神经元之间的竞争,步骤(5)实现网络的自组织学习。 (t)随时间t递减趋于零,保证了学习过程的收敛。,2003-11-1,高等教育出版社,65,自组织映射网络算法的特点,网络中的权值是输入样本的记忆。 网络对于样本的畸变和噪声具有较好的容错能力。 网络学习结果使比较相近的输入样本在二维输出平面上位置比较接近。,2003-11-1,高等教育出版社,66,第七章:人工神经网络,7.1 人工神经元及人工神经网络模型7.2 前向神经网络7.3 反馈神经网络7.4 自组织竞争神经网络模型7.5 基于人工神经网络的数据挖掘本章小结,2003-11-1,高等教育出版社,67,基于人工神经网络的数据挖掘,将人工神经网络应用于数据挖掘,希望借助其非线性处理能力和容噪能力,得到较好的数据挖掘结果。 基于人工神经网络的数据挖掘主要面向分类和聚类问题,但完全可以将人工神经网络用于数据挖掘所涉及的主要知识种类,如关联规则、分类、聚类、时序规则、Web浏览路径等。 将人工神经网络应用于数据挖掘的主要障碍是,通过人工神经网络学习到的知识难于理解;学习时间太长,不适于大型数据集。 基于人工神经网络数据挖掘的主要研究是增强网络的可理解性,提高网络学习速度,以及拓广人工神经网络适用的知识类型。,2003-11-1,高等教育出版社,68,第七章:人工神经网络,7.1 人工神经元及人工神经网络模型7.2 前向神经网络7.3 反馈神经网络7.4 自组织竞争神经网络模型7.5 基于人工神经网络的数据挖掘本章小结,2003-11-1,高等教育出版社,69,本章小结,本章介绍了人工神经元的基本模型,神经网络的学习方法和各种常见的学习规则。神经网络学习方法包括死记式学习、有监督学习、无监督学习和混合学习。在各种神经网络模型中常用的学习规则包括Hebb学习规则、学习规则等。本章介绍了几种典型的神经网络模型,包括前向神经网络BP算法,离散Hopfield神经网络和连续Hopfield神经网络模型,Boltzmann机,自组织特征映射(SOM)神经网络模型等。,