人工神经网络方法简介PPT文档.ppt
,人工神经网络方法简介,第1部分从生物神经元到人工神经网络,人工神经网络方法简介,大脑与神经细胞、神经细胞与神经细胞构成了庞大天文数字量级的高度复杂的网络系统。也正是有了这样的复杂巨系统,大脑才能担负起人类认识世界和改造世界的任务。“世界上最大的未开发疆域,是我们两耳之间的空间。”(美国汉诺威保险公司总裁比尔奥伯莱恩),一、生物神经系统和大脑的复杂性,生物系统是世界上最为复杂的系统。,生物神经系统活动和脑的功能,其复杂性是难以想象的。,人工神经网络方法简介,人大脑平均只有3磅左右。只占身体重量比例的1/30;它令你的心脏每天不假思索地跳动10万多次;它令你的眼睛可以辨别1000万种细微的颜色;它使你的肌肉(如果全部向同一个方向运动)产生25吨的拉力;它是由100亿个脑细胞和10兆个神经交汇丛组成。整个大脑的神经网络足足有10英里长。,大脑的有关数据,人工神经网络方法简介,“你的大脑就像一个沉睡的巨人。”(英国的心理学家、教育家托尼布赞)“如果我们迫使头脑开足1/4的马力,我们就会毫不费力地学会40种语言,把整个百科全书从头到尾背下来,还可以完成十几个大学的博士学位。”(前苏联学者伊凡)一个正常的大脑记忆容量有大约6亿本书的知识总量,相当于一部大型电脑储存量的120万倍;大脑使你从出生开始每一秒钟可存储1000条信息,直到老死为止;全世界的电话线路的运作只相当于大约一粒绿豆体积的脑细胞;即使世界上记忆力最好的人,其大脑的使用也没有达到其功能的1%。人类的知识与智慧,仍是“低度开发”!人的大脑是个无尽宝藏,可惜的是每个人终其一生,都忽略了如何有效地发挥它的“潜能”潜意识中激发出来的能量。,大脑复杂性的无限性,人工神经网络方法简介,二、人工智能及其三个学派,人类的梦想 重新构造人脑,并让其代替人类完成相应的工作。(无数科幻故事)探索智能的奥秘智能(intelligence)“观察、学习、理解和认识的能力”(牛津大辞典)“理解和各种适应性行为的能力”(韦氏大辞典)智能是个体有目的地行为、合理的思维、以及有效的适应环境的综合能力;也可以说是个体认识客观事物和运用知识解决问题的能力。,人工神经网络方法简介,人类智能的具体含义,感知与认识客观事物、客观世界和自我的能力;通过学习获得经验、积累知识的能力;理解知识、运用知识和经验分析、解决问题的能力;联想、推理、判断、决策的能力;运用语言进行抽象、概括的能力;以上5点是人类智能的基本能力。发现、发明、创造、创新的能力;实时、迅速、合理地应付复杂环境的能力;预测、洞察事物发展、变化的能力。以上3点是前5种能力新的综合表现形式。,人工神经网络方法简介,人工智能,“人工智能(Artificial Intelligence)”1956年初次引入 人工智能研究怎样用计算机模仿人脑从事推理、设计、思考、学习等思维活动,以解决和处理较复杂的问题。目的之一:增加人类探索世界、推动社会前进的能力。通过制造和使用工具来加强和延伸人类的生存、发展。目的之二:进一步认识自己。用物化的智能来考察和研究人脑智能的物质过程和规律。,人工神经网络方法简介,人工智能的3个主要流派,1991年,人工智能学家D.Krish在Int.J.Artificial Intelligence上提出人工智能的5个基本问题:知识和概念化是否人工智能的核心?认知能力能否与载体分开来研究?认知的轨迹是否可以用类自然语言来描述?学习能力能否与认知分开来研究?所有的认识是否有一种统一的结构?对以上5个基本问题的不同回答已经形成3个主要的学术流派:符号主义(Symbolicisim)联结主义(connetionism)行为主义(actionism),人工神经网络方法简介,人工智能的符号主义流派,即传统的人工智能,认为人工智能源于数理逻辑,主张以知识为基础,通过推理来进行问题求解,在研究方法上采用计算机模拟人类认知系统功能的功能模拟方法 Simon、Minsky和Newell等认为,人和计算机都是一个物理符号系统,因此可用计算机的符号演算来模拟人的认知过程;作为智能基础的知识是可用符号表示的一种信息形式,因此人工智能的核心问题是知识表示、知识推理和知识运用的信息处理过程。,符号主义对符号系统的描述,人工神经网络方法简介,人工智能的联结主义流派,又称仿生学派,认为人工智能源于仿生学,人思维的基本单元是神经元,而非符号处理过程,主张用大脑工作模式取代符号操作的电脑工作模式;智能的本质是联结机制。神经网络是一个由大量简单的处理单元组成的高度复杂的大规模非线性自适应系统;“结构功能”的研究方法:认为功能、结构和智能行为是密切相关的;,1943年,McCulloch和Pitts从神经元入手研究神经网络模型MP模型。此为人工神经网络研究之始。,人工神经网络方法简介,人工神经网络(Artificial Neural Network,ANN)从四个方面刻画人脑的基本特征:(1)物理结构模仿生物神经元的功能,构造人工神经元的联结网络,人工神经网络方法简介,(2)计算模拟人脑神经元既有局部的计算和存储功能,又通过联结构成统一的系统,人脑的计算建立在该系统的大规模并行模拟处理基础之上。ANN以具有局部计算能力的神经元为基础,同样实现信息的大规模并行处理。(3)存储与操作大脑对信息的记忆是通过改变突触的强度来实现并分布存储。ANN模拟信息的大规模分布存储。(4)训练后天的训练使得人脑具有很强的自组织和自适应性。ANN根据人工神经元网络的结构特性,使用不同的训练过程,自动从“实践”(即训练样本)中获取相关知识,并存储在系统中。,人工神经网络方法简介,人工智能的行为主义流派,“进化主义学派”、“控制论学派”;认为人工智能来源于控制论,智能取决于感知和行动。提出智能行为的“感知动作”模式,采用行为模拟方法;对符号主义、联结主义采取批判的态度;(智能不需要知识、表示和推理,只需要与环境交互作用)20世纪80年代诞生智能控制和智能机器人系统学科(R.A.Brooks),为机器人研究开创了新的方法。,人工神经网络方法简介,ANN是基于联结主义流派的人工智能,联结主义学派与高速发展的计算机技术相结合,发展为计算智能学派,是人工智能在1980年代后的深化和发展;计算智能:借助现代计算机技术模拟人的智能控制、生命演化过程和人的智能行为,从而进行信息获取、处理、应用的理论和方法;计算智能是以数学模型、计算模型为基础,以分布、并行、仿生计算为特征,包含数据、算法和实现的信息系统;计算智能强调模型的建立和构成,强调系统的自组织、自学习和自适应;计算智能的3个主要分支:人工神经网络(模拟智能产生与作用赖以存在的结构)遗传算法(模拟生命生成过程与智能进化过程)模糊逻辑(模拟智能的表现行为),人工神经网络方法简介,三、人工神经网络概述,生物神经元系统,人工神经网络是受生物神经网络的启发构造而成。James(心理学,1890年):大脑皮层每一点的活力产生于其它点势能释放的综合效能,即其它点的兴奋次数、强度和所接受的能量。大脑含约1011个神经元,它们通过1015个联结构成一个网络。每个神经元具有独立的接受、处理和传递电化学信号的能力,这种传递由神经通道来完成。,人工神经网络方法简介,神经元的结构树突从细胞体伸向其它神经元,神经元之间的接受信号的联结点为突触。通过突触输入的信号起着兴奋/抑制作用。当细胞体接受的累加兴奋作用超过某阈值时,细胞进入兴奋状态,产生冲动,并由轴突输出。,人工神经网络方法简介,神经元系统的基本特征 神经元及其联结 神经元之间的联结强度决定信号传递的强弱 神经元之间的联结强度可以随训练而改变 信号分为兴奋型和抑制型 一个神经元接受的信号的累计效果决定该神经元的状态 每个神经元有一个阈值,人工神经网络方法简介,ANN理论及其发展阶段,轴突,突触,树突,内核,轴突,第一阶段1943年,心理学家McCulloch和数学家Pitts对神经元进行形式化研究,提出了神经元的数学模型MP模型。1944年,D.O.Hebb提出改变神经元联结强度的Hebb学习规则,至今仍然是人工神经网络学习算法的一个基本原则。1957年,Rosenblatt首次引进感知器(Perceptron)概念来模拟生物的感知、学习能力。1962年,Widros提出用于自适应系统的连续取值的线性网络。,人工神经网络方法简介,第二阶段1969年,M.L.Minsky和S.Papert从理论上证明了当时单隐含层感知器网络模型无法解决的许多简单问题,包括最基本的“异或(XOR)”问题。使ANN理论的发展进入一个低谷;1974年,Webos提出BP学习理论;S.Grossberg提出自适应共振理论(ART)。,第三阶段突破性进展:1982年,CalTech的物理学家J.Hopfield提出Hopfield神经网络系统(HNNS)模型,提出能量函数的概念,用非线性动力学方法来研究ANN,开拓了ANN用于联想记忆和优化计算的新途径;1988年,McClelland和Rumelhart利用多层反馈学习算法解决了“异或(XOR)”问题。,人工神经网络方法简介,人工神经网络的几种形式,无反馈前向网多输入、多输出的多层无环图,同一层间无联结。神经元分层排列,组成输入层、中间层(隐层)、输出层,人工神经网络方法简介,有反馈前向网从输出层到输入层存在反馈的前向网。,人工神经网络方法简介,层内有联结的前向网在无反馈前向网中同一层内存在神经元间的联结回路。,人工神经网络方法简介,有向网任意两个神经元间都可能存在有向联结。网络处在动态中,直至达到某一平衡态、周期态或者混沌状态。,人工神经网络方法简介,第2部分感知器(Perceptron)人工神经网络的基本构件,人工神经网络方法简介,感知器(Perceptron)是最早被设计并实现的人工神经网络。W.McCulloch和W.Pitts总结生物神经元的基本生理特征,提出一种简单的数学模型与构造方法,建立了阈值加权和模型,简称M-P模型(“A Logical Calculus Immanent in Nervous Activity”,Bulletin of Mathematical Biophysics,1943(5):115133)。人工神经元模型是M-P模型的基础。,一、感知器的数学模型,Warren McCulloch(18981969),Walter Pitts(19231969),人工神经网络方法简介,生物神经元的基本特征 神经元及其联结 神经元之间的联结强度决定信号传递的强弱 神经元之间的联结强度可以随训练而改变 信号分为兴奋型和抑制型 一个神经元接受的信号的累计效果决定该神经元的状态 每个神经元有一个阈值,轴突,突触,树突,内核,轴突,人工神经网络方法简介,模拟神经元的首要目标:输入信号的加权和人工神经元可以接受一组来自系统中其它神经元的输入信号,每个输入对应一个权,所有输入的加权和决定该神经元的激活状态。每个权就相当于突触的联结强度。,1.人工神经元数学模型多输入、单输出的加权和结构,人工神经网络方法简介,设X=(x1,x2,xn)表示n个输入,W=(w1,w2,wn)表示它们对应的联结权重。故神经元所获得的输入信号累计效果为:,称u(x)为整合函数。,人工神经网络方法简介,感知器的激活函数,神经元获得网络输入信号后,信号累计效果整合函数u(x)大于某阈值 时,神经元处于激发状态;反之,神经元处于抑制状态。构造激活函数,用于表示这一转换过程。要求是-1,1之间的单调递增函数。激活函数通常为3种类型,由此决定了神经元的输出特征。,人工神经网络方法简介,(1)激活函数为符号函数:,人工神经网络方法简介,(2)激活函数为分段线性函数:,人工神经网络方法简介,(3)激活函数为Sigmoid函数,其特点是单调递增、光滑且具有渐近值,具有解析上的优点和神经生理学特征。,人工神经网络方法简介,2.M-P模型,将人工神经元的基本模型与激活函数结合,即McCulloch Pitts模型。,人工神经网络方法简介,二、感知器的学习算法,什么是“学习”?“The conceptual scheme for learning in this context is a machine with an input channel for figures,a pair of YES and NO output indicators,and a reinforcement or reward button that the machines operator can use to indicate his approval or disapproval of the machines behavior.”M.L.Minsky and S.A.Papert,“Perceptron”(1988),人工神经网络方法简介,ANN可以学会它表达的任何东西。(Rosenblatt,1962年)ANN的表达能力有限,其学习能力也受到限制。ANN的学习过程就是训练过程,在将训练样本集输入到网络的过程中,按照一定的方式来调整神经元之间的联结权重值,使得网络能够将训练样本集的内涵以联结权重矩阵的方式存储起来,从而使得网络在接受输入时,能够给出适当的输出。有监督的学习(Supervised learning)无监督的学习(Unsupervised learning),人工神经网络方法简介,基本思想感知器的学习是有监督的学习。学习的问题归结为求权重系数W=(w1,w2,wn)和阈值的问题。基本思想:逐步将训练集中的样本输入到网络中,根据输出结果和理想输出之间的差别来调整网络中的权重值。,人工神经网络方法简介,设X=(x1,x2,xn)表示n个输入,W=(w1,w2,wn)表示它们对应的联结权重。假设取符号函数为激活函数,,此为经典的M-P模型:,人工神经网络方法简介,训练集的样本(输入向量、输出值)为:,t为样本数目。其中,,人工神经网络方法简介,三、关于感知器的基本理论问题,“线性不可分”问题的困境及其解决,Marvin MinskyMIT Media Lab and MIT AI LabToshiba Professor of Media Arts and SciencesProfessor of E.E.and C.S.,M.I.Tminskymedia.mit.edu,1969年,Minsky和Papert在“Perceptron”一书中从理论上证明单层感知器无法解决许多简单的问题,包括“异或(XOR)”问题。使得ANN理论的发展在197080年代处于低潮。导致政府和企业资助减少,研究人员撤退,人工神经网络方法简介,“异或(Exclusive-OR)”运算,是一个双输入、单输出问题。对应的单层感知器为:,无论如何选择参数a,b,都无法满足划分。这种由单层感知器不能表达的问题称为线性不可分问题。,人工神经网络方法简介,考虑n个自变量的二值函数,当n4时,线性不可分的函数个数远远超过线性可分函数的个数。,(R.O.Windner,1960),表明单层感知器不能表达的问题的数量远远超过它可以表达的问题的数量。,人工神经网络方法简介,解决途径多层网络,一个单层网络可以将空间划分成两部分,用多个单层网络组合在一起,并用其中的一个去综合其它单层网络的结果,构成一个二层网络,即可用来在空间划分出一个封闭或开放的凸域(子空间)。,人工神经网络方法简介,感知器学习算法的计算问题,算法的收敛性对于线性可分问题,感知器的学习算法是收敛的。算法的复杂度(略)算法的容量(略),人工神经网络方法简介,非线性感知器,取权重函数为非线性函数的单级传感器系统。其学习过程涉及到求解非线性方程组的方法。,高阶感知器,主要讨论可线性化的非线性传感器系统。,第3部分单层前向网、多层前向网与BP学习算法简介,人工神经网络方法简介,人工神经网络方法简介,一、单层前向网络,单层前向网模型,设有c 1个感知器,其中第k个感知器的输出为yk;对于输入信号x=(x1,x2,xn),每个感知器有d个输入uj(x),j=1,2,d。,输入层,输出层,人工神经网络方法简介,一个单层前向网可表示为:,:激活函数;wk=(wk1,wk2,wkd):第k个感知器的权重系数;k:第k个感知器的阈值;u=(u1,u2,ud):基函数xRn,u(x)Rn若记wk0=k,u0=1,则上式变换为:,人工神经网络方法简介,记yk(wk;x)为第k个感知器当权重系数为wkRd,输入为x Rn时的输出。设训练集为A=(x,t)|=1,2,N,其中 表示训练集数据编号,xRn为输入,tRc为输出,tk为第k个感知器的期望输出。基于训练集A的误差函数定义为:,单层前向网的学习目标函数,人工神经网络方法简介,学习的目标就是求wk,k=1,2,c,使得误差函数E(w)取最小值:,这就是目标函数。单层前向网的学习原理本质上仍是感知器的学习原理。,人工神经网络方法简介,线性单层前向网的解,关于基函数u(x),对学习集的每一个数据,记:,其中=1,2,N。由此,定义学习集A的扩展集B:,人工神经网络方法简介,不妨假设激活函数为恒等函数,此时网络为线性单层前向网。由此写出误差函数:,优化的目标函数为:,人工神经网络方法简介,根据最小二乘法求解目标函数。由多元函数取极值的必要条件,有:,人工神经网络方法简介,写成矩阵形式,W:c(d1)U:N(d1)T:Nc,人工神经网络方法简介,解的形式为:,解存在的条件?(略),人工神经网络方法简介,二、多层前向网络、BP学习算法,双层前向网,多层前向网的结构特点:1、允许网络具有数层相连的处理单元;2、联结是从前一层的每一个节点到下一层所有节点,不存在其它联结;3、同一层内的节点之间不存在联结;4、不含任何反馈,故输出可以用输入和权重来表示。L层神经网络:具有L层可调节权重参数,人工神经网络方法简介,双层前向网模型:具有两层可调节参数且同层无联结的不含反馈的人工神经网络。X层输入层Y层输出层Z层隐层两层可调节权重参数:W(1)、W(2),人工神经网络方法简介,设输入层的输入为(x1,x2,xn)Rn。,首先考察隐层,设隐层神经元的激活函数为。第j个隐层神经元的整合函数为aj、输出值为zj:,第1层(隐层)权重矩阵中第i个输入联结到第j个隐神经元的权重,第j个隐神经元的阈值,人工神经网络方法简介,同样考察输出层,设输出层神经元的激活函数为。第k个输出神经元以z=(z1,z2,zM)RM为输入,其整合函数为bk、输出值为yk:,第2层(输出层)权重矩阵中第j个隐神经元联结到第k个输出神经元的权重,第k个输出神经元的阈值,人工神经网络方法简介,联合得到双层前向网的输出表达式:,记为:,人工神经网络方法简介,学习的目标函数,为简化计,考虑两类的分类问题。设A、B是分类空间Rd中两个不相交的集合。考虑离散型双层前向网T(W(1),W(2),(1),(2);x),取其激活函数、为符号函数sgn(u)。,该双层前向网的学习目标是,对(A,B)求(W(1),W(2),(1),(2)使得:,求解上述方程。,人工神经网络方法简介,误差的后向传播,多层前向网的学习原理:基于适当定义的误差函数,在网络中调整权重矩阵和阈值等参数,使得误差函数极小化。,与单层前向网和感知器相比较,多层前向网由于隐层的存在,无法判别隐层神经元对输入误差的直接影响(无法知道隐层神经元的理想输出值)。因此,对参数权重矩阵和阈值的调整遇到困难。,人工神经网络方法简介,解决方案计算两个传播方向:“前向传播(Forward propagation)”:输入xi进入网络,按照信息在网络中前进移动的方向,逐次计算aj,zj直至输出yk的过程;(输入向输出方向的前向传播)“后向传播(Back propagation)”:利用输出层的误差来估计输出层的直接前导层的误差,再依次估计更前一层的误差,获得所有各层的误差估计。(输出误差向输入方向的后向传播)(Rumelhart,Hinton&Williams,1986),人工神经网络方法简介,设学习集有T个样本,记为x,t,=1,2,T,其中:,输入,理想输出,计算实际输出,记为:,实际输出,人工神经网络方法简介,显然有:,因此只需讨论某一个样本点的误差传播,以下略去上标。,故误差函数为:,人工神经网络方法简介,已知下列记号:,又定义第k个输出神经元和第j个隐层神经元的误差率为:,输出层误差率,隐层误差率,人工神经网络方法简介,由微分链式法则,计算可得:,输出层误差率,隐层误差率,人工神经网络方法简介,因此,得到:,人工神经网络方法简介,梯度法求解wij(l)取步长因子为固定步长,得到学习规则:,其中k(2)、k(1)均与有关,k=1,2,c;j=0,1,M;i=0,1,N。,