人工神经网络ppt课件.ppt
《人工神经网络ppt课件.ppt》由会员分享,可在线阅读,更多相关《人工神经网络ppt课件.ppt(80页珍藏版)》请在三一办公上搜索。
1、2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,1,机器学习,第4章 人工神经网络(ANN),2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,2,概述,人工神经网络提供了一种普遍且实用的方法从样例中学习值为实数、离散值或向量的函数反向传播算法,使用梯度下降来调节网络参数以最佳拟合由输入-输出对组成的训练集合人工神经网络对于训练数据中的错误健壮性很好人工神经网络已被成功应用到很多领域,例如视觉场景分析,语音识别,机器人控制,2003.12.18,机器学习-人工神经网络 作者:Mitchell
2、译者:曾华军等 讲者:陶晓鹏,3,简介,神经网络学习对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法对于某些类型的问题,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知道的最有效的学习方法反向传播算法成功例子,学习识别手写字符,学习识别口语,学习识别人脸,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,4,生物学动机,ANN受到生物学的启发,生物的学习系统是由相互连接的神经元组成的异常复杂的网络。ANN由一系列简单的单元相互密集连接构成的,其中每一个单元有一定数量的实值输入,并产生单一的实数值输出人脑的构成,大约
3、有1011个神经元,平均每一个与其他104个相连神经元的活性通常被通向其他神经元的连接激活或抑制最快的神经元转换时间比计算机慢很多,然而人脑能够以惊人的速度做出复杂度惊人的决策很多人推测,生物神经系统的信息处理能力一定得益于对分布在大量神经元上的信息表示的高度并行处理,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,5,生物学动机(2),ANN系统的一个动机就是获得这种基于分布表示的高度并行算法ANN并未模拟生物神经系统中的很多复杂特征ANN的研究分为两个团体使用ANN研究和模拟生物学习过程获得高效的机器学习算法,不管这种算法是否反映了生物过
4、程本书属于后一个研究团体,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,6,神经网络表示,ALVINN系统Pomerleau 1993使用一个学习到的ANN以正常的速度在高速公路上驾驶汽车ANN的输入是一个30 x32像素的网格,输出是车辆行进的方向每个节点对应一个网络单元的输出,而从下方进入节点的实线为其输入隐藏单元,输出仅在网络内部,不是整个网络输出的一部分每个输出单元对应一个特定的驾驶方向,这些单元的输出决定哪一个方向是被最强烈推荐的,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,
5、7,神经网络表示(2),ALVINN是很多ANN的典型结构,所有单元分层互连形成一个有向无环图通常,ANN图结构可以有很多种类型无环或有环有向或无向本章讨论以反向传播算法为基础的ANN方法反向传播算法假定网络是一个固定结构,对应一个有向图,可能包含环ANN学习就是为图中每一条边选取权值大多数实际应用与ALVINN相似,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,8,适合神经网络学习的问题,训练集合为含有噪声的复杂传感器数据,例如来自摄像机和麦克风需要较多符号表示的问题,例如决策树学习的任务,能够取得和决策树学习大体相当的结果反向传播算法是
6、最常用的ANN学习技术,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,9,反向传播算法适合问题的特征,实例是用很多“属性-值”对表示的目标函数的输出可能是离散值、实数值或者由若干实数属性或离散属性组成的向量训练数据可能包含错误可容忍长时间的训练可能需要快速求出目标函数值人类能否理解学到的目标函数是不重要的,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,10,本章余后部分提纲,讨论训练单个单元的学习算法介绍组成神经网络的几种主要单元感知器(perceptron)线性单元(liner uni
7、t)sigmoid单元(sigmoid unit)给出训练多层网络的反向传播算法考虑几个一般性问题ANN的表征能力假设空间搜索的本质特征过度拟合问题反向传播算法的变体例子,利用反向传播算法训练识别人脸的ANN,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,11,感知器,一种类型的ANN系统是以感知器为基础感知器以一个实数值向量作为输入,计算这些输入的线性组合,如果结果大于某个阈值,就输出1,否则输出-1其中每个wi是一个实数常量,或叫做权值,用来决定输入xi对感知器输出的贡献率。特别地,-w0是阈值。,2003.12.18,机器学习-人工神
8、经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,12,感知器(2),两种简化形式,附加一个常量输入x0=1,前面的不等式写成或写成向量形式为了简短起见,把感知器函数写为其中,,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,13,感知器(3),学习一个感知器意味着选择权w0,wn的值。所以感知器学习要考虑的候选假设空间H就是所有可能的实数值权向量的集合,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,14,感知器的表征能力,可以把感知器看作是n维实例空间(即点空间)中的超平面决
9、策面对于超平面一侧的实例,感知器输出1,对于另一侧的实例,输出-1这个决策超平面方程是可以被某个超平面分割的样例集合,称为线性可分样例集合,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,15,感知器的表征能力(2),单独的感知器可以用来表示很多布尔函数表示m-of-n函数感知器可以表示所有的原子布尔函数:与、或、与非、或非然而,一些布尔函数无法用单一的感知器表示,例如异或,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,16,感知器的表征能力(3),因为所有的布尔函数都可表示为基于原子函数
10、的互连单元的某个网络,因此感知器网络可以表示所有的布尔函数。事实上,只需要两层深度的网络,比如表示析取范式注意,要把一个AND感知器的输入求反只要简单地改变相应输入权的符号因为感知器网络可以表示大量的函数,而单独的单元不能做到这一点,所以我们感兴趣的是学习感知器组成的多层网络,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,17,感知器训练法则,虽然我们的目的是学习由多个单元互连的网络,但我们还是要从如何学习单个感知器的权值开始单个感知器的学习任务,决定一个权向量,它可以使感知器对于给定的训练样例输出正确的1或-1我们主要考虑两种算法感知器法
11、则delta法则这两种算法保证收敛到可接受的假设,在不同的条件下收敛到的假设略有不同这两种算法提供了学习多个单元构成的网络的基础,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,18,感知器法则,算法过程从随机的权值开始反复应用这个感知器到每个训练样例,只要它误分类样例就修改感知器的权值重复这个过程,直到感知器正确分类所有的训练样例感知器训练法则其中,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,19,感知器法则(2),为什么这个更新法则会成功收敛到正确的权值呢?一些例子可以证明(Mins
12、key&Papert 1969)如果训练样例线性可分,并且使用了充分小的否则,不能保证,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,20,梯度下降和delta法则,delta法则克服感应器法则的不足,在线性不可分的训练样本上,收敛到目标概念的最佳近似delta法则的关键思想是,使用梯度下降来搜索可能的权向量的假设空间,以找到最佳拟合训练样例的权向量delta法则为反向传播算法提供了基础,而反向传播算法能够学习多个单元的互连网络对于包含多种不同类型的连续参数化假设的假设空间,梯度下降是必须遍历这样的空间的所有算法的基础,2003.12.18
13、,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,21,梯度下降和delta法则(2),把delta训练法则理解为训练一个无阈值的感知器指定一个度量标准来衡量假设相对于训练样例的训练误差第6章给出了选择这种E定义的一种贝叶斯论证,在一定条件下,使E最小化的假设就是H中最可能的假设,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,22,可视化假设空间,图4-4根据E的定义,误差曲面是一个抛物面,存在一个单一全局最小值梯度下降搜索从一个任意的初始权向量开始,然后沿误差曲面最陡峭下降的方向,以很小的步伐反复修改这个向量
14、,直到得到全局的最小误差点,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,23,梯度下降法则的推导,如何发现沿误差曲面最陡峭下降的方向?通过计算E相对向量 的每个分量的导数,这个向量导数被称为E对于 的梯度,记作当梯度被解释为权空间的一个向量时,它确定了使E最陡峭上升的方向,所以这个向量的反方向给出了最陡峭下降的方向梯度训练法则其中,,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,24,梯度下降法则的推导(2),需要一个高效的方法在每一步都计算这个梯度梯度下降权值更新法则,2003.12
15、.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,25,梯度下降法则的推导(3),表4-1,训练线性单元的梯度下降算法Gradient-Descent(training_examples,)training_examples中每个训练样例形式为序偶,是输入值向量,t是目标输出值,是学习速率初始化每个wi为某个小的随机值遇到终止条件之前,做以下操作初始化每个wi为0对于训练样例training_examples中的每个,做把实例 输入到此单元,计算输出o对于线性单元的每个权增量wi,做wiwi+(t-o)xi对于线性单元的每个权wi,做wiwi+wi,2003
16、.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,26,梯度下降法则的推导(4),梯度下降算法如下选取一个初始的随机权向量应用线性单元到所有的训练样例,根据公式4.7计算每个权值的 更新权值因为误差曲面仅包含一个全局的最小值,所以无论训练样例是否线性可分,算法都会收敛到具有最小误差的权向量,条件是使用足够小的学习速率算法的一种常用改进方法是随着梯度下降步数的增加逐渐减小学习速率,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,27,梯度下降的随机近似,梯度下降是一种重要的通用学习范型,它是搜索庞大假设
17、空间或无限假设空间一种策略梯度下降应用于满足以下条件的任何情况假设空间包含连续参数化的假设误差对于这些假设参数可微梯度下降的主要实践问题有时收敛过程可能非常慢如果在误差曲面上有多个局部极小值,那么不能保证找到全局最小值,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,28,梯度下降的随机近似(2),随机梯度下降(或称增量梯度下降)根据某个单独样例的误差增量计算权值更新,得到近似的梯度下降搜索(随机取一个样例)对表4-1算法的修改可以看作为每个单独的训练样例定义不同的误差函数在迭代所有训练样例时,这些权值更新的序列给出了对于原来误差函数的梯度下
18、降的一个合理近似通过使下降速率的值足够小,可以使随机梯度下降以任意程度接近于真实梯度下降,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,29,梯度下降的随机近似(2),标准梯度下降和随机梯度下降之间的关键区别标准梯度下降是在权值更新前对所有样例汇总误差,而随机梯度下降的权值是通过考查每个训练样例来更新的在标准梯度下降中,权值更新的每一步对多个样例求和,需要更多的计算(?)标准梯度下降,由于使用真正的梯度,标准梯度下降对于每一次权值更新经常使用比随机梯度下降大的步长如果标准误差曲面有多个局部极小值,随机梯度下降有时可能避免陷入这些局部极小值中
19、实践中,标准和随机梯度下降方法都被广泛应用,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,30,梯度下降的随机近似(3),delta法则(增量法则),又称LMS法则、Adaline法则、Windrow-Hoff法则公式4.10与4.4.2节的感知器法则的相似和区别delta法则可以学习非阈值线性单元的权,也可以用来训练有阈值的感知器单元。如果非阈值输出能够被训练到完美拟合这些值,那么阈值输出也会完美拟合它们即使不能完美地拟合目标值,只要线性单元的输出具有正确的符号,阈值输出就会正确拟合目标值尽管这个过程会得到使线性单元输出的误差最小化的权值
20、,但这些权值不能保证阈值输出的误差最小化(?),2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,31,感知器学习小结,感知器法则和delta法则的关键差异前者根据阈值化的感知器输出的误差更新权值后者根据输入的非阈值化线性组合的误差来更新权值这个差异带来不同的收敛特性前者经过有限次的迭代收敛到一个能理想分类训练数据的假设,条件是训练样例线性可分后者可能经过极长的时间,渐近收敛到最小误差假设,但无论训练样例是否线性可分都会收敛,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,32,感知器学习小结
21、(2),学习权向量的第3种方法是线性规划线性规划是解线性不等式方程组的一种通用的有效方法这种方法仅当训练样例线性可分时有解Duda和Hart给出了一种更巧妙的适合非线性可分的情况的方法更大的问题是,无法扩展到训练多层网络,而delta法则可以很容易扩展到多层网络,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,33,多层网络和反向传播算法,多层网络能够表示种类繁多的非线性曲面图4-5描述了一个典型的多层网络和它的决策曲面,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,34,可微阈值单元,使
22、用什么类型的单元来构建多层网络?多个线性单元的连接仍产生线性函数,而我们希望构建表征非线性函数的网络感知器单元可以构建非线性函数,但它的不连续阈值使它不可微,不适合梯度下降算法我们需要的单元满足的条件输出是输入的非线性函数输出是输入的可微函数Sigmoid单元,类似于感知器单元,但基于一个平滑的可微阈值函数,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,35,可微阈值单元(2),图4-6sigmoid单元先计算它的输入的线性组合,然后应用到一个阈值上,阈值输出是输入的连续函数其中,2003.12.18,机器学习-人工神经网络 作者:Mitc
23、hell 译者:曾华军等 讲者:陶晓鹏,36,可微阈值单元(3),sigmoid函数也称logistic函数挤压函数输出范围是0到1单调递增导数很容易用函数本身表示sigmoid函数的变型其他易计算导数的可微函数增加陡峭性双曲正切函数,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,37,反向传播算法,用来学习多层网络的权值采用梯度下降方法试图最小化网络输出值和目标值之间的误差平方网络的误差定义公式,对所有网络输出的误差求和,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,38,反向传播算法
24、(2),反向传播算法面临的学习任务搜索一个巨大的假设空间,这个空间由网络中所有的单元的所有可能的权值定义,得到类似图4-4的误差曲面在多层网络中,误差曲面可能有多个局部极小值,梯度下降仅能保证收敛到局部极小值尽管有这个障碍,已经发现对于实践中很多应用,反向传播算法都产生了出色的结果,2003.12.18,机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏,39,反向传播算法(3),表4-2包含两层sigmoid单元的前馈网络的反向传播算法BackPropagation(training_examples,nin,nout,nhidden)training_exampl
25、es是序偶的集合,是网络输入值向量,是目标输出值。是学习速率,nin是网络输入的数量,nhidden是隐藏层单元数,nout是输出单元数,从单元i到单元j的输入表示为xji,单元i到单元j的权值表示为wji。创建具有nin个输入,nhidden个隐藏,nout个输出单元的网络初始化所有的网络权值为小的随机值在遇到终止条件前对于训练样例training_examples中的每个:把输入沿网络前向传播把实例 输入网络,并计算网络中每个单元u的输出ou使误差沿网络反向传播对于网络的每个输出单元k,计算它的误差项kok(1-ok)(tk-ok)对于网络的每个隐藏单元h,计算它的误差项hoh(1-oh)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工 神经网络 ppt 课件
链接地址:https://www.31ppt.com/p-5678289.html