神经网络配套Ch12presRBF.ppt
径向基函数(RBF)网络,RBF网络结构,径向基神经元结构,径向基神经元的净输入采用距离函数(如欧式距离)乘以偏置,并使用径向基函数作为激活函数。,权又称为中心,1.高斯函数:,2.反射S形函数:,3.逆多二次函数:,称为基函数的扩展常数或宽度,越小,径向基函数的宽度越小,基函数就越有选择性。,径向基函数(RBF),RBF网络结构(续),RBF网络结构(续),网络结构,RBF网络是个三层结构(-S1-S2)的前馈网,其中,代表输入层并指出输入维数;S1代表由径向基神经元构成的隐层并指出神经元数目;S2是线性输出层。,RBF网络结构(续),RBF网络层间的连接输入层到隐层之间的权值(中心)固定隐层到输出层之间的权值可调,RBF网络工作原理,RBF网络的三层的作用输入层将网络与外界环境连接起来隐层是非线性的,实现从输入空间到隐层空间之间的非线性变换输出层是线性的,完成隐层输出的加权和RBF网络是一种局部逼近网络能以任意精度逼近任一连续函数常用于解决函数逼近和分类问题,RBF网络工作原理(续),RBF网络的工作原理函数逼近:以任意精度逼近任一连续函数。一般函数都可表示成一组基函数的线性组合,RBF网络相当于用隐层单元的输出构成一组基函数,然后用输出层来进行线性组合,以完成逼近功能。分类:解决非线性可分问题。RBF网络用隐层单元先将非线性可分的输入空间设法变换到线性可分的特征空间(通常是高维空间),然后用输出层来进行线性划分,完成分类功能。,RBF网络实现内插问题,内插问题(数值逼近)给定样本数据:寻找函数,使之满足:,RBF网络解决内插问题网络隐层使用个隐节点把所有个样本输入分别作为个隐节点的中心各基函数取相同的扩展常数确定权值可解线性方程组:设第j 个隐节点在第i个样本的输出为:,可矩阵表示:,若R可求逆,则解为:。根据Micchelli定理可得,如果隐节点激活函数采用径向基函数,且 各不相同,则线性方程组有唯一解。,RBF网络实现内插问题(续),RBF网络的输出为:其中 为隐节点的激活函数(RBF函数);是第 j个隐节点的RBF函数的数据中心。RBF网络的结构为:,RBF网络实现内插问题(续),RBF网络可实现对样本完全内插,即在所有样本点网络输出误差为0。网络的隐层节点数等于样本数,当样本数较多时,网络的结构将过大,前述方法中矩阵R也大,使得它的条件数(矩阵的最大特征值与其最小特征值的比)可能过大,从而导致求逆时不稳定。同样,当样本数较多时,网络结构将过大,从而有可能导致网络的泛化性能降低。为了提高网络的泛化性能,可以采用下面讨论的广义RBF网络和正则化网络。,广义RBF网络,隐层节点数(径向基函数个数)远小于样本数,通常有:径向基函数的中心不再限制在样本点上,即有:径向基函数的扩展常数不一定要统一,RBF网络的学习算法,学习算法要确定的参数:网络隐层神经元的个数(结构设计)确定各径向基函数的数据中心扩展常数连接隐层到输出层的权值,RBF网络的学习算法,中心固定方法随机从训练数据中选取网络中隐节点的数据中心,并根据各数据中心之间的距离确定隐节点的扩展常数然后用有监督学习(伪逆或LMS方法)确定输出层节点的权值中心自组织选取方法先用无监督学习(k-均值聚类算法对样本输入进行聚类)方法确定网络中隐节点的数据中心,并根据各数据中心之间的距离确定隐节点的扩展常数然后用有监督学习(仿逆或LMS方法)确定输出层节点的权值,RBF网络的学习算法(续),梯度方法用梯度方法原理,通过最小化性能指数实现对各隐节点数据中心、扩展宽度和权值的调节交替梯度方法为提高网络的训练效率,将梯度方法分为两阶段,这两个阶段交替进行训练,直到达到要求的精度为止输入层隐层阶段:固定网络的权值,训练网络的中心和扩展宽度隐层输出层阶段:固定网络的中心和扩展宽度,训练网络的权值,RBF网络的特点,只有一个隐层,且隐层神经元与输出层神经元的模型不同。隐层节点激活函数为径向基函数,输出层节点激活函数为线性函数。隐层节点激活函数的净输入是输入向量与节点中心的距离(范数),而非向量内积,且节点中心不可调。隐层节点参数确定后,输出权值可通过解线性方程组得到。隐层节点的非线性变换把线性不可分问题转化为线性可分问题,RBF网络的特点(续),局部逼近网络(MLP是全局逼近网络),这意味着逼近一个输入输出映射时,在相同逼近精度要求下,RBF所需的时间要比MLP少。具有唯一最佳逼近的特性,无局部极小。合适的隐层节点数、节点中心和宽度不易确定。,正则化方法(改进泛化性能),寻找能有效逼近给定样本数据的函数设有样本数据:,F(P)是逼近函数。传统方法是最小化标准误差项来实现由于从有限样本导出一个函数的解有无穷多个,该问题是不适定的(ill-posed)。Tikhonov提出了正则化方法来解决这类问题。就是在标准误差项的基础上,增加一个限制逼近函数复杂性的项(称为正则化项),即其中,D是线性微分算子,关于解F(p)的形式的先验知识就包含在其中,即D的选取与所解的问题有关。D也称为稳定因子,它使正则化问题的解稳定光滑,从而连续。,正则化方法(改进泛化性能),正则化理论要求最小化的量为其中,是一个正的实数,称为正则化参数。正则化参数用来指示所给的样本数据和先验信息对 的最小解函数 作的贡献的大小。当 时,表明该问题不受约束,解完全由所给样本决定;当 时,表明仅由算子D所定义的先验条件就足以得到问题的解,也就是说所给的样本完全不可信;实际应用中,正则化参数取上述两个极限值之间,使样本数据和先验条件都对解作贡献。,正则化方法(改进泛化性能),正则化问题的解为:其中,是自伴随算子 的Green函数。可见正则化问题的解是Q个基函数 的线性组合,即,正则化网络,正则化理论导出一类特定的RBF网络正则化网络 Green函数 的形式依赖于算子D的形式,如果D具有平移不变性和旋转不变性,则Green函数的值取决于P和 Pi之间的距离,即。选择不同的算子D(应具有平移和旋转不变性),便可得到不同的Green函数,包括Gaussian函数这样最常用的径向基函数。,正则化网络,正则化网络通过加入先验知识平滑逼近函数F(P),从而有可能提高泛化性能。当样本数较多时,因为Green函数与样本一一对应,网络的结构也大,实现网络的计算量将很大。为了克服上述的困难,通常要降低网络的复杂性,在一个较低的维数空间(较小的网络结构)求一个次优解。广义径向基函数网络讨论这方面的内容。,