模式识别导论.ppt
《模式识别导论.ppt》由会员分享,可在线阅读,更多相关《模式识别导论.ppt(49页珍藏版)》请在三一办公上搜索。
1、第三章 分类器的设计,线性分类器的设计分段线性分类器的设计非线性分类器的设计,3-1 线性分类器的设计,上一章我们论讨了线性判别函数形式为:g(x)=WTX+Wn+1 其中 X=(X1,X2Xn)n维特征向量 W=(W1,W2 Wn)n维权向量 通常通过特征抽取可以获得n维特征向量,因此n维权向量是要求解的。求解权向量的过程就是分类器的训练过程,使用已知类别的有限的学习样本来获得分类器的权向量被称为有监督的分类。,利用已知类别学习样本来获得权向量的训练过程如下,已知x1 1,通过检测调整权向量,最终使x1 1已知x2 2,通过检测调整权向量,最终使x2 2这样就可以通过有限的样本去决定权向量,
2、x1,x2,.,xn,1,w1,w2,wn,wn+1,0 x1,检测(已知类别),W1 X1,W2 X2,Wn Xn,Wn+1,0 x2,g(x)=wTx,利用方程组来求解权向量对二类判别函数g(x)=W1X1+W2X2+W3已知训练集:Xa,Xb,Xc,Xd且 当(Xa,Xb)时 g(x)0 当(Xc,Xd)时 g(x)0设 Xa=(X1a,X2a)T Xb=(X1b,X2b)T Xc=(X1c,X2c)T Xd=(X1d,X2d)T判别函数可联立成:X1aW1+X2aW2+W30 X1bW1+X2bW2+W30 X1cW1+X2cW2+W30 X1dW1+X2dW2+W30 求出W1,W2
3、,W3,将 式正规化,得-X1cW1-X2cW2-W3 0-X1dW1-X2dW2-W3 0所以 g(x)=WTX 0 其中W=(W1,W2,W3)T 为各模式增1矩阵 为N*(n+1)矩阵N为样本数,n为特征数,训练过程就是对已知类别的样本集求解权向量w,这是一个线性联立不等式方程组求解的过程。求解时:只有对线性可分的问题,g(x)=WTX才有解联立方程的解是非单值,在不同条件下,有不同的解,所以就产生了求最优解的问题 求解W的过程就是训练的过程。训练方法的共同点是,先给出准则函数,再寻找使准则函数趋于极值的优化算法,不同的算法有不同的准则函数。算法可以分为迭代法和非迭代法。,一 梯度下降法
4、迭代法,欲对不等式方程组WTX0求解,首先定义准则函数目标函数)J(W),再求J(W)的极值使W优化。因此求解权向量的问题就转化为对一标量函数求极值的问题。解决此类问题的方法是梯度下降法。方法就是从起始值W1开始,算出W1处目标函数的梯度矢量J(W1),则下一步的w值为:W2=W1-1J(W1)W1为起始权向量 1为迭代步长 J(W1)为目标函数 J(W1)为W1处的目标函数的梯度矢量,在第K步的时候Wk+1=Wk-kJ(Wk)k为正比例因子这就是梯度下降法的迭代公式。这样一步步迭代就可以收敛于解矢量,k取值很重要。k太大,迭代太快,引起振荡,甚至发散。k太小,迭代太慢。应该选最佳k。,选最佳
5、k 目标函数J(W)二阶台劳级数展开式为 J(W)J(Wk)+JT(W-Wk)+(W-Wk)TD(W-Wk)T/2 其中D为当W=Wk时 J(W)的二阶偏导数矩阵 将W=Wk+1=Wk-kJ(Wk)代入式得:J(Wk+1)J(Wk)-k|J|2+k2JT DJ 其中J=J(Wk)对k求导数,并令导数为零有 最佳步长为k=|J|2/JTDJ这就是最佳k的计算公式,但因二阶偏导数矩阵D的计算量太大,因此此公式很少用。,若令W=Wk+1上式为J(Wk+1)=J(Wk)+JT(Wk+1-Wk)+(Wk+1-Wk)TD(Wk+1-Wk)T/2 对Wk+1求导,并令导数为零可得:最佳迭代公式:Wk+1=W
6、k-D-1J 牛顿法的迭代公式 D-1是D的逆阵讨论:牛顿法比梯度法收敛的更快,但是D的计算量大并且要计算D-1。当D为奇异时,无法用牛顿法。,二 感知器法,感知器的原理结构为:,通过对W的调整,可实现判别函数 g(x)=WTX RT 其中RT为响应阈值定义感知准则函数:只考虑错分样本定义:其中x0为错分样本当分类发生错误时就有WTX 0,所以J(W)总是正值,错误分类愈少,J(W)就愈小。理想情况为 即求最小值的问题。,求最小值对W求梯度代入迭代公式中Wk+1=Wk-kJ 由J(W)经第K+1次迭代的时候,J(W)趋于0,收敛于所求的W值,W的训练过程:例如:x1,x2,x31 作 x1,x
7、3的垂直线可得解区(如图)假设起始权向量w1=0 k=1 x1,x2,x3三个矢量相加得矢量2,垂直于矢量2的超平面H将x3错分.x3与矢量2相加得矢量3,垂直于矢量3的超平面H1,将x1错分.依上法得矢量4,垂直于矢量4做超平面,H2将x3错分 x3与矢量4相加得矢量5,矢量5在解区内,垂直于矢量5的超平面可以把 x1,x2,x3分成一类。,x1,x2,x3,2,H,3,H1,4,H2,5,W区间,感知器算法:1.错误分类修正wk 如wkTx0并且x1 wk+1=wk+kx 如wkTx0并且x2 wk+1=wk-kx 2.正确分类,wk不修正 如wkTx0并且x1 如wkTx0并且x2 wk
8、+1=wk,+,-,H,wk+1,kx,wk,权值修正过程,k选择准则 固定增量原则 k固定非负数 绝对修正规则 k 部分修正规则 k=02,例题:有两类样本 1=(x1,x2)=(1,0,1),(0,1,1)2=(x3,x4)=(1,1,0),(0,1,0)解:先求四个样本的增值模式 x1=(1,0,1,1)x2=(0,1,1,1)x3=(1,1,0,1)x4=(0,1,0,1)假设初始权向量 w1=(1,1,1,1)k=1第一次迭代:w1Tx1=(1,1,1,1)(1,0,1,1)T=30 所以不修正 w1Tx2=(1,1,1,1)(0,1,1,1)T=30 所以不修正 w1Tx3=(1,
9、1,1,1)(1,1,0,1)T=30 所以修正w1 w2=w1-x3=(0,0,1,0)w2Tx4=(0,0,1,0)T(0,1,0,1)=0 所以修正w2 w3=w2-x4=(0,-1,1,-1)第一次迭代后,权向量w3=(0,-1,1,-1),再进行第2,3,次迭代如下表,x1,x2,x3,x1,x2,x3,x4,1,1,1,直到在一个迭代过程中权向量相同,训练结束。w6=w=(0,-1,3,0)判别函数g(x)=-x2+3x3感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的振荡,这是它的缺点.,线性不可分样本集的分类解(取近似解)对于线性可分的样本集,可以用上述
10、方法解到正确分类的权向量。当样本集线性不可分时,用上述方法求权值时算法不收敛。如果我们把循环的权向量取平均值作为待求的权向量,或就取其中之一为权向量,一般可以解到较满意的近似结果。例:在样本1:X1=(0,2)X3=(2,0)X5=(-1,-1)2:X2=(1,1)X4=(0,-2)X6=(-2,0)求权向量的近似解,x2,x1,x6,x1,x3,2,x5,2,x4,x2,1,1,H,解:此为线性不可分问题,利用感知器法求权向量权向量产生循环(-1,2,0),(0,2,2),(-1,1,1),(-1,1,1)(-1,1,1),(0,0,0),(-1,2,0)因此算法不收敛,我们可以取循环中任一
11、权值,例如取W=(0,2,2)T则判别函数为:g(x)=2x1+2x2判别面方程为:g(x)=2x1+2x20 所以x1+x20由图看出判别面H把二类分开,但其中x2 错分到1类,而x5错分到2类,但大部分分类还是正确的。,作业:已知四个训练样本 w1=(0,0),(0,1)w2=(1,0),(1,1)使用感知器固定增量法求判别函数 设w1=(1,1,1)k=1 要求编写程序上机运行,写出判别函数,并打出图表。,三 最小平方误差准则(MSE法)-非迭代法,前面我们研究了线性不等式方程组g(x)=WTX0的解法。它们共同点是企图找一个权向量W,使错分样本最小。现在我们把不等式组变成如下形式:WT
12、Xi=bi0 则有联立方程XW=b 这是矛盾方程组,方程数大于未知数,所以没有精确解的存在。,每个样本有n个特征,给定的任意正常数,定义误差向量:e=XW-b0 把平方误差作为目标函数 W的优化就是使J(W)最小。求J(W)的梯度并为0。解上方程得 XTXW=XTb这样把求解XW=b的问题,转化为对XTXW=XTb求解,这一有名的方程,最大好处是因XTX是方阵且通常是非奇的,所以可以得到W的唯一解。,MSE准则函数,只要计算出 就可以得到W取:最小平方误差法同Fisher法是一致的。,(MSE 解),其中N/N1有N1个,N/N2有N2个,四 韦霍氏法(LMS法)迭代法,上节得到MSE法的W解
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 导论
链接地址:https://www.31ppt.com/p-6422381.html