模式识别ppt课件第四章线性判别函数.ppt
《模式识别ppt课件第四章线性判别函数.ppt》由会员分享,可在线阅读,更多相关《模式识别ppt课件第四章线性判别函数.ppt(130页珍藏版)》请在三一办公上搜索。
1、第四章 线性判别函数,Bayesian分类器设计方法,已知类条件概率密度 p(x|i) 参数表达式先验概率 P(i) 利用样本估计 p(x| i) 的未知参数用贝叶斯规则将其转换成后验概率 P(i|x) ,并根据后验概率的大小进行分类决策。,解决实际问题方法,在实际中存在问题样本特征空间的类条件概率密度形式常常很难确定利用 Parzen 窗等非参数方法恢复分布往往需要大量样本,而且随着特征空间维数的增加所需样本数急剧增加。因此,在解决实际问题时,往往是利用样本集直接设计分类器,而不恢复类条件概率密度。即采用判别函数,首先给定某个判别函数类,然后利用样本集确定出判别函数中的未知参数。,线性判别函
2、数,线性判别函数法是一类较为简单的判别函数。是统计模式识别的基本方法之一。它首先假定判别函数 g(x) 是 x 的线性函数,即 g(x)=wTx+ w0 ,对于 c 类问题,可以定义 c 个判别函数, gi(x)=wiTx+ wi0 , i=1,2 , c 。用样本去估计各 wi 和 wi0 ,并把未知样本 x 归到具有最大判别函数值的类别中去。关键是如何利用样本集求得 wi 和 wi0 。,训练和学习,“训练”和“学习” 在待识别的模式中,挑选一批有代表性的样本,经过人工判读,成为已知分类的样本,把这批样本逐个输入到计算机中的“训练”程序或算法中,通过一次次的迭代,最后得到正确的线性判别函数
3、。这样的迭代过程称之为训练过程,所构成的分类器称为有人监督或有教师的分类器。,4.1.1 线性判别函数的基本概念,在正态分布的Bayesian判别中,已经遇到过在两类情况下判别函数为线性的情况。假设有1 和2 两类模式,在二维模式特征空间可用一直线把这两类模式划分开,如图 4.1 所示。,划分直线的方程,参数,坐标变量,4.1.1 线性判别函数的基本概念,判别规则,若给定一个未知类别的模式x当g(x)0 时,则决策 x 属于1 ;当 g(x)0 ,则决策 x 属于2;若x处于划分边界上即g(x)=0,则x的类别不可确定,则可将x任意分到某一类或拒绝, g(x)=0 为不可确定的条件。这一概念可
4、以推广到有限维欧氏空间中的非线性边界的更一般情况。,4.1.1 线性判别函数的基本概念,g(x)=wdxd+ wd-1xd-1+ +w1x1+w0 =wTx+w0 (4-1),一般的线性判别函数形式为:,特征向量 (样本向量),权向量,阈值权(常数),4.1.1 线性判别函数的基本概念,简单线性分类器:,4.1.1 线性判别函数的基本概念,对于两类问题的线性分类器决策规则:,令 g(x)=g1(x) g2(x)如果g(x) 0 ,则决策 x 1g(x) 0 ,则决策 x 2 (4-2)g(x) 0 ,则可将 x 任意分到某一类或拒绝,4.1.1 线性判别函数的基本概念,对于两类问题的线性分类器
5、决策规则:,方程 g(x)=0 定义了一个决策面,把归类于1 类的点和归类于2 的点分割开。假设 x1 和 x2 都在决策面 H 上,则有 wTx1+ w0= wTx2+w0 (4-3)或 wT(x1 x2)=0 (4-4)表明, w 和超平面 H 上任一向量正交,即 w 是 H 的法向量。,4.1.1 线性判别函数的基本概念,一般地,一个超平面 H 把特征空间分成两个半空间,即对1 类的决策域 R1 和对2 类的决策域 R2 。因为当 x 在 R1 中时,g(x)0,所以决策面的法向量是指向 R1 的。因此,有时称 R1 中的任何 x 在 H 的正侧,相应地,称 R2 中的任何 x 在 H
6、的负侧。,4.1.1 线性判别函数的基本概念,判别函数 g(x) 是特征空间中某点 x 到超平面距离的一种代数量度。,若把 x 表示成,式中 xp :是 x 在 H 上的投影向量; r :是 x 到 H 的垂直距离;,:是w方向上的单位向量。,4.1.1 线性判别函数的基本概念,若 x 为原点,则 g(x)=w0 (4-7)将 (4-7) 代入 (4-6) ,就得到从原点到超平面 H 的距离,(4-6),判别函数 g(x) 是特征空间中某点 x 到超平面距离的一种代数量度。,4.1.1 线性判别函数的基本概念,如果 w00 ,则原点在 H 的正侧;若 w00 ,则原点在 H 的负侧。若w0=0
7、 ,则 g(x) 具有齐次形式 wTx ,说明超平面 H 通过原点。,判别函数 g(x) 是特征空间中某点 x 到超平面距离的一种代数量度。,4.1.1 线性判别函数的基本概念,图 4.2 对这些结果作了几何解释。,4.1.1 线性判别函数的基本概念,结论,利用线性判别函数进行决策,就是用一个超平面把特征空间分割成两个决策区域。超平面的方向由权向量 w 确定,它的位置由阈值权 w0 确定。判别函数 g(x) 正比于 x 点到超平面的代数距离(带正负号)当 x 在 H 正侧时, g(x) 0 ,在负侧时, g(x) 0 。,4.1.1 线性判别函数的基本概念,4.1.2 广义线性判别函数,如图
8、4.3 所示的二类问题。设有一维样本空间 X ,所希望的划分是:如果 xa ,则 x 属于1 类;如果 b xa ,则 x 属于2 类。,b,a,1,1,2,4.1.2 广义线性判别函数,显然,没有任何一个线性判别函数能解决上述划分问题。这说明线性判别函数虽然简单,但局限性较大,不适用于非凸决策区域和多连通区域的划分问题。,从图 4.3 中可以看出,如果建立二次判别函数 g(x)=(x-a)(x-b) (4-9)则可以很好地解决上述分类问题,决策规则是: g(x)0 ,则决策 x1g(x)0 ,则决策 x2二次判别函数可写成如下一般形式g(x)=c0+c1x+ c2x2(4-10)如果适当选择
9、 x y 的映射,则可把二次判别函数化为 y 的线性函数,4.1.2 广义线性判别函数,式中,称为广义判别函数,a叫做广义权向量。,一般地,对于任意高次判别函数 g(x)(这时的 g(x) 可看作对任意判别函数作级数展开,然后取其截尾部分的逼近),都可以通过适当的变换,化为广义线性判别函数来处理。,4.1.2 广义线性判别函数,存在问题,经过变换后,维数大大增加了,这将使问题很快陷入所谓“维数灾难”。在统计学习理论中,对广义线性分类器进行研究,克服了“维数灾难”问题,进而发展出了最新的模式识别方法支持向量机,成为解决有限样本情况下非线性分类问题的有效手段。,4.1.2 广义线性判别函数,把 (
10、4-1) 式定义的线性判别函数写成下面的形式,(4-12),增广特征向量Augmented feature vector,增广权向量(广义权向量)Augmented weight vector,4.1.2 广义线性判别函数,结论,y 与 x 相比,虽然增加了一维,但保持了样本间的欧氏距离不变,变换后的样本向量仍然全部位于 d 维子空间,即原 X 空间中,方程,(4-13),在Y空间确定了一个通过原点的超平面 。,它对 d 维子空间的划分与原决策面 wTx+ w0=0 对原 X 空间的划分完全相同。,4.1.2 广义线性判别函数,例子,这种方法的优缺点可通过例子来说明。考虑二次判别函数,得到三维
11、向量y,从x到y的映射如图所示。,4.1.2 广义线性判别函数,例子,4.1.2 广义线性判别函数,数据仍保持固有的一维,因为改变x将导致y沿着一个三维曲线运动。,如果x服从某一个概率分布时,得到的密度函数是退化的,即曲线之外是0,在曲线上是无穷大,这是从低维空间到高维空间映射的普遍问题。,例子,4.1.2 广义线性判别函数,图中映射y=(1,x,x2)T把一条直线映射为三维空间中的一条抛物线。由于两类问题,在三维空间中,一个平面就是一个分隔面。因此,由图可见,这产生了原始一维x空间的不连通性,例子,g(x)=1+x+ 2x2,x0.5时,g(x)0,a=(-1, 1,2)T,4.1.2 广义
12、线性判别函数,由aTy=0定义的平面将y空间分成两个判别区域,如图给出当a=(-1,1,2)T时的分类平面和x空间对应的判别区域。,结论,aTy=0,在2维空间不穿过原点,4.1.2 广义线性判别函数,一个三维增广特征空间y和增广权向量a(在原点)。满足aTy=0的点集是一个穿过y空间原点的超平面(用红色表示),这个平面垂直于a。这个平面在其原来的二维空间中不一定穿过原点(即立方体顶部虚线所示的判决边界)。因此存在一个增广权向量a,可以获得x空间中任意的判定线。,4.1.3 设计线性分类器的主要步骤,设计线性分类器,就是建立线性判别函数(4-l)式g(x) =wTx+w0或广义线性判别函数(4
13、-12)式,这样,设计线性分类器就转化为,利用训练样本集寻找准则函数的极值点 和 或 。,设计线性分类器的主要步骤如下:, 要有一组具有类别标志的样本集X=x1,x2,xN。如果在样本 xn 抽出后,把它看作一个确定的观察值,则这组样本集称为确定性样本集;若把 xn 看作一个随机变量,则这组样本集称为随机样本集。有时也将样本集 X 转换成增广样本集 Y 来处理。,4.1.3 设计线性分类器的主要步骤, 要根据实际情况确定一个准则函数 J 它必须满足:, J 的值反映分类器的性能,它的极值解则对应于 最好 的决策。, J是样本集X和w、w0或 a 的函数;,设计线性分类器的主要步骤如下:,4.1
14、.3 设计线性分类器的主要步骤,用最优化技术求出准则函数的极值解 和 w*或a*。,这样就可以得到线性判别函数,或,设计线性分类器的主要步骤如下:,4.1.3 设计线性分类器的主要步骤,4.2 Fisher线性判别,Fisher线性判别函数是经典判别方法之一,应用非常广泛。应用统计方法解决模式识别问题时,困难之一是维数问题。在低维空间里行得通的方法,在高维空间里往往行不通。因此,降低维数有时就成为处理实际问题的关键。,在数学上通常可以把 d 维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分开得最好。问题是如何
15、根据实际情况找到这条最好的、使最易于分类的投影线。这就是Fisher法所要解决的基本问题 (见图 4.4) 。,4.2 Fisher线性判别,4.2 Fisher线性判别,从 d 维空间到一维空间的数学变换方法,假设有一集合 X 包含 N 个 d 维样本 x1 , x2 ,xN ,其中 N1 个属于1 类的样本记为子集 X1 ,N2 个属于2 类的样本记为 X2 ,若对 xn 的分量作线性组合可得标量yn=wTxn, n=1 , 2 , Ni这样便得到 N 个一维样本 yn 组成的集合,并可分为两个子集 Y1 和 Y2 。,4.2 Fisher线性判别,w* 就是最好的投影方向,从几何上看,如
16、果 |w|=1 ,则每个 yn 就是相对应的 xn 到方向为 w 的直线上的投影,实际上,w 的绝对值是无关紧要的,它仅使 yn 乘上一个比例因子,重要的是选择 w 的方向。w 的方向不同,将使样本投影后的可分离程度不同,从而直接影响识别效果。因此,前述所谓寻找最好投影方向的问题,在数学上就是寻找最好的变换向量 w*的问题。,4.2 Fisher线性判别,定义几个基本参量,在 d 维 X 空间各类样本均值向量mi,, i =1,2,样本类内离散度矩阵 Si 和总类内离散度矩阵 Sw,,i =1,2,Sw=S1+ S2,4.2 Fisher线性判别,样本类间离散度矩阵Sb,Sb=(m1 m2)(
17、m1 m2)T其中 Sw 是对称半正定矩阵,而且当 Nd 时通常是非奇异的。Sb 也是对称半正定矩阵,在两类条件下,它的秩最大等于 1 。,定义几个基本参量,4.2 Fisher线性判别,在一维 Y 空间,各类样本均值,,i =1,2,样本类内离散度 和总类内离散度,4.2 Fisher线性判别,定义Fisher准则函数,希望投影后,在一维 Y 空间里各类样本尽可能分得开些,即希望两类均值之差越大越好;希望各类样本内部尽量密集,即希望类内离散度越小越好。因此,可以定义Fisher准则函数为:,4.2 Fisher线性判别,寻找使JF(w) 尽可能大的 w 作为投影方向。,但 JF(w)式并不显
18、含w,因此必须设法JF(w) 将变成w的显函数。,尽可能大,尽可能小,Fisher准则函数,4.2 Fisher线性判别,Fisher准则函数,4.2 Fisher线性判别,Fisher准则函数,4.2 Fisher线性判别,Fisher准则的合理性:,JF(w)只与投影方向有关,与大小无关若w是一个最优解, kw也是最优解,k是任何不为零的常数。,4.2 Fisher线性判别,Fisher最佳投影方向的求解:,要求:Sw = S1 + S2正定。否则,存在投影方向w,使得wTSww=0,所有数据被投影到一点上。 JF(w)没有极大值。求出最佳投影方向上任何一个w即可。JF(w)有上界,最佳投
19、影方向一定存在!,(Sb)max,(Sw)min分别是Sb,Sw矩阵的最大、最小的特征根。,4.2 Fisher线性判别,Fisher最佳投影方向的求解:,一定存在一个最优的w ,满足wTSww=1,因为Sw 正定。,无约束最优化:,等价于带约束的最优化: max wTSbw wTSww=1,4.2 Fisher线性判别,因为分母等于1是非零常数,wTSww=10定义 Lagrange 函数为,JF(w)是广义Rayleigh商,带等式约束的最优化,可以用Lagrange乘子法求解。,Fisher最佳投影方向的求解:,4.2 Fisher线性判别,式中 为Lagrange乘子,将上式对w求偏导
20、数,得,Fisher最佳投影方向的求解:,4.2 Fisher线性判别,最优解满足:,其中 w*就是 JF(w) 的极值解。,因为Sw非奇异,上式两边左乘 ,可得,Fisher最佳投影方向的求解:,4.2 Fisher线性判别,解上式是求一般矩阵 的本征值问题。,根据类间离散度Sb 的定义,上式左边的 Sbw*可以写成,Fisher最佳投影方向的求解:,注意 是一个数,所以 总是在向量(m1m2)的方向上。,4.2 Fisher线性判别,只关心投影的方向:,w*就是使Fisher准则函数JF(w)取极大值时的解,也就是d维X空间到一维Y空间的最好投影方向。,Fisher最佳投影方向的求解:,4
21、.2 Fisher线性判别,几种分类阈值的确定,均值中点法,类样本数加权法,4.2 Fisher线性判别,根据决策规则,先验概率加权法,就可判断x属于什么类别。,几种分类阈值的确定,4.2 Fisher线性判别,例子,4.2 Fisher线性判别,4.3 感知准则函数,感知器算法的基本思想是,对初始的或迭代中的增广权向量,用训练样本检测其合理性,当不合理时,对其校正,校正方法是优化技术中的梯度下降法。首先介绍几个概念。,4.3.1 几个基本概念 线性可分性,假设已知一组容量为N的样本集y1,y2,yN,其中yn为d维增广样本向量,分别来自1和2类。,则称样本集为线性可分的(Linearly S
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 ppt 课件 第四 线性 判别函数
链接地址:https://www.31ppt.com/p-1424994.html