线性判别函数ppt课件.ppt
《线性判别函数ppt课件.ppt》由会员分享,可在线阅读,更多相关《线性判别函数ppt课件.ppt(50页珍藏版)》请在三一办公上搜索。
1、第2章 线性判别函数,2.1 线性判别函数和决策面2.2 感知准则函数2.3 最小平方误差准则函数2.4 多类判别问题2.5 分段线性判别函数2.6 Fisher线性判别函数2.7 支持向量机,课前思考题:(1) 机器能否像人类一样通过例证教育认知事物,修正 观念中的错误的成分?(2) 机器学习过程中有教师吗?谁是教师?(3) 什么叫线性分类器? 什么条件下才能用线性分类器?,2.1 线性判别函数和决策面,线性判别函数是统计模式识别方法中的一个重要的基本方法。它是由训练样本集提供的信息直接确定决策域的划分。,在训练过程中使用的样本集,该样本集中的每个样本的类别已知。,由于决策域的分界面是用数学
2、式子来描述的,如线性函数,或各种非线性函数等。因此确定分界面方程,这包括选择函数类型与确定最佳参数两个部分。一般说来选择函数类型是由设计者确定的,但其参数的确定则是通过一个学习过程来实现的,是一个迭代实现优化的过程。本章讲最简单的函数类型线性函数。,假设抽取到的模式样本的边界是“整齐”而不是混杂的,而且以后遇到的待分类模式基本上不超过学习样本的分类范围,从而利用这些样本得出的分类边界是无误差的。因此这些模式类之间的分界面,可以利用线性判别函数来进行。 对于n维空间中的c 个模式类别各给出一个由n个特征组成的单值函数,这叫做判别函数。在c类的情况下,我们共有c个判别函数,记为g1(x),g2(x
3、), gc(x) ,它们分别对应于模式类1 ,2 ,c 。,作为判别函数,它应具有如下的性质:假如一个模式X属于第i类,则有: 而如果这个模式在第i类和第j类得分界面上,则有: 如果判别函数取线性判别函数,它是所有模式特征的线性组合。对于第i类模式,有如下形式: 式中 是特征的系数,称为权, 为阈值权。 如果对第i类模式定义n维权向量为: 则判别函数可写成更简洁的形式:,讨论二类情况下的线性判别函数。两个线性判别函数如果X属于 ,可得:令则二类模式的线性分类器的决策法则是: 如果 ,则决策 ,即把 归到 类去; 如果 ,则决策 ,即把 归到 类去。,线性分类器是指两类决策域的界面方程是单个线性
4、方程。,是决策面方程,它是两类模式的分界,对于二维空间情况,它是一条直线;对于三维情况,它是一个平面;而对于高维空间的情况,则是一个超平面。,构造一个二类模式的线性分类器,如下图所示:,在二类模式的情况下,决策面H把模式空间分成两个半空间,即对 的决策域 和对 的决策域 。因为当特征向量 在 中时 ,所以决策面的法向量的方向指向 。我们称 位于决策面H的正面, 位于决策面H的反面。,为了说明向量W的意义,我们假设在决策平面上有两个特征向量X1与X2,则应有 (*)其中(X1-X2)也是一个向量,(*)式表明向量W与该平面上任两点组成的向量(X1-X2)正交,因此W的方向就是决策面的法线方向。,
5、决策面H,右图中,H是决策面,它的方程为 , 是权向量,也就是决策面的法线方向。 是待识别的模式的特征向量。,g(X) 就是n维空间中任一点X到该决策面距离的代数度量,该决策平面将这两类样本按其到该面距离的正负号确定其类别。若把X表示成:,式中Xp: 是 在H上的投影向量,r : 是 到H的垂直距离, :是w方向上的单位向量。,x,x,结论:利用线性判别函数进行决策,就是用一个超平面把特征空间分割成两个决策区域,超平面方向由权向量W决定,它的位置由阈值权w0确定。,=0,如果 ,则原点在H的正面;如果 ,则原点在H的反面。对于图所示情况, 。若 ,则判别函数有齐次形式: 说明超平面H通过原点。
6、,坐标原点到该决策面的距离为 。,设计线性分类器,是指所用的判别函数、分界面方程的类型已选定为线性类型,因此主要的设计任务是确定线性方程的两个参数,一个是权向量W,另一个是阈值 。为了使所设计的线性分类器在性能上要满足一定的要求,这种要求通过一种准则来体现,并且要表示成一种准则函数,以便能通过将准则函数值优化的方法确定W与 。,2.2感知准则函数,感知准则函数是五十年代由Rosenblatt提出的一种自学习判别函数生成方法,由于Rosenblatt企图将其用于脑模型感知器,因此被称为感知准则函数。其特点是随意确定的判别函数初始值,在对样本分类训练过程中逐步修正直至最终确定。,线性判别函数 可改
7、写为:,于是线性判别函数 就变成了(n+1)维空间的齐次线性函数。,定义增广模式向量:,定义广义权向量:,对于二类模式问题,在这个(n+1)维空间的决策面H的方程就是:,因为阈值为0,所以超平面H通过原点。这样,找寻决策面的问题就简化为求权向量 的问题。,在线性可分条件下,广义权向量A合适的话应有:,为了方便起见,如果我们令,则合适的A能使所有的Y满足A TY0。(后面用Y表示Y )经过这样的规格化处理后,问题就转化为:求使每一个样本Y满足A TY0的权向量A的问题了。权向量A称为解权向量。,线性可分是说该训练样本集中的两类样本可以用一个线性分界面正确无误的分开。,这里 是由于使用权向量A而被
8、误分类的样本集合。当一个样本 被误分类时,就有 ,所以 ,可见,是解权向量 的函数。仅当 时, 达到极小值,即 。或者说,当对于某个向量 ,准则函数 达到极小值的话, 就是解权向量,这时没有样本被错分类。在几何上,感知准则函数正比于被错分样本到决策面的距离之和。,为了求解线性不等式组A TY0,构造一个准则函数:,感知准则函数:,因为( ),有了准则函数 ,需要用最优化方法寻找 达到极小值的解权向量A。可以采用梯度下降算法来求解。,是一个正的比例因子,称为步长或增量。,梯度下降法的算法步骤:(1)先任意选择一个初始的权向量(2)把第K次的权向量加上被误分类的样本的和与某个常数 的乘积,就得到第
9、(K+1)次的权向量。(3)理论上可以证明,只要二类样本是线性可分的,无论初值如何选取,经过有限次迭代,这个算法总可以收敛,即使得每一个样本满足A TY0 。,该算法的缺点是:每次迭代必须遍历全部样本,才能得到当前权向量 下的误分样本集 ,从而进一步纠正 的值。,固定增量算法及其收敛性,固定增量算法是解线性不等式组的一种最简单的方法。它可以由梯度下降法作如下两点改变得到: (1)把全部样本看作是一个序列,每当前一步迭代的权向量把某个样本错误分类时,就对这个权向量做一次修正,而不是等当前权向量 对全部样本计算后再找出错分类样本集 去进行修改。 (2)考虑每次迭代时 保持不变,这就是固定增量的情况
10、,也就是说乘上一个固定的比例因子。,二类情况下用固定增量法求解权向量的方法: 设已知二类模式的样本集 和 ,这些样本都已变成增广模式的形式,要求用固定增量算法决定一个超平面 ,使它能正确划分样本集 。 开始时,可以任意假定 为域决策界面的那一边,也可以任意选择广义权向量 的初始值 。 然后把训练集 中的增广模式向量 依次取出,计算 的内积 ,权向量 用如下规则调整: 如果 ,而 ,则用 代替 ; 如果 ,而 ,则用 代替 ; 如果 ,而 ,则 保持不变; 如果 ,而 ,则 保持不变。,属于 的全部模式向量都用上述方法处理一遍,成为一次迭代。这个算法继续重新执行,直到某次迭代后中的成员都通过这个
11、程序而权向量 不再变化为止,这时称为程序收敛。如果在某一次迭代中权向量 已经保持不变,则权向量 即解权向量 。所以在程序收敛后即无必要进一步执行迭代了。如果 不是线性可分的,则程序不会收敛,而迭代将无限进行下去,所以在编制程序时应考虑或在一定时间限度内停止,或当权向量在一个不收敛区域内循环而停止。 这个算法可以推广到下述更一般的情况: 模式不一定是二值的; 执行迭代时,增广模式向量集 中成员的次序可任意选定; 不要求 中有相等数量的模式; 初始权向量可以任意选择。,2.3 最小平方误差准则函数,最小平方误差准则函数是一个基于全体样本的准则函数,要求满足等式 , ,其中 是一些任意指定的正常数。
12、 令 为一个 矩阵,它的各行 是向量 ,令 为一个列向量,则问题变为:对于给定的 和要求找到一个权向量 ,使得 多数情况下,只可能找到一个这样的解权向量 ,它使 与 之间的误差极小化。如果定义误差向量e为 则求 为最优的方法是使误差向量e的长度的平方极小。这就是使误差平方和准则函数 极小化。这就是矛盾方程组的最小二乘解(MSE解)。,对准则函数求导并令其为零,得准则函数极小化的必要条件:于是将解 的问题转化为解 。这里 是一个 维方阵,且常为非奇异。如果它是非奇异的,可以得到 的唯一解:此处 矩阵 称为 的伪逆 。如果 为奇异阵,得到的解不唯一。 MSE解依赖于向量b,b的不同选择可以给予解以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 判别函数 ppt 课件
链接地址:https://www.31ppt.com/p-1358561.html