文本分类II-支持向量机SV.ppt
《文本分类II-支持向量机SV.ppt》由会员分享,可在线阅读,更多相关《文本分类II-支持向量机SV.ppt(38页珍藏版)》请在三一办公上搜索。
1、支持向量机(support vector machine,SVM),Outline,SVM的理论基础线性判别函数和判别面最优分类面支持向量机SVM的研究与应用,SVM的理论基础,传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(STL)研究有限样本情况下的机器学习问题。SVM的理论基础就是统计学习理论。传统的统计模式识别方法在进行机器学习时,强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”,其推广能力较差。推广能力是指:将学习机器(即预测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。,过学习问题,“过学习问题”:某些情况下,当训练误差
2、过小反而会导致推广能力的下降。例如:对一组训练样本(x,y),x分布在实数范围内,y取值在0,1之间。无论这些样本是由什么模型产生的,我们总可以用y=sin(w*x)去拟合,使得训练误差为0。,SVM,根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。Vapnik 提出的支持向量机(Support Vector Machine,SVM)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显
3、优于一些传统的学习方法。形成时期在19921995年。,SVM,由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解。SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。Joachims最近采用SVM在Reuters-21578来进行文本分类,并声称它比当前发表的其他方法都好。,Outline,SVM的理论基础线性判别函数和判别面最优分类面支持向量机SVM的研究与应用,线性判别函数和判别面,一个线性判别函数(discriminant function)是指由x的各个分量的线性组合而成的函数 两类情况:对
4、于两类问题的决策规则为如果g(x)0,则判定x属于C1,如果g(x)0,则判定x属于C2,如果g(x)=0,则可以将x任意 分到某一类或者拒绝判定。,线性判别函数,下图表示一个简单的线性分类器,具有d个输入的单元,每个对应一个输入向量在各维上的分量值。该图类似于一个神经元。,超平面,方程g(x)=0定义了一个判定面,它把归类于C1的点与归类于C2的点分开来。当g(x)是线性函数时,这个平面被称为“超平面”(hyperplane)。当x1和x2都在判定面上时,这表明w和超平面上任意向量正交,并称w为超平面的法向量。注意到:x1-x2表示超平面上的一个向量,判别函数g(x)是特征空间中某点x到超平
5、面的距离的一种代数度量,从下图容易看出,g(x)=r*|w|,上式也可以表示为:r=g(x)/|w|。当x=0时,表示原点到超平面的距离,r0=g(0)/|w|=w0/|w|,标示在上图中。,总之:线性判别函数利用一个超平面把特征空间分隔成两个区域。超平面的方向由法向量w确定,它的位置由阈值w0确定。判别函数g(x)正比于x点到超平面的代数距离(带正负号)。当x点在超平面的正侧时,g(x)0;当x点在超平面的负侧时,g(x)0,多类的情况,利用线性判别函数设计多类分类器有多种方法。例如可以把k类问题转化为k个两类问题,其中第i个问题是用线性判别函数把属于Ci类与不属于Ci类的点分开。更复杂一点
6、的方法是用k(k-1)/2个线性判别函数,把样本分为k个类别,每个线性判别函数只对其中的两个类别分类。,广义线性判别函数,在一维空间中,没有任何一个线性函数能解决下述划分问题(黑红各代表一类数据),可见线性判别函数有一定的局限性。,广义线性判别函数,如果建立一个二次判别函数g(x)=(x-a)(x-b),则可以很好的解决上述分类问题。决策规则仍是:如果g(x)0,则判定x属于C1,如果g(x)0,则判定x属于C2,如果g(x)=0,则可以将x任意分到某一类或者拒绝判定。,广义线性判别函数,广义线性判别函数,设计线性分类器,Fisher线性判别方法,如:Fisher线性判别方法,主要解决把d维空
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 分类 II 支持 向量 SV
链接地址:https://www.31ppt.com/p-6297814.html