[信息与通信]统计学习理论和SVM.ppt
《[信息与通信]统计学习理论和SVM.ppt》由会员分享,可在线阅读,更多相关《[信息与通信]统计学习理论和SVM.ppt(55页珍藏版)》请在三一办公上搜索。
1、专题二支持向量机,主要内容,一、统计学习理论的核心内容 二、支持向量机 SVM简介线性判别函数和判别面最优分类面支持向量机SVM的研究与应用常用工具分类实例,一、统计学习理论的核心内容,统计学习理论是小样本统计估计和预测学习的最佳理论。假设输出变量Y与输入变量X之间存在某种对应的依赖关系,即一未知概率分布P(X,Y),P(X,Y)反映了某种知识。学习问题可以概括为:根据l个独立同分布(independent and identically distributed)的观测样本(训练集),,学习到一个假设H=f(x,w)作为预测函数,其中w是广义参数.它对P(X,Y)的期望风险R(w)是(即统计学
2、习的实际风险):,而对训练集上产生的风险Remp(w)被称为经验风险(学习的训练误差):,首先Remp(w)和R(w)都是w的函数,传统概率论中的定理只说明了(在一定条件下)当样本趋于无穷多时Remp(w)将在概率意义上趋近于R(w),却没有保证使Remp(w)最小的点也能够使R(w)最小(同步最小)。,根据统计学习理论中关于函数集的推广性的界的结论,对于两类分类问题中的指示函数集f(x,w)的所有函数(当然也包括使经验风险小的函数),经验风险Remp(w)和实际风险R(w)之间至少以不下于1-(01)的概率存在这样的关系:,h是函数H=f(x,w)的VC维,h越大学习机越复杂;l是样本数;称
3、为VC置信度,结构风险最小化,VC维是统计学习理论的一个核心概念,它反映了函数集的学习能力设有一个样本数为m的样本集,它最多有2m种可能的方法分为两类,如果某个函数集的函数能够实现这种划分,则称该函数集能够能够把样本数为m的样本集打散。函数集的VC维就是这个函数集的函数所能打散的最大样本数利用VC维的概念,可得到一个重要结论:经验风险最小化学习过程一致的充要条件是函数集的VC维有限,这时收敛速度是快的,一般的学习方法(如神经网络)是基于 Remp(w)最小,满足对已有训练数据的最佳拟和,在理论上可以通过增加算法(如神经网络)的规模使得Remp(w)不断降低以至为0。但是,这样使得算法(神经网络
4、)的复杂度增加,VC维h增加,从而(h/l)增大,导致实际风险R(w)增加,这就是学习算法的过度拟和(Overfitting).,根据“结构风险最小化”原则,尤其是训练样本数量不足(小样本量)的情况下,决定一个学习机泛化能力的重要因素,是刻画备选函数集整体性质的VC维,而不是样本数据的好坏,不是备选函数集性质如何,甚至也与学习方法没有直接关系。在训练学习过程中不断检查学习和泛化能力,不单纯追求经验风险最小化,VC维和训练集规模平衡;VC维和拓扑结构有必然联系,二、支持向量机Support Vector Machines,Outline,1、SVM简介2、线性判别函数和判别面3、最优分类面4、支
5、持向量机5、SVM的研究与应用6、常用工具7、分类实例,1、SVM简介,90年代中期在统计学习理论的基础上发展起来的一种机器学习方法(Boser,Guyon,Vapnik),适合有限样本(小样本)问题在很大程度上解决了传统方法(如神经网络)中存在的问题,如过学习、非线性、多维问题、局部极小点问题等统计学习理论和支持向量机被视为机器学习问题的一个基本框架,传统的方法都可以看作是SVM方法的一种实现有坚实的理论基础和严格的理论分析,SVM简介,传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(STL)研究有限样本情况下的机器学习问题。SVM的理论基础就是统计学习理论
6、。传统的统计模式识别方法在进行机器学习时,强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”,其推广能力较差。推广能力是指:将学习机器(即预测函数,或称学习函数、学习模型)对未来输出进行正确预测的能力。,过学习问题,“过学习问题”:某些情况下,当训练误差过小反而会导致推广能力的下降。例如:对一组训练样本(x,y),x分布在实数范围内,y取值在0,1之间。无论这些样本是由什么模型产生的,我们总可以用y=sin(w*x)去拟合,使得训练误差为0.,SVM,根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险
7、最小误差,没有最小化置信范围值,因此其推广能力较差。Vapnik 提出的支持向量机(Support Vector Machine,SVM)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。形成时期在19921995年。,SVM,由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中Joachims 最近采用SVM在Reuters-21578来进行文本分类,
8、并声称它比当前发表的其他方法都好,Outline,1、SVM简介2、线性判别函数和判别面3、最优分类面4、支持向量机5、SVM的研究与应用6、常用工具7、分类实例,2、线性判别函数和判别面,一个线性判别函数(discriminant function)是指由x的各个分量的线性组合而成的函数 两类情况:对于两类问题的决策规则为如果g(x)0,则判定x属于C1,如果g(x)0,则判定x属于C2,如果g(x)=0,则可以将x任意 分到某一类或者拒绝判定。,最优分类平面,Margin=,H1平面:,H2平面:,.(2),.(1),求解最优超平面就相当于,在(2)的约束条件下,求(1)的最大值,Mini
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息与通信 信息 通信 统计 学习理论 SVM
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5615688.html