SVM原理与应用课件.pptx
《SVM原理与应用课件.pptx》由会员分享,可在线阅读,更多相关《SVM原理与应用课件.pptx(105页珍藏版)》请在三一办公上搜索。
1、原理与应用,大纲,背景线性分类非线性分类松弛变量多元分类应用工具包,2,大纲,背景线性分类非线性分类松弛变量多元分类应用工具包,3,背景,支持向量机,4,为什么要用(个人观点),分类效果好上手快种语言的个理论基础完备妇孺皆知的好模型找工作需要它(利益相关:面试狗一只)应用与原理,5,发展历史,重要理论基础年代,和提出维理论重要理论基础年,提出结构风险最小化理论支持向量机( )是和于年首先提出的它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中,6,作者之一简介, 作者书中详细的论证了统计机器学习之所以区别于传统机器学习的本质,就在于统计机器
2、学习能够精确的给出学习效果,能够解答需要的样本数等等一系列问题。,7,理论基础(比较八股),统计学习理论的维理论( 或)是研究有限样本情况下机器学习规律的理论( ) 反映了函数集的学习能力,维越大则学习机器越复杂,8,理论基础(比较八股),结构风险最小化机器学习本质上就是一种对问题真实模型的逼近。这个与问题真实解之间的误差,就叫做风险。结构化风险 经验风险 置信风险经验风险 分类器在给定样本上的误差置信风险 分类器在未知文本上分类的结果的误差,代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。(无法准确估值,给出估计的区间),9,理论基础(比较八股),结构化风险 经验风险 置信风险置
3、信风险因素:样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小;分类函数的维,显然维越大,推广能力越差,置信风险会变大。泛化误差界的公式*()()()公式中()就是真实风险,()就是经验风险,()就是置信风险。统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小,即结构风险最小。,10,理论基础(小结),统计学习理论的维理论关注的是维结构风险最小化()()(),11,特性,小样本与问题的复杂度比起来,算法要求的样本数是相对比较少的非线性擅长应付样本数据线性不可分的情况,主要通过松弛变量和核函数技术来实现高维模式识别例如文本的向量表示,几万维,反例:,12,大纲,
4、背景线性分类非线性分类松弛变量多元分类应用工具包,13,线性分类器,问题的引入和是两类样本中间的直线就是一个分类函数,它可以将两类样本完全分开。,14,线性函数?,在一维空间里就是一个点在二维空间里就是一条直线在三维空间里就是一个平面如果不关注空间的维数,这种线性函数还有一个统一的名称超平面( ),15,线性函数分类问题,例如我们有一个线性函数()我们可以取阈值为,这样当有一个样本需要判别的时候,我们就看()的值。若(),就判别为类别若(),则判别为类别、均可以是向量中间那条直线的表达式是(),即,我们也把这个函数叫做分类面,16,分类面的决定,分离超平面不是唯一上面的直线都可以对点正确分类分
5、离超平面存在一个最好的,17,分类面的“好坏”量化,一个很直观的感受是,让“离直线最近的点,距离直线尽可能地远”就是分割的间隙越大越好,把两个类别的点分得越开越好,18,“分类间隔”的引入,文本分类分类时样本格式(标示出这个样本属于哪个类别)(文本特征所组成的向量)假设,我们就可以定义一个样本点到某个超平面的间隔为(这是定义)(),19,分类间隔,()()总大于的,而且它的值等于如果某个样本属于该类别的话,而也大于反之,而也小于现在把和进行一下归一化,即用和分别代替原来的和,那么间隔就可以写成,20,分类间隔几何间隔,解析几何中点到直线()的距离公式推广一下,是到超平面()的距离, ()就是上
6、节中提到的分类超平面是什么符号?叫做向量的范数,向量长度其实指的是它的范数用归一化的和代替原值之后的间隔有一个专门的名称,叫做几何间隔,21,量化问题之“支持向量”,被红色和蓝色的线圈出来的点就是所谓的支持向量( ),22,量化问题之“最大化间隔”,原则 就是(),红色和蓝色的线( 与 )就是 所在的面,红色、蓝色线之间的间隔就是我们要最大化的分类间的间隔。,23,量化问题之“最大化间隔”,原则几何间隔,24,几何间隔的现实含义,是分类面,而和是平行于,且过离最近的两类样本的直线,与,与之间的距离就是几何间隔,25,几何间隔的存在意义,几何间隔与样本的误分次数间存在关系其中的是样本集合到分类面
7、的间隔, ,即是所有样本中向量长度最长的值(也就是说代表样本的分布有多么广)误分次数一定程度上代表分类器的误差。(证明略)误分次数的上界由几何间隔决定(样本已知的时候),26,为了使分类面更合适为了减少误分次数最大化几何间隔,27,是否让,目标函数就最小了呢? 。式子有还有一些限制条件,完整的写下来,应该是这样的求最小值的问题就是一个优化问题,一个带约束的二次规划( , )问题,是一个凸问题凸二次规划区别于一般意义上的规划问题,它有解而且是全局最优的解,而且可以找到,28,如何解二次规划问题,等式约束,是求极值、拉格朗日转化等方法转化为无约束问题不等式约束的问题怎么办?方法一:用现成的 ( )
8、 优化包进行求解(效率低)方法二:求解与原问题等价的对偶问题( )得到原始问题的最优解(更易求解、可以推广到核函数)拉格朗日乘子法拉格朗日对偶性理论支撑,29,求解步骤,转化为对偶问题对偶转化 条件求解极小化拉格朗日乘子极值求解极大化用算法求解乘子,30,、对偶问题的转化给每一个约束条件加上一个拉格朗日乘子( ),定义拉格朗日函数根据对偶算法与条件约束,这个问题可以从转化为其中 *和*等价条件就是条件*,31,、的极小化那么问题转化为先固定,求的最小值将以上结果代入之前的,得到只含的优化结果,32,、的极大化优化问题接上一步处理结果如果求出了*,那么和就可以随之求解最终得出分离超平面和分类决策
9、函数。那么有什么好方法求呢?,33,、利用算法求解对偶问题中的拉格朗日乘子优化问题接上一步处理结果上述式子要解决的是在参数上求最大值的问题,至于都是已知数算法(略),34,表达式的感性分析(番外篇),线性函数表达式为 ()样本确定了,用数学的语言描述,就是可以表示为样本的某种组合同时不仅跟样本点的位置有关,还跟样本的类别有关(也就是和样本的“标签”有关)。因此用下面这个式子表示才算完整:,35,分类函数的预测,将的表达式带入分类函数后对于新点 的预测,只需要计算它与训练数据点的内积即可(表示向量内积)所有非 所对应的系数都是等于零的,因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是
10、所有的训练数据即可。,36,大纲,背景线性分类非线性分类松弛变量多元分类应用工具包,37,非线性分类问题的引入,我们把横轴上端点和之间红色部分里的所有点定为正类,两边的黑色部分里的点定为负类。试问能找到一个线性函数把两类正确分开么?不能,因为二维空间里的线性函数就是指直线,显然找不到符合条件的直线。,38,非线性分类问题的引入,显然通过点在这条曲线的上方还是下方就可以判断点所属的类别,39,非线性分类问题的引入,这条曲线就是我们熟知的二次曲线,它的函数表达式可以写为:它不是一个线性函数,但是,我们可以新建一个向量和:这样()就可以转化为(),40,非线性分类问题的引入,原先问题是: 转化后的问
11、题: 在任意维度的空间中,这种形式的函数都是一个线性函数原来在二维空间中一个线性不可分的问题,映射到四维空间后,变成了线性可分的。解决线性不可分问题的基本思路向高维空间转化(这种特征变换称作特征映射( ),使其变得线性可分。,41,核函数例子引入,我们文本分类问题的原始空间是维的,在这个维度上问题是线性不可分的。现在我们有一个维空间里的线性函数式中的 和 都是维的向量,只不过 是定值,而 是变量现在我们的输入,是一个维的向量,分类的过程是先把变换为维的向量 ,然后求这个变换后的向量 与向量的内积,再把这个内积的值和相加,就得到了结果,看结果大于阈值还是小于阈值就得到了分类结果。,42,核函数例
12、子引入,我们其实只关心那个高维空间里内积的值,那个值算出来了,分类结果就算出来了。是否能有这样一种函数(),他接受低维空间的输入值,却能算出高维空间的内积值 ?如果有这样的函数,那么当给了一个低维空间的输入以后:这两个函数的计算结果就完全一样,我们也就用不着费力找那个映射关系,直接拿低维的输入往()里面代就可以了,43,假设映射函数是我们要将 映射为那么定义核函数()为如果要实现该节开头的效果,只需先计算 ,然后计算 即可,然而这种计算方式是非常低效的。比如最初的特征是维的,我们将其映射到维,然后再计算,这样需要()的时间。那么我们能不能想办法减少计算时间呢?,核函数形式化定义,44,核函数,
13、这样的()确实存在。它被称作核函数(),而且还不止一个事实上,只要是满足了条件*的函数,都可以作为核函数。核函数的基本作用就是接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里的向量内积值。,45,核函数例子,假设和都是维的展开后,得我们可以只计算原始特征和内积的平方,时间复杂度是() ,就等价与计算映射后特征的内积。也就是说我们不需要花时间()了,46,核函数例子,核函数对应的映射函数(时)是,47,核函数举例高斯核,如果和很相近( ),那么核函数值为,如果和相差很大( ),那么核函数值约等于。由于这个函数类似于高斯分布,因此称为高斯核函数,也叫做径向基函数( 简称)。它能够把原
14、始特征映射到无穷维。,48,核函数举例高斯核,49,核函数举例核,既然高斯核函数能够比较和的相似度,并映射到到,回想回归,函数可以,因此还有核函数等等。,50,核函数举例多项式核,刚才我们举的例子是这里多项式核的一个特例( , )。虽然比较麻烦,而且没有必要,不过这个核所对应的映射实际上是可以写出来的。,51,核函数举例线性核,这实际上就是原始空间中的内积。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来,52,核函数小结,我们会经常遇到线性不可分的样例,此时,我们的常用做法是把样例特征映射到高维空间中去如果凡是遇到线性不可分的样例,一律映射到高维空
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SVM 原理 应用 课件
链接地址:https://www.31ppt.com/p-1798382.html