模式识别-第十三章统计学习理论与支持向量机.ppt
《模式识别-第十三章统计学习理论与支持向量机.ppt》由会员分享,可在线阅读,更多相关《模式识别-第十三章统计学习理论与支持向量机.ppt(77页珍藏版)》请在三一办公上搜索。
1、第10章统计学习理论与支持向量机,统计学习理论为基于小样本的统计理论支持向量机为基于统计学习理论的应用工具,统计学习理论的提出:传统模式识别理论的基础为样本数目足够大,实际上,样本的数目是有限的。统计学习理论为基于小样本的统计理论。应用目标:有限样本条件下,统计模式识别与机器学习问题的理论框架。为当前国际上机器学习领域的研究热点。,10.1 引言,基于数据的机器学习问题现代智能技术的一个重要方面。研究对象:现实世界中,大量的,目前无法准确认识,但可以观测的事物,由观测数据表征。研究目的:利用观测数据,得到目前不能通过原理分析来得到的规律,规律:为各学科方向的规律。用于分类学即模式识别用于模型学
2、即参数模型的辩识用于系统控制即学习控制问题。传统统计学渐进理论,即样本数目趋于无穷大。表现为:统计学中关于估计的一致性,无偏性与估计方差的有界性,统计学习理论研究的历史,60年代,着手研究有限样本条件下的机器学习问题,研究成果为:经验风险最小化与有序风险最小化问题。90年代,由于需要,人工神经网络用于机器学习中的问题引出:网络结构的确定问题(高维空间),过学习与欠学习问题,局部极值问题等等,统计学习理论是研究机器学习问题中更为本质的问题。,92年提出 支持向量机,Support Vector Machine,(SVM),统计学习理论的一个应用模型,其优势表现在:小样本,非线性,高维数空间的模式
3、识别中。可以推广到其他有关机器学习问题的应用中如:函数拟合,参数辩识,学习控制等。,10.2 机器学习的基本问题与方法,基本问题有:1 机器学习问题的表示方法2 经验风险最小化与期望风险最小化3 机器学习中的复杂性与推广性,10.2.1 机器学习问题的表示,模型:,数学描述:已知输入x与输出y之间存在未知的依赖关系未知的联合概率F(x,y),(确定性关系为特例),根据n个独立同分布观测样本在一组函数f(x,)中,寻找一个最优函数f(x,0),使得预测的期望风险 最小。,其中:f(x,)预测函数集合,任意函数,又称学习函数,学习模型,学习机器。损失函数,使用某预测函数f(x,)对y做预测的损失。
4、3类基本的机器学习问题:模式识别,函数拟合,概率密度估计。,模式识别中的机器学习问题(有监督,有导师模式识别问题,)系统输出y为类别标号。两类情况时y=0,1或者y=-1,+1,为二值函数。预测函数又称,指示函数,判别函数损失函数定义为例如该定义下的期望风险就是平均错误率,期望风险最小的决策即贝叶斯决策,函数拟合中的机器学习问题y为变量x的连续函数。损失函数定义为(平方误差)通过将输出y做阈值的二值转换,函数拟合问题化为模式识别问题。,概率密度估计中的机器学习问题学习目的为:根据训练样本来确定x的概率分布。损失函数定义为 其中,为估计的密度函数。,10.2.2 经验风险最小化 与期望风险最小化
5、,期望风险最小化的条件期望风险 其最小化必须依赖于联合概率F(x,y)中的信息。在模式识别问题中就是:必须已知类先验概率P()和类条件概率密度p(x|)。,但是在机器识别中,仅有样本信息:n个独立同分布观测样本:是不能计算期望风险 的。,经验风险:根据大数定律,由算术平均来替代数学期望有即由该式来逼近期望风险。在该式中,Remp()是由训练样本(经验数据)来定义的,因此,定义该式为经验风险。,经验风险最小化原则:参数w的Remp(w)最小化代替R(w)的最小化称经验风险最小化原则。依据该原则,提出了各种基于数据的分类器设计方法。但是存在问题:理论依据不足。,问题1:首先都是w的函数,概率论中的
6、大数定律仅指明:n时,在概率意义上,Remp(w)R(w)*不能保证 Remp(w*)与R(w*)中的w是同一个点(w*与w*)。*更不能保证 能够使Remp(w*)R(w*),问题2:即使可以保证,n时,Remp(w)R(w),也无法认定,在样本数目有限时,经验风险最小化方法得到的结果更好。统计学习理论的研究解决的几个基本问题:1 用经验风险最小化解决期望风险最小化问题的前提是什么?2 前提不成立时,经验风险最小化的性能如何3 是否存在更合理的原则?,10.2.3 机器学习的复杂性与推广性,机器学习的复杂性可以定义为:对于复杂问题的跟踪能力,搜索能力,探寻能力。机器学习的推广性学习机器对于未
7、来目标的预测能力,或者可使用性。两者是矛盾的。,学习与过学习:实验数据1:已知小样本n=5,使用学习机器作曲线拟合,设拟合函数为y=exp(ax)sin(bx),经学习训练后,由训练误差为零,总可以找到参数a,b满足拟合函数。当使用更复杂的函数去拟合一个有限样本时,其学习结果便产生了过学习。产生过学习的原因:1 学习样本不够充分(已知小样本n=5)2 学习机器设计不合理(拟合函数为y=exp(ax)sin(bx)),机器学习的复杂性与推广性的矛盾学习能力过强,用复杂函数去记忆有限样本,可以使经验风险最小(训练误差为零),但是无法保证对未来样本的预测能力,即丧失了推广性。,实验数据2实验数据为二
8、次曲线加随机噪声生成,n=6。学习机器依经验风险最小原则,对数据分别作一次曲线拟合与二次曲线拟合,拟合结果为:,无论实验多少次,一次曲线总比二次曲线拟合的误差小得多,即一次曲线的期望风险小于二次曲线。其原因是:数据有限。小样本时,对于机器学习的基本结论:1 经验风险最小不一定是期望风险最小。2 学习机器的复杂性一定要与学习样本的有限性相适应,10.3 统计学习理论的核心内容,是小样本统计估计与预测学习的最佳理论,从理论上系统地研究了经验风险最小化原则的条件、有限样本条件下经验风险与期望风险的关系以及如何应用该理论找到新的学习原则与方法等问题。,核心内容如下1、经验风险最小化原则下,统计学习的
9、一致性条件(Consistency)2、在这些条件下关于统计学习方法 推广性的界的结论。3、在这些界的基础上建立小样本归纳推理原则。4、实现这些新的原则的实际算法。,10.3.1 学习过程一致性的条件,学习过程一致性训练样本数n时,有 Remp(w)R(w),经验风险的最优值可以收敛到真实风险最优值。称该学习过程是一致的,又称该学习过程满足一致性。,一个学习过程,只有满足学习过程一致性的条件,才可以保证在经验风险最小化原则下得到的最优方法,在训练样本数n时,得到期望风险最小的最优结果。,定义:给定n个独立同分布观测样本预测函数f(x,w*)为该样本集合下在函数集合中使经验风险取最小的预测函数损
10、失函数L(y,f(x,w*|n)最小经验风险值Remp(w*|n),期望风险R(w*|n),在L(y,f(x,w*|n)下的,由式 得到的真实风险值。如果满足 其中 为实际真实风险的下确界。则称为经验风险最小化学习过程是一致的。,几何意义,定理:学习理论关键定理,如果损失函数有界,则经验风险最小化学习一致的充分必要条件是即经验风险一致收敛于真实风险其中:P表示概率Remp(w)经验风险R(w)同一w的真实风险,定理说明:1 在统计学习理论中是即为重要的。2 将学习一致性问题转化为公式的一致收敛问题。3 定理既依赖于预测函数集合,又依赖于样本的概率分布。4 双边一致收敛表达式为,5 经验风险与期
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 第十三 统计 学习理论 支持 向量

链接地址:https://www.31ppt.com/p-6439062.html