【大学课件】机器学习研究进展.ppt
《【大学课件】机器学习研究进展.ppt》由会员分享,可在线阅读,更多相关《【大学课件】机器学习研究进展.ppt(45页珍藏版)》请在三一办公上搜索。
1、1,机器学习研究进展,http:/,连接机器学习符号机器学习遗传机器学习分析机器学习,机器学习研究的变迁,Carbonell(1989)展望,Dietterich(1997)展望,?,统计机器学习集成机器学习符号机器学习增强机器学习,流形机器学习半监督机器学习多实例机器学习Ranking机器学习数据流机器学习,应用驱动的机器学习研究,目前,以“主义”争霸的时代已经过去,不同方法解决不同问题。,http:/,2,3,对统计机器学习的说明,Dietterich将感知机类的连接机器学习分离出来,并根据划分机理,将其分为两种类型:统计机器学习与集成机器学习。这意味着,感知机类机器学习是重点强调:表示:
2、非线性问题的线性表示泛化:以泛化能力为基础的算法设计,http:/,4,对增强机器学习的说明,“适应性”是控制理论中最重要的概念之一,以往在计算机科学中考虑较少1975年,Holland首先将这个概念引入计算机科学。1990年左右,MIT的Sutton等青年计算机科学家,结合动态规划等问题,统称其为增强机器学习这样,遗传学习成为实现增强机器学习的一种方法,http:/,5,对符号机器学习的说明,尽管经过十年,符号机器学习被保留,然而,其目标和内涵已发生很大的变化改变泛化目标为符号描述(数据挖掘)。这意味着,符号机器学习已不是与统计机器学习竞争的研究,而是一个研究目标与其不同的研究范式,http
3、:/,6,分析机器学习被放弃,分析机器学习所包含的类比、解释等问题对背景知识有更高的要求,这从表示到学习均需要考虑新的理论基础,在这些理论未出现之前,其淡出机器学习研究的视野是自然的,http:/,7,近几年的发展动向,由于真实世界的问题十分困难,现有的理论、方法,甚至理念已不能满足需要,由此,大量近代数学的研究结果被引入计算机科学,由此,形成新的机器学习范式,http:/,8,特点,从Carbonell到Dietterich的特点是:在算法设计理论上,基础代替随意的算法设计,具体地说,更为强调机器学习的数学基础应用驱动代替理论驱动(认知科学与算法的Open问题)。具体地说,从AI中以“学习”
4、机制驱动(智能)”的研究方式,改变为根据面临的实际问题发展新的理论与方法,http:/,9,统计机器学习的要点,目前,统计机器学习的研究主要集中在两个要点上:,表示问题,泛化问题,非线性问题在线形空间的表示,对给定样本集合,通过算法建立模型,对问题世界为真的程度,http:/,10,线性表示,计算:非线性算法一般是NP完全的。认识世界:只有在某个空间中可以描述为线性的世界,人们才说,这个世界已被认识(将问题变换为另一个问题)数学方法:寻找一个映射,将非线性问题映射到线性空间,以便其可以线性表述,http:/,11,例子-XOR问题,xy0001,例子:XOR问题:,映射:(x,y)(x,xy,
5、y),线形表示:,http:/,12,在机器学习中的方法,寻找具有一般意义的线性空间(方法)目前,机器学习主要采用两种方法:整体线性,Hilbert空间(核映射)类似分段线性,Madaline或弱分类方法,http:/,13,Hilbert空间,Hilbert空间是Von Neumman为量子力学数学基础提出的一类具有一般意义的线性内积空间在机器学习中借助Hilbert空间构成特征空间,http:/,14,线性不可分机器学习问题,将线性不可分问题变为线性可分问题的关键是寻找一个映射,将样本集映射到特征空间,使其在特征空间线性可分这样,我们只需以感知机为基础,研究统计机器学习问题。,http:/
6、,15,困难特征空间基的选择,选择特征空间的基特征空间的基可以采用多项式基或三角函数基寻找一般的方法描述特征空间存在根本性困难(维数灾)与神经网络相比,核函数的选择可以借助领域知识,这是一个优点,http:/,16,理论描述,是否可以不显现地描述特征空间,将特征空间上描述变为样本空间上的描述?如果不考虑维数问题,在泛函分析理论上,这是可行的这就是核函数方法,http:/,泛化能力描述,Duda(1973),Vapnik(1971),http:/,17,18,“泛化误差界”研究的演变,PAC界(Valiant1984)VC维界(Blumer1989)最大边缘(Shawe-Taylor1998),
7、http:/,19,最大边缘(Shawe-Taylor1998),M0,边缘不能等于零。这意味着,样本集合必须是可划分的。边缘最大,误差界最小,泛化能力最强。泛化能力可以使用样本集合的边缘刻画。,这个不等式依赖于边缘M。贡献:给出了有几何直观的界描述,从而为算法设计奠定基础。,http:/,20,研究趋势,算法的理论研究基本已经完成,根据特定需求的研究可能是必要的目前主要集中在下述两个问题上:泛化不等式需要样本集满足独立同分布,这个条件太严厉,可以放宽这个条件?如何根据领域需求选择核函数,有基本原则吗?,http:/,21,集成机器学习的来源,神经科学:Hebb神经细胞工作方式数学方法:非线性
8、问题的分段化(类似)计算技术:Widrow的Madaline模型统计理论:PAC的弱可学习理论,http:/,22,Ensemble(集成),1954年,Hebb使用这个单词来说明视觉神经细胞的信息加工方式假设信息加工是由神经集合体来完成,http:/,23,Madaline模型,Widrow的Madaline模型在数学上,其本质是放弃感知机对样本空间划分的超平面需要满足连续且光滑的条件,代之分段的超平面,http:/,24,Schapire的理论,定理:如果一个概念是弱可学习的,充要条件是它是强可学习的,这个定理证明是构造性的,派生了弱分类器的概念,即,比随机猜想稍好的分类器,这个定理说明:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学课件 大学 课件 机器 学习 研究进展
链接地址:https://www.31ppt.com/p-6032116.html