《机器学习研究》PPT课件.ppt
《《机器学习研究》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《机器学习研究》PPT课件.ppt(93页珍藏版)》请在三一办公上搜索。
1、机器学习研究,反思,网络经济的泡沫破灭之后,哪些是值得我们在研究方向上反思的问题呢?我们的研究应注意哪些课题呢?,需求-NII计划,不分地域地、有效地获得与传输信息。不分地域地、有效地共享硬软资源。有效地利用信息,以提高生产率。保证信息安全。,在过去的十年中,做了什么?,以浏览器为核心技术的“有效获得信息”的研究取得了预期效果。人们已可以从不同地域有效地获得信息。但是,,硬软资源的使用,在网络上的硬软资源的利用率只有3-5%。大量计算资源没有由于网络设施的支持而被充分利用。硬软件的快速更新,导致对环境的污染。,信息的有效使用,由于技术发展的滞后,在网络上获得的信息和与提高生产率有关的信息的有效
2、使用率甚至低于1%。占用大量硬软资源的信息正在大量地被浪费。,信息安全,信息的安全还没有保证。,提高信息使用率,以机器学习为理论基础的各种方法,是提高信息使用率的有效途径之一。,机器学习复杂数据分析(符号机器学习),机器学习,机器学习的一般说明统计机器学习集成机器学习,机器学习的研究动力,领域应用驱动。算法驱动。,领域应用驱动,自然语言数据分析。DNA数据分析。网络与电信数据分析。图像数据分析。金融与经济数据分析。零售业数据分析。情报分析。没有一种算法可以解决复杂的实际问题。需要各种算法集成。,算法驱动,海量数据(108-10)。算法的泛化能力,或算法可解释。不同类型数据的学习方法。,机器学习
3、研究热点的变迁,1989年(Carbonell),1997年(Dietterich)符号机器学习。符号机器学习。连接机器学习。集成机器学习。遗传机器学习。统计机器学习。分析机器学习。增强机器学习。,机器学习计算的说明,令W是这个给定世界的有限或无限所有对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集QW。机器学习的任务就是根据这个世界的对象子集Q,计算这个世界的统计分布。这样,在统计意义下,这个分布对这个世界的绝大多数对象是正确的。这就是这个世界的一个模型。,三个要求,一致性假设:机器学习任务的本质。对样本空间的划分:决定对样本的有效性。泛化能力:决定对世界的有效性。,
4、一致性假设,假设世界W与被观察的对象集合Q具有某种相同的性质。称为一致性假设。,基于统计的假设,原则上说,存在各种各样的一致性假设。在统计意义下,一般假设:W与Q具有同分布。或,给定世界W的所有对象独立同分布。,划分,将被观测的对象集合放到一个n维欧氏空间,寻找一个超平面,使得问题决定的不同对象分在不相交的区域。机器学习主要研究的是这部分内容,即,寻找划分对象集合的超平面(等价关系)。,超平面类型,光滑且连续的超平面。有限不光滑点,甚至有限不连续点的超平面。,光滑连续超平面作为研究基础,Perceptron,人工神经网络是典型例子。困难:对线性不可分的对象集合,如果限制算法是P的,则存在本质性
5、困难。,泛化,机器学习的首要任务是划分。只有找到一个等价关系(模型),将不同类的样本划分为不同的类,才能考虑其他问题。泛化是一个确定的划分对世界的分类能力。由于可能存在不同的划分样本集合方法,其泛化能力不同,泛化能力最强的划分就是我们希望的分类器。,Duda的泛化能力描述,以样本个数趋近无穷大来描述模型的泛化能力。泛化能力需要使用世界W来刻画,是无法构造的判据。均方差可作为目标函数。,评述,由于人们没有找到基于样本集合Q的描述泛化能力的数学工具。另外,线性不可分问题是一个困难。在感知机时代,基于Duda泛化理论无法指导机器学习算法的设计,这样,评价机器学习算法只能以划分能力作为指标。Vapni
6、k对这个问题做出重要贡献。这样,注重从划分变为泛化。,以划分能力为目标的研究,这类研究的指导思想,一直延续到上个世纪的九十年代。直到今天,还有大量的学者以此作为机器学习的指导思想。以BP算法为核心的神经网络研究是典型例子。划分是机器学习的一个目标,但是,不是预测任务的主要研究目标。,神经网络-BP算法,使用了一种非线性的基函数。这项研究的意义是为研究者回归感知机做好了舆论的准备。其在科学上的意义,远不如提示人们再次注意感知机的作用更大。,统计机器学习理论与SVM,对机器学习的研究者来说,统计机器学习理论所派生的算法SVM似乎更有吸引力。但是,如果研究者忘记SVM所基于的统计基础,就与Vapni
7、k的本意相悖了。事实上,Vapnik的统计理论才是其精华,而基于这个理论的算法只是从这个统计理论派生的自然结果。,机器学习的统计假设,机器学习的统计基础是基于经验风险最小假设,以此,对机器学习算法所建模型的泛化能力估计(经验风险)。,Vapnik的统计观点,Vapnik希望改变Duda的统计观点。泛化描述“从样本数趋于无穷大”变为“在给定样本集”基础上判定。由此,建立基于样本集合结构的VC维来描述的理论。这样,机器学习的目标函数就可以建立在样本集合的结构之上。这是统计机器学习理论的精髓。,泛化能力,以下不等式依概率1-成立:R:包含所有样本的球半径M:边缘l:样本个数,泛化不等式的解释,M0,
8、边缘不能等于零。这意味着,样本集合必须是可划分的。边缘最大,泛化能力最强。泛化能力可以使用样本集合的边缘来刻画。泛化能力的描述无需使用世界W来刻画,而只需样本集合Q来刻画。,泛化能力的几何解释(示意图),线性可分问题,定理:如果一个样本集合是线性可分的,它们一定可以构成两个不相交的闭凸集。这样,线性可分问题变为计算两个闭凸集的最大边缘问题。,线性不可分问题,划分问题:怎样获得两个不相交的闭凸集。泛化问题:怎样使两个闭凸集之间的距离最大。,核技术,可以证明,一定存在一个映射,称为核函数,将在欧式空间定义的样本映射到特征空间(一个更高维的空间),使得在特征空间上,样本构成两个不相交的闭凸集。研究核
9、函数选择的技术称为核技术。,SVM,给定核函数,如果它可以保证将样本集合在特征空间变换为两个不相交的闭凸集,则对这个样本集合的最大边缘可以通过二次规划、计算几何等方法获得。由此,可以获得支持向量。这就是SVM。,未解决的问题,在特征空间样本集合是否可以划分为不相交的闭凸集,决定于核函数的选择。最大边缘尽量大,也决定于核函数的选择。核函数的选择没有一般的方法。准确地说,加大特征空间维数是一个方法,确定最小维数没有P算法。,解决线性不可分问题的方法,核函数选择的困难可能是根本性的。技术措施:同时考虑不满足一致性假设的情况。软边缘。集成机器学习。,两类技术措施的统计解释,目的是解决样本集合不满足一致
10、性假设,采用不确定性来补充,以使得模型与实际世界的统计分布一致。措施:软边缘:将边缘改为软性(有个范围),以适应需要。集成机器学习:多个分类器集成,以使用不同模型补充一个模型的不足。,集成机器学习动机,弱分类器设计简单。在理论上似乎与Madaline类似。,集成机器学习,1990年Shapire证明,如果将多个弱分类器集成在一起,它将具有强分类器的泛化能力。进而,又说明,这类集成后的强分类器具有统计学习理论的基础。,弱分类器,如果一个分类器的分类能力(泛化)稍大于50%,这个分类器称为弱分类器。这意味着,比掷硬币猜正面的概率稍好,就是弱分类器。,集成,在分类时,采用投票的方式决定新样本属于哪一
11、类。由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均,以决定分哪类。,为什么吸引人,弱分类器比强分类器设计简单以统计学习理论为基础,Vapnik的贡献,给出了可以指导机器学习算法设计的泛化理论。成为一种机器学习的规范。建立了从数据到分布的基本方法。以后机器学习的研究必须考虑从数据到分布的归纳机理问题。R,复杂数据分析,复杂数据分析的一般性说明符号机器学习,复杂数据分析-一类需求,机器学习研究方兴未艾,还有大量的理论与技术问题未解决。由于获得数据的手段的改善,在各行各业人们可以方便地获得越来越多的数据。但是,这些数据的积累也带来副作用,一方面,消耗大量资源,另一方面,无法使用的数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习研究 机器 学习 研究 PPT 课件

链接地址:https://www.31ppt.com/p-5530964.html