机器学习概述ppt课件.pptx
《机器学习概述ppt课件.pptx》由会员分享,可在线阅读,更多相关《机器学习概述ppt课件.pptx(58页珍藏版)》请在三一办公上搜索。
1、1.1 什么是机器学习?,一般来说现在提到的机器学习是指统计机器学习,也就是计算机系统通过运用数据及统计方法提高系统性能的学习过程。机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。,1.2 机器学习的发展历史,机器学习属于人工智能的一块。人工智能的研究往往涉及到对人的智能本身的研究。其他关于或其他人造系统的智能也普遍被认为是人工智能的相关的研究课题。下图是人工智能的发展路线: 在20世纪40年代和50年代,来自不同领域(数学,心理学,工程学,经济学和政治学)的一批科学家开始探讨制造人工大脑的可能性。1956年,人工智能被确立为
2、一门学科。,1.2 机器学习的发展历史,Walter Pitts和Warren McCulloch分析了理想化的人工神经元网络,并且指出了它们进行简单逻辑运算的机制。他们是最早描述所谓“神经网络”的学者。1951年马文闵斯基与Dean Edmonds一道建造了第一台神经网络机,称为SNARC。 Arthur Samuel在五十年代中期和六十年代初开发的西洋棋程序的棋力已经可以挑战具有相当水平的业余爱好者。 1956年达特矛斯会议提出的断言之一是“学习或者智能的任何其他特性的每一个方面都应能被精确地加以描述,使得机器可以对其进行模拟。”这一事件被广泛承认为AI诞生的标志。,1.2 机器学习的发展
3、历史,当今机器学习世界的很多方法都是从其中延伸出来的。但同时,它也自己独特的一面。机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。 机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。,1.3 机器学习的现状,机器学习的最新阶段始于1986年。机器学习进入新阶段的重要表现在下列诸方面:(1)
4、机器学习已成为新的边缘学科并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。(2)结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。,1.3 机器学习的现状,(3)机器学习与人工智能各种基础问题的统一性观点正在形成。类比学习与问题求解结合的基于案例方法已成为经验学习的重要方向。 (4)各种学习方法的应用范围不断扩大,一部分已形成商品。 (5)与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研讨会外,还有计算机学习理论会议以及遗传算法会议。,1.4 机器学习的主要研究领域,目前最主要的应用领域有:专家系统、认知模
5、拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈等领域。目前大部分的应用研究领域基本上集中于以下两个范畴:分类和问题求解。(1)分类任务要求系统依据已知的分类知识对输入的未知模式作分析,以确定输入模式的类属。相应的学习目标就是学习用于分类的准则(如分类规则)。(2)问题求解任务要求对于给定的目标状态,寻找一个将当前状态转换为目标状态的动作序列;机器学习在这一领域的研究工作大部分集中于通过学习来获取能提高问题求解效率的知识(如搜索控制知识,启发式知识等)。,2.1 回归问题与分类问题,经过算法预测的结果是一个连续的值,我们称这样的问题为回归问题。算法能够
6、学会如何将数据分类到不同的类里,我们称这样的问题为分类问题。,回归问题,分类问题,2.2 假设模型,h代表学习算法的解决方案或函数,也称假设。 例如,我们要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得一个假设h,然后将我们要预测的房屋的尺寸作为输入变量输入给h,预测出该房屋的交易价格作为输出变量输出的结果是影响h的参数,2.3 代价函数,代价函数表达式:比如,在线性回归中代价函数如下形式:学习的目的便是选择出使代价函数最小的模型参数,2.4 模型选择,模型选择的方法为(训练集60%,交叉验证集20%,测试集20%):1.使用训练集训练出若干个模型2.用这些模型分别
7、对交叉验证集计算得出交叉验证误差(交叉验证集用来对刚训练出的模型进行预报,以得出最佳的模型)3.选取代价函数值最小的模型4.用步骤3中选出的模型对测试机计算得出推广误差,2.5 低拟合与过拟合,第一个模型是一个线性模型,低度拟合,不能很好地适应训练集;第三个模型是一个四次方的模型,过度拟合,虽然能非常好地适应我们的训练集,但在新输入变量进行预测时可能会效果不好;中间的模型似乎最合适,2.6 低拟合与过拟合的解决方法,随着特征个数的增多,训练集的误差逐渐减小。交叉验证集的误差是先减小后增大。根据上面图表,我们知道:训练集误差和交叉集误差近似时:低拟合交叉验证集误差远大于训练集误差时:过拟合因此,
8、我们在完善模型的过程中,若需要解决过拟合,可以尝试减少特征的数量。若需要解决低拟合,可以尝试增加特征的数量。,3.1 决策树的发展历史,决策树是一种基本的分类与回归算法,决策树学习的思想主要来源于Quinlan在1986年提出的ID3算法和和1994年提出的C4.5算法。决策树的学习通常包括三个步骤:特征选择,决策树的生成和决策树的剪枝。,3.2 决策树表示法,通过把实例从根节点排列到某个叶子节点来分类实例。叶子节点即为实例所属的分类树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值,3.3 特征值的选择,特征选择在于选取对训练数据具有分类能力的特征,这样可以提
9、高决策树学习的效率。特征选择的通常准则是能使得信息增益或信息增益比更大。,3.4 决策树学习的基本算法ID3,ID3的过程分类能力最好的属性被选作树的根节点根节点的每个可能值产生一个分支训练样例排列到适当的分支重复上面的过程,3.5 决策树的剪枝,决策树生成算法递归地产生决策树,这种方法会使得学习时过多的考虑如何提高对训练数据的分类,从而构造出过于复杂的决策树,解决这种问题的方法是对决策树进行剪枝,3.6 决策树实例,3.7 决策树实例,4.1 简介,一种监督学习模型;主要用于模式分类和回归分析,特别是非线性回归,提供更加简洁的解决方案;在解决小样本、非线性及高维模式识别中表现出许多特有的优势
10、;主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化;,4.2 线性可分支持向量机,首先讨论线性可分的情况,以逻辑回归为例展开讨论: 逻辑回归中以y=0或1进行分类,但由于代价函数始终不为0,得到的分类效果往往是不够理想,如图:,4.2 线性可分支持向量机,而我们想要得到的效果如下图:因此需要对逻辑回归进行修改,我们的方法是构建一个可以取零值得代价函数,并,4.2 线性可分支持向量机,以y=1或-1来进行分类。为此,我们可以选取各类特征的边界点,形成两条平行的线,称为判定边界,然后找出中间线,继而使分类比较符合实际,如下图所示:,4.2 线性可分支持向量机,此中间线就是
11、最优超平面,是最佳的的分类方式,而两侧通过判定边界的是支持向量,这也是此类算法叫支持向量机的原因。然后根据数学方法得出其具体分类方法。,4.3 线性不可分支持向量机,对于线性不可分的情况,如图所示:我们往往是构造一个多项式的模型,然后通过数学转换,将其转化为线性问题,最后通过线性可分来进行处理。,4.3 线性不可分支持向量机,而在支持向量机的情况下,通过某种事先选择的非线性映射(核函数)将输入变量映射到一个高维特征空间,在这个空间中构造最优分类超平面。如图:,4.3 线性不可分支持向量机,用一个动画展示其过程:,神经网络+感知机,5.1 什么是人工神经网络?,人工神经网络是模拟人脑思维方式的数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 概述 ppt 课件
链接地址:https://www.31ppt.com/p-1342283.html