机器学习(完整版课件).pptx

上传人：牧羊曲112

文档编号：1344344

上传时间：2022-11-11

格式：PPTX

页数：92

大小：2.24MB

《机器学习(完整版课件).pptx》由会员分享，可在线阅读，更多相关《机器学习(完整版课件).pptx（92页珍藏版）》请在三一办公上搜索。

1、1,机器学习,学习是人类获取知识的重要途径和自然智能的重要标志，机器学习则是机器获取知识的重要途径和人工智能的重要标志。,什么是机器学习,是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法,2,什么是机器学习,研究计算机怎样模拟或实现人类（动物）的学习行为，以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能是人工智能的核心，是使计算机具有智能的根本途径其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎,3,机器学习的一个形象描述,4,机器学习的一般泛型,监督学习必须预先知道学习的期望结果，并依此按照某一学习规则来修正权值。知道输入数据，知道结果，用

2、函数预测个例无监督学习，不知道结果，根据数据特征分类半监督学习是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。输入数据不可靠，依据权重的调整进行训练。强化学习利用某一表示“奖惩”的全局信号，衡量与强化输入相关的局部决策如何。(输入输出之间没有固定的函数),5,监督学习,决策树（简单问题）人工神经网络（大量样本）支持向量机（小样本）,决策树学习,决策树学习1什么是决策树决策树(decision tree)也称判定树，它是由对象的若干属性、属性值和有关决策组成的一棵树。其中的节点为属性（一般为语言变量），分枝为相应的属性值（一

3、般为语言值）。从同一节点出发的各个分枝之间是逻辑“或”关系；根节点为对象的某一个属性；从根节点到每一个叶子节点的所有节点和边，按顺序串连成一条分枝路径，位于同一条分枝路径上的各个“属性-值”对之间是逻辑“与”关系，叶子节点为这个与关系的对应结果，即决策。例如图1就是一棵决策树。其中，A, B, C代表属性，ai, bj, ck代表属性值，dl代表对应的决策。处于同一层的属性（如图中的B, C）可能相同，也可能不相同，所有叶子节点（如图中的dl ，l=1,2, 6）所表示的决策中也可能有相同者。,由图1不难看出，一棵决策树上从根节点到每一个叶子节点的分枝路径上的诸“属性-值”对和对应叶子节点的决

4、策，刚好就构成一个产生式规则：诸“属性-值”对的合取构成规则的前提，叶子节点的决策就是规则的结论。例如，图1中从根节点A到叶子节点d2的这一条分枝路径就构成规则：(A= a1)(B = b2) = d2而不同分枝路径所表示的规则之间为析取关系。,图1 决策树示意图,图 2 飞机起飞的简单决策树,例1 图3所示是一个描述“兔子”概念的决策树。,图 3 “兔子”概念的决策树,2. 怎样学习决策树决策树是一种知识表示形式, 构造决策树可以由人来完成, 但也可以由机器从一些实例中总结、归纳出来, 即由机器学习而得。机器学习决策树也就是所说的决策树学习。决策树学习是一种归纳学习。由于一棵决策树就表

5、示了一组产生式规则, 因此决策树学习也是一种规则学习。特别地, 当规则是某概念的判定规则时,这种决策树学习也就是一种概念学习。,决策树学习的基本方法和步骤是: 首先,选取一个属性, 按这个属性的不同取值对实例集进行分类; 并以该属性作为根节点,以这个属性的诸取值作为根节点的分枝, 进行画树。然后,考察所得的每一个子类, 看其中的实例的结论是否完全相同。如果完全相同, 则以这个相同的结论作为相应分枝路径末端的叶子节点; 否则, 选取一个非父节点的属性, 按这个属性的不同取值对该子集进行分类, 并以该属性作为节点, 以这个属性的诸取值作为节点的分枝, 继续进行画树。如此继续,直到所分的子集全都

6、满足: 实例结论完全相同, 而得到所有的叶子节点为止。这样, 一棵决策树就被生成。下面我们进一步举例说明。,表1 汽车驾驶保险类别划分实例集,可以看出,该实例集中共有12个实例,实例中的性别、年龄段和婚状为3个属性, 保险类别就是相应的决策项。为表述方便起见, 我们将这个实例集简记为,S=(1,C), (2,C), (3,C), (4,B), (5,A), (6,A), (7,C), (8,B), (9,A), (10,A), (11,B), (12,B),其中每个元组表示一个实例, 前面的数字为实例序号, 后面的字母为实例的决策项保险类别(下同)。另外, 为了简洁, 在下面的决策树中我们用“

7、小”、“中”、“大”分别代表“21”、 “21且25”、 “25”这三个年龄段。,显然, S中各实例的保险类别取值不完全一样, 所以需要将S分类。对于S, 我们按属性“性别”的不同取值将其分类。由表1可见, 这时S应被分类为两个子集:,S1= (3,C), (4,B), (7,C), (8,B), (11,B), (12,B)S2=(1,C), (2,C), (5,A), (6,A), (9,A), (10,A),于是, 我们得到以性别作为根节点的部分决策树(见图4(a)。,考察S1和S2，可以看出，在这两个子集中，各实例的保险类别也不完全相同。这就是说，还需要对S1和S2进行分类。对于子集

8、S1，我们按“年龄段”将其分类；同样，对于子集S2，也按“年龄段”对其进行分类（注意：对于子集S2，也可按属性“婚状”分类）。分别得到子集S11, S12, S13和S21, S22, S23。于是，我们进一步得到含有两层节点的部分决策树（如图4(b)所示）。,注意到，这时除了S12和S13外，其余子集中各实例的保险类别已完全相同。所以，不需再对其进行分类，而每一个子集中那个相同的保险类别值就可作为相应分枝的叶子节点。添上这些叶子节点，我们又进一步得到发展了的部分决策树（如图4(c)所示）。接着对S12和S13，按属性“婚状”进行分类（也只能按“婚状”进行分类）。由于所得子集S121, S12

9、1和S131, S132中再都只含有一个实例，因此无需对它们再进行分类。这时这4个子集中各自唯一的保险类别值也就是相应分枝的叶子节点。添上这两个叶子节点，就得到如图4(d)所示的决策树。,图4 决策树生成过程,图4 决策树生成过程,图4 决策树生成过程,图4 决策树生成过程,由这个决策树即得下面的规则集: 女性且年龄在25岁以上, 则给予A类保险. 女性且年龄在21岁到25岁之间, 则给予A类保险。女性且年龄在21岁以下, 则给予C类保险。男性且年龄在25岁以上, 则给予B类保险。男性且年龄在21岁到25岁之间且未婚, 则给予C类保险。男性且年龄在21岁到25岁之间且已婚, 则给予B类

10、保险。男性且年龄在21岁以下且未婚, 则给予C类保险。男性且年龄在21岁以下且已婚, 则给予B类保险。,人工神经网络,人工神经网络,1 生物神经元及人工神经元的组成2 人工神经网络的模型 2 .1 人工神经元的模型 2 .2 常用的激活转移函数 2 .3 MP模型神经元,1、生物神经元及人工神经元的组成,神经元也称神经细胞，它是生物神经系统的最基本单元，它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分：细胞体、树突和轴突，见图5（a）。,目前多数人工神经网络的构造大体上都采用如下的一些原则：,由一定数量的基本神经元分层联接；每个神经元的输入、输

11、出信号以及综合处理内容都比较简单；网络的学习和知识存储体现在各神经元之间的联接强度上。,2、人工神经网络的模型,2.1人工神经元的模型神经元是人工神经网络的基本处理单元，它一般是一个多输入/单输出的非线性元件。神经元输出除受输入信号的影响外，同时也受到神经元内部因素的影响，所以在人工神经元的建模中，常常还加有一个额外输入信号，称为偏差，有时也称为阈值或门限值。,神经元的输出矢量可以表示为： A = f ( W*P + b ) = f ( wj pj + b ) 可以看出偏差被简单地加在W*P上作为激活函数的另一个输入分量。实际上偏差也是一个权值，只是它具有固定常数为1的权值。在网络的设计中

12、，偏差起着重要的作用，它使得激活函数的图形可以左右移动，从而增加了解决问题的可能性。,人工神经网络的学习就是过程就是对它的训练过程,2. 2 激活转移函数,激活转移函数f（Activation transfer function）简称激活函数，它是一个神经元及神经网络的核心之一。神经网络解决问题的能力与功效除了与网络结构有关外，在很大程度上取决于网络激活函数。线性函数、非线性斜面函数、阈值函数、S形函数,人工神经网络,人工神经网络是对人类神经系统的一种模拟。尽管人类神经系统规模宏大、结构复杂、功能神奇，但其最基本的处理单元却只有神经元。人工神经系统的功能实际上是通过大量神经元的广泛互连，以规模

13、宏伟的并行运算来实现的。基于对人类生物系统的这一认识，人们也试图通过对人工神经元的广泛互连来模拟生物神经系统的结构和功能。人工神经元之间通过互连形成的网络称为人工神经网络。在人工神经网络中，神经元之间互连的方式称为连接模式或连接模型。它不仅决定了神经元网络的互连结构，同时也决定了神经网络的信号处理方式。,人工神经网络的分类,目前，已有的人工神经网络模型至少有几十种，其分类方法也有多种。例如，若按网络拓扑结构，可分为无反馈网络与有反馈网络；若按网络的学习方法，可分为有导师学习网络和无导师学习网络；若按网络的性能，可分为连续型网络与离散型网络，或分为确定性网络与随机型网络；若按突触连接的性质，可分

14、为一阶线性关联网络与高阶非线性关联网络。,无导师学习：当两个神经元同时处于激发状态时被加强，否则被减弱。它学习的是神经元之间的连接强度。有导师学习：输入向量与其输出向量构成一个训练对，不断调整权值，使输入与输出向量在一个误差范围内。,人工神经网络的局限性,人工神经网络是一个新兴学科，因此还存在许多问题。其主要表现有：受到脑科学研究的限制：由于生理实验的困难性，因此目前人类对思维和记忆机制的认识还很肤浅，还有很多问题需要解决；还没有完整成熟的理论体系；还带有浓厚的策略和经验色彩；与传统技术的接口不成熟。上述问题的存在，制约了人工神经网络研究的发展。,2. 3 MP神经元模型,MP神经元模型

15、是由美国心理学家McClloch和数学家Pitts共同提出的，因此，常称为MP模型。 MP神经元模型是典型的阈值型神经元，见图7，它相当于一个多输入单输出的阈值器件。,如图7所示，假定p1，p2，pn表示神经元的n个输入；wi表示神经元的突触连接强度，其值称为权值；n 表示神经元的输入总和，f (n) 即为激活函数；a 表示神经元的输出，b 表示神经元的阈值，那么MP模型神经元的输出可描述为(1)式所示：,MP模型神经元是二值型神经元，其输出状态取值为1或0，分别代表神经元的兴奋和抑制状态。如果 n 0，即神经元输入加权总和超过某个阈值，那么该神经元兴奋，状态为1；如果n 0，那么该神经元受到

16、抑制，状态为0。通常，将这个规定称为MP模型神经元的点火规则。用一数学表达式表示为：,对于 MP模型神经元，权值w在（ 1， 1）区间连续取值。取负值表示抑制两神经元间的连接强度，正值表示加强。,(2),MP模型神经元具有什么特性？能完成什么功能？,为了回答这个问题，我们以简单的逻辑代数运算为例来说明。,例1 假设一个MP模型神经元有2个输入：p1和p2，其目标输出记为t，试问它能否完成下列真值表功能？,解：根据要求，神经元的权值和阈值必须满足如下不等式组：若取b值为0.5,W1和W2取0.7。可以验证用这组权值和阈值构成的2输入MP模型神经元能够完成该逻辑“或”运算。,如同许多代数方程一样

17、，由MP模型激活函数得出的不等式具有一定的几何意义，所有输入样本构成样本输入空间。对于任意特定W和P的值都规定了一个超平面（决策平面），其方程为：它把超平面Rn（XRn）分成了两部分：WX-b0 部分和 WX-b0 部分。,3、人工神经网络的结构与学习,3.1人工神经网络的结构如果将大量功能简单的形式神经元通过一定的拓扑结构组织起来，构成群体并行分布式处理的计算结构，那么这种结构就是人工神经网络，统称为神经网络。,根据神经元之间连接的拓扑结构上的不同，可将神经网络结构分为两大类：,分层网络相互连接型网络,1、分层结构,分层网络将一个神经网络模型中的所有神经元按功能分成若干层，一般有输入层、隐

18、层（又称中间层）和输出层各层顺序连接，如图所示。,简单的前向网络具有反馈的前向网络层内有相互连接的前向网络,分层网络可以细分为三种互连形式：,图（a）简单的前向网络形状；图（b）输出层到输入层具有反馈的前向网络；图（c）层内有相互连接的前向网络。,所谓相互连接型网络是指网络中任意两个神经元之间是可达的，即存在连接路径，如图7.8（d）所示。,2、相互连接型结构,权值修正学派认为：神经网络的学习过程就是不断调整网络的连接权，以获得期望的输出的过程。,3.2人工神经网络的学习,相关学习法误差修正学习法,典型的权值修正方法有两类：,式中，wji( t + 1)表示修正一次后的某一权值；称为学习因

19、子，决定每次权值的修正量，x i（t）、xj（t）分别表示 t 时刻第i、第j个神经元的状态。,如果神经网络中某一神经元与另一直接与其相连的神经元同时处于兴奋状态，那么这两个神经元间的连接强度应该加强。相关学习法是根据连接间的激活水平改变权值的，相关学习法也称Hebb学习规则，可用一数学表达式表示为：,相关学习法,根据期望输出与实际输出之间的误差大小来修正权值。误差修正学习法也称学习规则，可由如下四步来描述；,误差修正学习法,选择一组初始权值和偏差值；计算某一输入模式对应的实际输出与期望输出的误差更新权值（偏差值可视为输入恒为-1的一个权值）返回步骤（2），直到对所有训练模式，网络输出均能满

20、足要求。,式中，为学习因子； yje(t)、yj(t) 分别表示第j个神经元的期望输出与实际输出；xi为第i个神经元的输入；,一些著名的神经网络模型,SVM（支持向量机，Support Vector Machine）小样本,根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差，没有最小化置信范围值，因此其推广能力较差。Vapnik 提出的支持向量机（Support Vector Machine, SVM）以训练误差作为优化问题的约束条件，以置信范围值最小化作为优化目标，即SVM是一种基于结构风险最小化准则

21、的学习方法，其推广能力明显优于一些传统的学习方法。形成时期在19921995年。,54,支持向量,直观地说，支持向量是两类集合边界上的点。对于新的数据点 x,要对其进行分类只需要计算其中和 0 是支持向量对应的参数。,()= + 0,判别函数:是特征空间中某点x到超平面的距离的一种代数度量,支持向量的条件,向量与超平面的关系,总之：线性判别函数利用一个超平面把特征空间分隔成两个区域。超平面的方向由法向量w确定，它的位置由阈值确定。判别函数g(x)正比于x点到超平面的代数距离（带正负号）。当x点在超平面的正侧时，g(x)0；当x点在超平面的负侧时，g(x)0,支持向量机的应用现状,V

22、M人脸检测、验证和识别 Osuna最早将SVM应用于人脸检测，并取得了较好的效果。其方法是直接训练非线性分类器完成人脸与非人脸的SVM分类。由于SVM的训练需要大量的存储空间，并且非线性SVM 分类器需要较多的支持向量，速度很慢。所以在实际中广泛实用层次结构分类器，它由一个线性组合和一个非线性组成。检测时，由前者快速排除掉图像SVM 中绝大部分背景窗口，而后者只需对少量的候选区域做出确认。人脸检测研究中更复杂的情况是姿态的变化。基于支持向量机姿态分类器，分类错误率降低到1.67%，明显优于在传统方法中效果最好的人工神经元网络方法。人脸姿态可以划分为多个类别，在训练过程中，面部特征的提取和识别可

23、看作是对3D物体的投影图像进行匹配的问题。很多研究利用了SVM利于处理小样本问题以及泛化能力强的优势，取得了比传统最近邻分类器和BP网络分类器更高的识别率。,支持向量机的应用现状,贝尔实验室对美国邮政手写数字库进行的实验，人工识别平均错误率是2.5%，专门针对该特定问题设计的层神经网络错误率为5.1%（其中利用了大量先验知识），而用种方法采用3种SVM核函数得到的错误率分别为4.0%、4.1%和4.2%，且是直接采用1616的字符点阵作为输入，表明了SVM的优越性能。手写体数字09的特征可以分为结构特征、统计特征等。在一些实验中，SVM表明了对手写汉字识别的有效性。,无监督机器学习,无监督分

24、类聚类关联规则,聚类（Cluster）,聚类目的在将相似的事物归类。聚类分析又称为“同质分组”或者“无监督的分类”，指把一组数据分成不同的“簇”，每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小，而类内数据的相似性尽可能地大。,61,聚类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据，具体找出一些能够度量数据值之间或者属性之间相似程度的量，以这些量为中心作为划分类型的依据，把一些相似程度较大的数据或属性聚合为一类，把另外一些彼此之间相似程度较大的

25、样品又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到所有数据或属性都聚合完毕，把不同的类型一一划分出来。,比较常用的距离：,绝对值距离欧氏距离明斯基距离,64,Hierarchical Clustering层次聚类法,该方法是利用距离矩阵作为分类标准，将n个样品各作为一类；计算n个样品两两之间的距离，构成距离矩阵；合并距离最近的两类为一新类；计算新类与当前各类的距离；再合并、计算，直至只有一类为止。,K均值算法,K均值（k-means）是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时，可很好地实现数据的聚类分析。基本思想：（1）首先，随机

26、选择k个数据点做为聚类中心（2）然后，计算其它点到这些聚类中心点的距离，通过对簇中距离平均值的计算，不断改变这些聚类中心的位置，直到这些聚类中心不再变化为止。,K-Means Clustering K-均值聚类方法,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,K=2Arbitrarily choose K object as initial cluster center,Assign each objects to most similar center,Update the cluster means,Update the cluster me

27、ans,reassign,reassign,K均值的流程,由流程图可知，k-均值算法是一种基于对数据集进行划分的方法进行聚类的算法。它是不断趋于最优解的试探过程。每一次迭代都试图使簇中心的选择更加接近于数据集的实际簇中心。,最近邻方法-分类最近邻决策规则k-NN,(6) 判x2,K均值算法,优势（1）算法简单；（2）执行和收敛过程相对较快，是一种常见的聚类算法。局限性（1）算法要求簇是密集的、簇和簇之间的差异比较大；（2）数据集的平均值的计算必须有适当的定义；（3）对于某些孤立数据和“噪声”点敏感等。,Nave Bayes算法,微软朴素贝叶斯算法是SAS(数据挖掘算法)中最简单的算法，通常用作

28、理解数据基本分组的起点,说的简单一点就是处理数据的分类虽然该算法既可用于预测也可用于分组，但最常用于模型构建的早期阶段，更常用于分组而不是预测某个具体的值,定义：事件组A1，A2，An (n可为)，称为样本空间S的一个划分，若满足：,A1,A2,An,B,Nave Bayes 分类,定理：设A1，, An是S的一个划分，且P(Ai) 0，(i1，n)，则对任何事件BS，有,式子就称为贝叶斯公式。,贝叶斯定理回顾,例子：已知某种疾病的发病率为0.1%, 该种疾病患者一个月以内的死亡率为90%；且知未患该种疾病的人一个月以内的死亡率为0.1%；现从人群中任意抽取一人，问此人在一个月内死亡的概率是多

29、少？若已知此人在一个月内死亡，则此人是因该种疾病致死的概率为多少？,贝叶斯定理回顾,贝叶斯公式给出了结果事件B已发生的条件下，原因属于事件Ai的条件概率. 从这个意义上讲，它是一个“执果索因”的条件概率计算公式.相对于事件B而言，概率论中把P(Ai)称为先验概率（Prior Probability），而把P(Ai|B)称为后验概率（Posterior Probability），这是在已有附加信息（即事件B已发生）之后对事件发生的可能性做出的重新认识，体现了已有信息带来的知识更新.,贝叶斯定理回顾,分类问题,这个人会不会逃税?,分类问题,贝叶斯分类方法,把每一个属性（输入）和分类变量（输出

34、) = 逃税 = 否,A: （胎生是，会飞否，水中生活是，有腿否）M: 哺乳动物N: 非哺乳动物,P(A|M)P(M) P(A|N)P(N)= 哺乳动物,分类问题,这个算法之所以称为“朴素”，是因为所有属性的重要性是一样的，没有谁高谁低一说。它是一种运用算术原则来理解数据的方法对此算法的另一个理解就是：所有属性都是独立的，互不相关的。从字面来看，该算法只是计算所有属性之间的关联。虽然该算法既可用于预测也可用于分组，但最常用于模型构建的早期阶段，更常用于分组而不是预测某个具体的值。通常要将所有属性标记为简单输入或者既是输入又是可预测的，因为这就可以要求算法在执行的时候考虑到所有属性,很常见的一种

35、情况是，在输入中包含大量属性，然后处理模型再评估结果，如果结果看起来没什么意义，我们经常减少包含的属性数量，以便更好地理解关联最紧密的关系。,贝叶斯方法的不足,贝叶斯方法最有争议之处就是先验信息的使用。先验信息来源于经验或者以前的实验结论，没有确定的理论依据作支持，因此在很多方面颇有争议。由于很多工作都是基于先验信息的，如果先验信息不正确，或者存在误差，那么最后导致的结论就会是不可想象的。尤其是在数据挖掘中，挖掘出的知识也是不可预知的，就是说不知道挖掘出的知识是有用的还是无用的，甚至是错误的。虽然知识发现中有一步是进行知识评估，但是这种评估并不能总是知识的可用性和有效性，特别不能确定先验信息是

36、否正确时，这种评估更带有不确定性。处理数据复杂性高，因此时间和空间消耗也比较大。贝叶斯方法要进行后验概率的计算、区间估计、假设检验等，大量的计算是不可避免的。,如果我们拥有大量的数据，而且对数据的了解又很少，这时候可以使用朴素贝叶斯算法。例如：公司可能由于兼并了一家竞争对手而获得了大量的销售数据，在处理这些数据的时候，可以用朴素贝叶斯算法作为起点。,聚类分析的基本思想是在样品之间定义距离，在变量之间定义相似系数，距离或相似系数代表样品或变量之间的相似程度，按相似程度的大小，将样品或变量逐一归类，关系密切的类聚集到一个小的分类单位，然后逐步扩大，使得关系疏远的聚合到一个大的分类单位，直到所有的样品或变量都聚集完毕，形成一个表示亲属关系的谱系图，依次按照某些要求对某些样品或变量进行分类。,聚类和分类的主要区别是，在进行聚类分析以前，对总体到底有几种类型并不知道，对已知数据分几类需在聚类的过程中探索调整，而分类是在事前已知道分为哪些类。,谢谢,首都师范大学信息工程学院,