机器学习之决策树学习ppt课件.ppt
《机器学习之决策树学习ppt课件.ppt》由会员分享,可在线阅读,更多相关《机器学习之决策树学习ppt课件.ppt(49页珍藏版)》请在三一办公上搜索。
1、1,机器学习 决策树学习,2,决策树学习概述决策树学习的适用问题决策树建树算法决策树学习中的假设空间搜索决策树学习的归纳偏置决策树学习的常见问题,OUTLINE,3,决策树学习概述,决策树归纳是归纳学习算法中最简单也是最成功的算法之一好的入门 决策树以事物的属性描述集合作为输入,输出通常是一个分类(离散的输出)一般是二值分类(真或假),是一种逼近离散值函数的方法,4,决策树学习示例,例子:星期六上午是否适合打网球属性=outlook,Temperature, humidity,wind属性值=sunny, overcast, rain, hot, mild, cool, high, norma
2、l, strong, weak,5,决策树学习示例训练样例,返回,6,决策树学习示例决策树表示,决策树通过把实例从根节点排列到某个叶子节点来分类实例叶子节点即为实例所属的分类树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值,High Normal Strong Weak,Outlook,Wind,Humidity,Sunny,Overcast,Rain,Yes,No,Yes,No,Yes,7,Outlook,Wind,Humidity,Sunny,Overcast,Rain,High Normal Strong Weak,Yes,No,Yes,No,Yes,决
3、策树学习示例决策树,未见实例: ,8,决策树学习示例决策树表示,决策树代表实例属性值约束的合取的析取式。从树根到树叶的每一条路径对应一组属性测试的合取,树本身对应这些合取的析取,High Normal Strong Weak,Outlook,Wind,Humidity,Sunny,Overcast,Rain,Yes,No,Yes,No,Yes,9,High Normal Strong Weak,Outlook,Wind,Humidity,Sunny,Overcast,Rain,Yes,No,Yes,No,Yes,决策树学习示例决策树表示,上面决策树对应于以下表达式: (Outlook=sunn
4、yHumidity=normal) (Outlook=overcast) (Outlook=rainWind=weak),10,决策树学习概述决策树学习的适用问题决策树建树算法决策树学习中的假设空间搜索决策树学习的归纳偏置决策树学习的常见问题,OUTLINE,11,决策树学习的适用问题,决策树适合具有以下特征的学习:实例是由“属性-值”对表示的固定的属性+离散或连续的取值目标函数具有离散的输出值析取表达式训练数据可以包含错误决策树学习的鲁棒性好训练数据可以包含缺少属性值的实例问题举例根据疾病分类患者根据起因分类设备故障分类问题核心任务是把样例分类到各可能的离散值对应的类别,12,决策树学习概述
5、决策树学习的适用问题决策树建树算法决策树学习中的假设空间搜索决策树学习的归纳偏置决策树学习的常见问题,OUTLINE,13,决策树建树算法,决策树学习包括2个步骤:从实例中归纳出决策树(建立决策树)利用决策树对新实例进行分类判断如何建立决策树:大多数决策树学习算法是一种核心算法的变体采用自顶向下的贪婪搜索遍历可能的决策树空间ID3是这种算法的代表,14,决策树建树算法(1),ID3算法的基本思想:自顶向下构造决策树从“哪一个属性将在树的根节点被测试”开始使用统计测试来确定每一个实例属性单独分类训练样例的能力,15,决策树建树算法(2),ID3算法的构造过程初始时,决策树根节点包括所有的训练样例
6、分类能力最好的属性被选作树的根节点根节点的每个可能值产生一个分支,训练样例排列到适当的分支对于每一个分支,重复上面的过程算法的终止条件:所有的属性已经被这条路经包括;与这个节点关联的所有训练样例都具有相同的目标属性值(即它们的熵为0),16,决策树建树算法(3),ID3(Examples, Target_attribute, Attributes)创建树的root节点如果Examples都为正,返回label=+的单节点树root如果Examples都为反,返回label=-的单节点树root如果Attributes为空,那么返回单节点root,label=Examples中最普遍的Targe
7、t_attribute值否则开始AAttributes中分类examples能力最好的属性root的决策属性A对于A的每个可能值vi在root下加一个新的分支对应测试A=vi令Examplesvi为Examples中满足A属性值为vi的子集如果Examplesvi为空在这个新分支下加一个叶子节点,节点的label=Examples中最普遍的Target_attribute值否则在新分支下加一个子树ID3( Examplesvi,Target_attribute,Attributes-A)结束返回root,17,属性选择,决策树中的每个节点都代表一定的属性,这些属性如何在决策树中排布是值得认真研
8、究的决策树建树算法中的属性选择方案的目标是为了最小化最终树的深度,从而使用尽可能少的判断步骤来分类某个实例在决策树算法中,属性排序以信息论中的熵概念为理论基础属性提供的期望信息量,18,熵与不确定性,信息论中用熵表示事物的不确定性,同时也是信息含量的表示熵值越大,表示不确定性越大,同时信息量越多;反之则不确定性越小,信息量越小,19,熵和决策树,Quinlan于1983年提出决策树算法ID3时使用熵的概念来提高决策树分类的效率:开始,决策树的树根对应于最大的不确定状态,表示在分类之前对被分类的对象一无所知随着每个属性的不断判断,向树的叶子方向前进,即相当于选择了其中的一棵子树,其不确定状态就减
9、小了到达叶子节点,分类完成,此时不确定性为零,20,要提高决策树的分类效率,就相当于要求熵值下降的更快 / 这样,ID3算法的实质就是构造一棵熵值下降平均最快的决策树熵值下降表明不确定性减小的思想可以应用到许多情况,例如:自然语言中的各种歧义是一种不确定性,而从不确定性走向确定性就是歧义减小 / 如果不确定性消失也就是熵值为零,则说明已经消除了歧义,选择了某个明确的符号表示 / 因此可以应用决策树算法来消歧,熵和决策树(2),21,熵和决策树(3),用熵度量样例的均一性熵刻画了任意样例集的纯度给定包含关于某个目标概念的正反样例的样例集S,那么S相对这个布尔型分类的熵为更一般地,如果目标属性具有
10、c个不同的值,那么S相对于c个状态的分类的熵定义为,其中,p1是在S 中正例的比例,p0是在S 中反例的比例,22,熵和决策树(4),熵值计算举例:例如:“PlayTennis”中S是一个关于某布尔概念的14个样例的集合,包括9个正例和5个反例9+,5-。那么S相对于这个布尔分类的熵为:训练数据集,23,熵和决策树熵函数变化曲线,熵值分析:如果S的所有成员属于同一类,那么S的熵为0如果S中正反样例的数量相等时(或者:S中各类样例等比例时),熵值为1如果S集合中正反例的数量不等时,熵介于0和1之间,24,信息增益,用信息增益度量期望的熵降低属性的信息增益(属性分类训练数据的能力的度量标准),由于
11、使用这个属性分割样例而导致的期望熵降低一个属性A相对样例集合S的信息增益Gain(S,A)为:,其中,Values(A)是属性A所有可能值得集合,Sv是S 中属性A的值为v的子集上述等式中:第一项为原集合S的熵,第二项是用A分类S后熵的期望值即每个子集的熵的加权和。,25,上式中第二项的值应该越小越好,因为越小说明S相对于属性A作分解以后而造成的熵下降越快(根据前面的解释,熵下降越快就是不确定性减少越快),换句话说Gain(S,A)越大越好 决策树建树算法的要点是在构造决策树的每一层次时,从尚未检测的属性中选择信息增益Gain(S,A)大的属性进行分解,信息增益(1),26,举例PlayTen
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 决策树 ppt 课件

链接地址:https://www.31ppt.com/p-1342255.html