判定树学习算法ppt课件.ppt
决策树:分类和回归树,Breiman在20世纪80年代早期创造了该术语。该技术在,医疗、市场调查统计、营销和顾客关系等方面得到了很,好的应用。,分类树是使用树结构算法将数据分成离散类的方法。,医疗数据,例,将上表数据提供给决策树软件,可产生以下决策树,构造分类树:ID3算法,1、试探性地选择一个属性放在根节点,对该属性的每个节点产生一个分枝。从而分裂根节点上的数据集,并移到子女节点,产生一棵局部树。,2、根据局部树的质量,选择一棵局部树。,3、对选定的局部树的每个子女节点重复上述步骤。,4、如果一个节点上的所有实例都具有相同的类,则停止局部树的生长。,气象状况与是否打网球这关系数据集,实例分析,天气状况有4种属性,因此有4棵可能的局部树:,选取信息熵最小的局部树作为决策树的顶层。,节点的的信息熵:,若节点仅包含Yes 或仅包含No的数据点,信息熵为0;,若节点包含Yes 和No的数据点一样多,信息熵最大。,数据的信息度量和信息熵的计算,例如,信息值的计算,训练样本在包含9个YES和5个NO的根节点上,信息值为,Info(9,5)=0.940 位,局部树(a), 在叶节点上YES和No的个数分别是2,3, 4,0, 和3,2, 信息值分别是,Info(2,3)=0.971 位Info(4,0)=0 位Info(3,2)=0.971 位,平均信息值为,位,局部树(a)导致的信息增益为,Gain(天气)= info(9,5) - info(2,3,4,0,3,2) = 0.940-0.693 = 0.247位,它可以解释在“天气”属性上创建分枝的信息值。,用同样的方法计算局部树(b),(c),(d)的信息值,并计算信息增益,Gain(气温)=0.029 位Gain(湿度)=0.152 位Gain(有风)=0.048 位,局部树(a)导致的信息增益最大,故选择天气作为根节点的划分属性。,继续递归地选择。,天气为晴时所达到的节点上的可能深一层的分枝:,Gain(气温)=0.571 位,Gain(湿度)=0.971 位,理想的情况下,当叶节点包含的实例具有相同的类时分枝过程终止。,但可能无法达到这种结果。当数据不能进一步划分时,停止划分过程。,Gain(有风)=0.020 位,天气为雨时所达到的节点上的可能深一层的分枝:,最终决策树,作业:假定你是学院的篮球队队长,根据下表给出的记录,设计一种赢得下场比赛的策略。,练习:对下表数据,使用ID3算法构造决策树。,参考文献: 数据挖掘基础教程 原书名: Insight into Data Mining: Theory and Practice 原出版社: Prentice-Hall of India Pvt.Ltd 作者: (印度)K.P. Soman Shyam Diwakar V. Ajay 译者: 范明;牛常勇丛书名: 计算机科学丛书 出版社:机械工业出版社 ISBN:9787111255437 出版日期:2009 年1月 开本:16开 页码:305 版次:1-1,