决策树ID3算法ppt课件.ppt

上传人：小飞机

文档编号：1315858

上传时间：2022-11-08

格式：PPT

页数：89

大小：931.50KB

《决策树ID3算法ppt课件.ppt》由会员分享，可在线阅读，更多相关《决策树ID3算法ppt课件.ppt（89页珍藏版）》请在三一办公上搜索。

1、第 6 章决策树,主要内容,决策树基本概念,决策树算法,决策树研究问题,主要参考文献,主要内容,决策树基本概念,决策树算法,决策树研究问题,主要参考文献,决策树基本概念,关于分类问题,分类（Classification）任务就是通过学习获得一个目标函数（Target Function）f, 将每个属性集x映射到一个预先定义好的类标号y。,分类任务的输入数据是纪录的集合，每条记录也称为实例或者样例。用元组(X,y)表示，其中，X 是属性集合，y是一个特殊的属性，指出样例的类标号（也称为分类属性或者目标属性）,决策树基本概念,关于分类问题,X,y,分类与回归,分类目标属性y是离散的，回归目标属性

2、y是连续的,决策树基本概念,解决分类问题的一般方法,分类技术是一种根据输入数据集建立分类模型的系统方法。分类技术一般是用一种学习算法确定分类模型，该模型可以很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好拟合输入数据，还要能够正确地预测未知样本的类标号。因此，训练算法的主要目标就是要建立具有很好的泛化能力模型，即建立能够准确地预测未知样本类标号的模型。分类方法的实例包括：决策树分类法、基于规则的分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。,决策树基本概念,解决分类问题的一般方法,通过以上对分类问题一般方法的描述，可以看出分类问题一般包括两个步骤： 1、模型构

3、建（归纳）通过对训练集合的归纳，建立分类模型。 2、预测应用（推论）根据建立的分类模型，对测试集合进行测试。,决策树基本概念,解决分类问题的一般方法,学习算法,学习模型,模型,应用模型,训练集（类标号已知）,检验集（类标号未知）,归纳,推论,决策树基本概念,决策树,决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。,决策树基本概念,决策树的优点1、推理过程容易理解，决策推理过程可以表示成If Then形式；2、推理过程完全依赖于属性变量的取值特点；3、可自动忽略目标变量没有贡献

4、的属性变量，也为判断属性变量的重要性，减少变量的数目提供参考。,决策树基本概念,关于归纳学习(1),决策树技术发现数据模式和规则的核心是归纳算法。归纳是从特殊到一般的过程。归纳推理从若干个事实中表征出的特征、特性和属性中，通过比较、总结、概括而得出一个规律性的结论。归纳推理试图从对象的一部分或整体的特定的观察中获得一个完备且正确的描述。即从特殊事实到普遍性规律的结论。归纳对于认识的发展和完善具有重要的意义。人类知识的增长主要来源于归纳学习。,决策树基本概念,关于归纳学习(2),归纳学习的过程就是寻找一般化描述的过程。这种一般性描述能够解释给定的输入数据，并可以用来预测新的数据。锐角三角

5、形内角和等于180度；钝角三角形内角和等于180度；三角形内角和直角三角形内角和等于180度；等于180度,已知三角形ABC，A角等于76度，B角等于89度，则其C角等于15度,归纳学习由于依赖于检验数据，因此又称为检验学习。归纳学习存在一个基本的假设：任一假设如果能够在足够大的训练样本集中很好的逼近目标函数，则它也能在未见样本中很好地逼近目标函数。该假定是归纳学习的有效性的前提条件。,决策树基本概念,关于归纳学习(3),决策树基本概念,关于归纳学习(4),归纳过程就是在描述空间中进行搜索的过程。归纳可分为自顶向下，自底向上和双向搜索三种方式。自底向上法一次处理一个输入对象。将描述

6、逐步一般化。直到最终的一般化描述。自顶向下法对可能的一般性描述集进行搜索，试图找到一些满足一定要求的最优的描述。,决策树基本概念,从机器学习看分类及归纳推理等问题（1）,从特殊的训练样例中归纳出一般函数是机器学习的中心问题；从训练样例中进行学习通常被视为归纳推理。每个例子都是一个对偶（序偶）（x, f(x)），对每个输入的x，都有确定的输出f(x)。学习过程将产生对目标函数f的不同逼近。F的每一个逼近都叫做一个假设。假设需要以某种形式表示。例如，y=ax+b。通过调整假设的表示，学习过程将产生出假设的不同变形。在表示中通常需要修改参数（如a, b）。,决策树基本概念,从机器学习看分类及归纳

7、推理等问题（2）,从这些不同的变形中选择最佳的假设（或者说权值集合）。一般方法如定义为使训练值与假设值预测出的值之间的误差平方和E最小为最佳。,学习是在假设空间上的一个搜索。概念学习也可以看作是一个搜索问题的过程。它在预定义的假设空间中搜索假设，使其与训练样例有最佳的拟合度。多数情况下，为了高效地搜索，可以利用假设空间中一种自然形成的结构，即一般到特殊的偏序关系。,决策树基本概念,从机器学习看分类及归纳推理等问题（3）,分类模型的性能根据模型正确和错误预测也可以根据的检验记录计数进行评估。这些计数存储在混同矩阵（Confusion Matrix）的表格中，二元分类问题混淆矩阵如下：,实际的类

8、,类1,f11,类0,f01,f10,f00,类1,类0,预测的类,准确率=正确的预测数/预测总数=（f11+f00）/(f11+f01+f10+f00),差错率=错误的预测数/预测总数=（f10+f01）/(f11+f01+f10+f00),归纳学习假设机器学习的任务是在整个实例集合X上确定与目标概念c相同的假设。一般H表示所有可能假设。H中每个假设h表示X上定义的布尔函数。由于对c仅有的信息只是它在训练样例上的值，因此归纳学习最多只能保证输出的假设能与训练样例相拟合。若没有更多的信息，只能假定对于未见实例最好的假设就是训练数据最佳拟合的假设。定义归纳学习假设：任一假设如果在足够大的

9、训练样例中很好地逼近目标函数，则它也能在未见实例中很好地逼近目标函数。（Function Approximation）。,决策树基本概念,从机器学习看分类及归纳推理等问题（4）,主要内容,决策树基本概念,决策树算法,决策树研究问题,主要参考文献,决策树算法,与决策树相关的重要算法,1、Hunt,Marin和Stone 于1966年研制的CLS学习系统，用于学习单个概念。2、1979年, J.R. Quinlan 给出ID3算法，并在1983年和1986年对ID3 进行了总结和简化，使其成为决策树学习算法的典型。3、Schlimmer 和Fisher 于1986年对ID3进行改造，在每个可能的

10、决策树节点创建缓冲区，使决策树可以递增式生成，得到ID4算法。4、1988年，Utgoff 在ID4基础上提出了ID5学习算法，进一步提高了效率。1993年，Quinlan 进一步发展了ID3算法，改进成C4.5算法。5、另一类决策树算法为CART，与C4.5不同的是，CART的决策树由二元逻辑问题生成，每个树节点只有两个分枝，分别包括学习实例的正例与反例。,CLS, ID3，C4.5，CART,决策树算法,假定公司收集了左表数据，那么对于任意给定的客人（测试样例），你能帮助公司将这位客人归类吗？即：你能预测这位客人是属于“买”计算机的那一类，还是属于“不买”计算机的那一类？又：你需要多少有关

11、这位客人的信息才能回答这个问题？,决策树的用途,谁在买计算机？,年龄？,学生？,信誉？,青,中,老,否,是,优,良,决策树的用途,决策树算法,谁在买计算机？,年龄？,学生？,信誉？,青,中,老,否,是,优,良,决策树的用途,决策树算法,决策树算法,决策树的表示,决策树的基本组成部分：决策结点、分支和叶子。,年龄？,学生？,信誉？,青,中,老,否,是,优,良,决策树中最上面的结点称为根结点。是整个决策树的开始。每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或者决策.通常对应待分类对象的属性。每个叶结点代表一种可能的分类结果,在沿着决策树从上到下的遍历过程中，在每个结点都有一

12、个测试。对每个结点上问题的不同测试输出导致不同的分枝，最后会达到一个叶子结点。这一过程就是利用决策树进行分类的过程，利用若干个变量来判断属性的类别,决策树算法,CLS（Concept Learning System）算法,CLS算法是早期的决策树学习算法。它是许多决策树学习算法的基础。 CLS基本思想从一棵空决策树开始，选择某一属性（分类属性）作为测试属性。该测试属性对应决策树中的决策结点。根据该属性的值的不同，可将训练样本分成相应的子集，如果该子集为空，或该子集中的样本属于同一个类，则该子集为叶结点，否则该子集对应于决策树的内部结点，即测试结点，需要选择一个新的分类属性对该子集进行划分，直

13、到所有的子集都为空或者属于同一类。,决策树算法,CLS算法,决策树算法,CLS算法-决策树的构建,眼睛颜色,1，6,2，4，8,3，5，7,黑色,兰色,灰色,不属于同一类，非叶结点,眼睛颜色,头发颜色,头发颜色,头发颜色,黑色,兰色,灰色,决策树算法,CLS算法,黄种人1,混血6,白种人2,白种人4,混血8,白种人3,白种人5,混血7,黑色,金色,金色,红色,黑色,金色,红色,黑色,决策树算法,CLS算法,1 生成一颗空决策树和一张训练样本属性集;2 若训练样本集T 中所有的样本都属于同一类, 则生成结点T , 并终止学习算法;否则3 根据某种策略从训练样本属性表中选择属性 A 作为测试属性,

14、生成测试结点A 4 若A的取值为v1,v2,vm, 则根据A 的取值的不同,将T 划分成 m个子集T1,T2,Tm;5 从训练样本属性表中删除属性A;6 转步骤2, 对每个子集递归调用CLS;,CLS算法问题,在步骤3中，根据某种策略从训练样本属性表中选择属性A作为测试属性。没有规定采用何种测试属性。实践表明，测试属性集的组成以及测试属性的先后对决策树的学习具有举足轻重的影响。举例加以说明，下表为调查学生膳食结构和缺钙情况的关系，其中1表示包含食物，0表示不包含,决策树算法,CLS算法问题,决策树算法,学生膳食结构和缺钙调查表,CLS算法问题,决策树算法,采用不同的测试属性及其先后顺序将会

15、生成不同的决策树,鸡肉,猪肉,猪肉,牛肉,牛肉,牛肉,不缺钙（2）,缺钙（3，6）,不缺钙（4）,不缺钙（10）,缺钙（5）,不缺钙（1）,鱼肉,缺钙（5）,不缺钙（7，9）,是,否,是,否,否,否,否,否,否,是,是,是,是,是,牛奶,不缺钙（1，2，4，7，9，10）,缺钙（3，5，6，8）,CLS算法问题,决策树算法,在上例中，显然生成的两种决策树的复杂性和分类意义相差很大由此可见，选择测试属性是决策树学习算法中需要研究的重要课题。,ID3,决策树算法,ID3算法主要针对属性选择问题。是决策树学习方法中最具影响和最为典型的算法。该方法使用信息增益度选择测试属性。当获取信息时，将不确定

16、的内容转为确定的内容，因此信息伴着不确定性。从直觉上讲，小概率事件比大概率事件包含的信息量大。如果某件事情是“百年一见”则肯定比“习以为常”的事件包含的信息量大。如何度量信息量的大小？,ID3 信息量大小的度量,决策树算法,Shannon1948年提出的信息论理论。事件ai的信息量I（ ai ）可如下度量：,其中p(ai)表示事件ai发生的概率。假设有n个互不相容的事件a1,a2,a3,.,an,它们中有且仅有一个发生，则其平均的信息量可如下度量：,ID3 信息量大小的度量,决策树算法,上式，对数底数可以为任何数，不同的取值对应了熵的不同单位。通常取2，并规定当p(ai)=0时 =0,公式

17、1,在决策树分类中，假设S是训练样本集合，|S|是训练样本数，样本划分为n个不同的类C1,C2,.Cn，这些类的大小分别标记为|C1|，|C2|，.,|Cn|。则任意样本S属于类Ci的概率为：,ID3 信息量大小的度量,决策树算法,Entropy（S，A）=（|Sv|/|S|）* Entropy（Sv）公式2,是属性A的所有可能的值v,Sv是属性A有v值的S子集|Sv|是Sv 中元素的个数；|S|是S中元素的个数。,ID3 信息量大小的度量,决策树算法,Gain（S，A）是属性A在集合S上的信息增益Gain（S，A）= Entropy（S） -Entropy（S，A）公式3Gain（S，A）

18、越大，说明选择测试属性对分类提供的信息越多,决策树算法,第1步计算决策属性的熵,决策属性“买计算机？”。该属性分两类：买/不买S1(买)=641 S2（不买）= 383S=S1+S2=1024P1=641/1024=0.6260P2=383/1024=0.3740I(S1,S2)=I(641,383) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9537,决策树算法,第2步计算条件属性的熵,条件属性共有4个。分别是年龄、收入、学生、信誉。分别计算不同属性的信息增益。,决策树算法,第2-1步计算年龄的熵,年龄共分三个组：青年、中年、老年青年买与不买

19、比例为128/256S1(买)=128 S2（不买）= 256S=S1+S2=384P1=128/384P2=256/384I(S1,S2)=I(128,256) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9183,决策树算法,第2-2步计算年龄的熵,年龄共分三个组：青年、中年、老年中年买与不买比例为256/0S1(买)=256 S2（不买）= 0S=S1+S2=256P1=256/256P2=0/256I(S1,S2)=I(256，0) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0,决策树算法,第2

20、-3步计算年龄的熵,年龄共分三个组：青年、中年、老年老年买与不买比例为125/127S1(买)=125 S2（不买）=127S=S1+S2=252P1=125/252P2=127/252I(S1,S2)=I(125，127) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9157,决策树算法,第2-4步计算年龄的熵,年龄共分三个组：青年、中年、老年所占比例青年组 384/1025=0.375中年组 256/1024=0.25老年组 384/1024=0.375计算年龄的平均信息期望E（年龄）=0.375*0.9183+ 0.25*0+ 0.375

21、*0.9157 =0.6877G（年龄信息增益） =0.9537-0.6877 =0.2660 （1）,决策树算法,第3步计算收入的熵,收入共分三个组：高、中、低E（收入）=0.9361收入信息增益=0.9537-0.9361 =0.0176 (2),决策树算法,第4步计算学生的熵,学生共分二个组：学生、非学生E（学生）=0.7811年龄信息增益=0.9537-0.7811 =0.1726 （3）,决策树算法,第5步计算信誉的熵,信誉分二个组：良好，优秀E（信誉）= 0.9048信誉信息增益=0.9537-0.9048 =0.0453 （4）,决策树算法,第6步计算选择节点,年龄信息增益

22、=0.9537-0.6877 =0.2660 （1）收入信息增益=0.9537-0.9361 =0.0176 （2）年龄信息增益=0.9537-0.7811 =0.1726 （3）信誉信息增益=0.9537-0.9048 =0.0453 （4）,决策树算法,年龄,青年,中年,老年,买/不买,买,买/不买,叶子,决策树算法,青年买与不买比例为128/256S1(买)=128 S2（不买）= 256S=S1+S2=384P1=128/384P2=256/384I(S1,S2)=I(128,256) =-P1Log2P1-P2Log2P2 =-(P1Log2P1+P2Log2P2) =0.9183,

23、决策树算法,如果选择收入作为节点分高、中、低,平均信息期望（加权总和）： E(收入）= 0.3333 * 0 + 0.5 * 0.9183 + 0.1667 * 0 = 0.4592Gain(收入) = I(128, 256) - E(收入)=0.9183 0.4592 = 0.4591,I(0,128)=0 比例: 128/384=0.3333I(64,128)=0.9183 比例: 192/384=0.5I(64,0)=0比例: 64/384=0.1667,注意,决策树算法,年龄,青年,中年,老年,学生,买,信誉,叶子,否,是,优,良,买,不买,买/不买,买,叶子,叶子,叶子,决策树算法,

24、ID3 决策树建立算法1 决定分类属性；2 对目前的数据表，建立一个节点N3 如果数据库中的数据都属于同一个类，N就是树叶，在树叶上标出所属的类4 如果数据表中没有其他属性可以考虑，则N也是树叶，按照少数服从多数的原则在树叶上标出所属类别5 否则，根据平均信息期望值E或GAIN值选出一个最佳属性作为节点N的测试属性6 节点属性选定后，对于该属性中的每个值：从N生成一个分支，并将数据表中与该分支有关的数据收集形成分支节点的数据表，在表中删除节点属性那一栏如果分支数据表非空，则运用以上算法从该节点建立子树。,决策树算法,决策树的数据准备,原始表,决策树算法,整理后的数据表,决策树的数据

25、准备,Data cleaning删除/减少noise，补填missing valuesData transformation数据标准化（data normalization）数据归纳（generalize data to higher-level concepts using concept hierarchies）例如：年龄归纳为老、中、青三类控制每个属性的可能值不超过七种（最好不超过五种）Relevance analysis对于与问题无关的属性：删对于属性的可能值大于七种又不能归纳的属性：删,决策树算法,决策树的数据准备,决策树算法,处理连续属性值,决策树算法比较适合处理离散数值的属

26、性。实际应用中属性是连续的或者离散的情况都比较常见。在应用连续属性值时，在一个树结点可以将属性Ai的值划分为几个区间。然后信息增益的计算就可以采用和离散值处理一样的方法。原则上可以将Ai的属性划分为任意数目的空间。C4.5中采用的是二元分割（Binary Split）。需要找出一个合适的分割阈值。参考C4.5算法 Top 10 algorithms in data mining Knowledge Information System 2008 14:137,决策树算法,ID3算法小结,ID3算法是一种经典的决策树学习算法，由Quinlan于1979年提出。ID3算法的基本思想是，以信息熵

27、为度量，用于决策树节点的属性选择，每次优先选取信息量最多的属性，亦即能使熵值变为最小的属性，以构造一颗熵值下降最快的决策树，到叶子节点处的熵值为0。此时，每个叶子节点对应的实例集中的实例属于同一类。,决策树算法,ID3算法实际应用-在电信行业应用实例（1）,通过ID3算法来实现客户流失的预警分析，找出客户流失的特征，以帮助电信公司有针对性地改善客户关系，避免客户流失利用决策树方法进行数据挖掘，一般有如下步骤：数据预处理、决策树挖掘操作，模式评估和应用。电信运营商的客户流失有三方面的含义：一是指客户从一个电信运营商转网到其他电信运营商，这是流失分析的重点。二是指客户月平均消费量降低，从高价值

28、客户成为低价值客户。三、指客户自然流失和被动流失。在客户流失分析中有两个核心变量：财务原因非财务原因、主动流失被动流失。客户流失可以相应分为四种类型：其中非财务原因主动流失的客户往往是高价值的客户。他们会正常支付服务费用，并容易对市场活动有所响应。这种客户是电信企业真正需要保住的客户。,决策树算法,ID3算法实际应用-在电信行业应用实例（2）,数据预处理数据挖掘的处理对象是大量的数据，这些数据一般存储在数据库系统中（该用户相关数据存储在其CRM中），是长期积累的结果。但往往不适合直接挖掘，需要做数据的预处理工作，一般包括数据的选择(选择相关的数据)、净化(消除冗余数据)、转换、归约等。数

29、据预处理工作准备是否充分，对于挖掘算法的效率乃至正确性都有关键性的影响。该公司经过多年的电脑化管理，已有大量的客户个人基本信息(文中简称为客户信息表)。在客户信息表中，有很多属性，如姓名用户号码、用户标识、用户身份证号码(转化为年龄)、在网时间（竣工时间）、地址、职业、用户类别、客户流失（用户状态）等等，数据准备时必须除掉表中一些不必要的属性，一般可采用面向属性的归纳等方法去掉不相关或弱相关属性。,决策树算法,ID3算法实际应用-在电信行业应用实例（3）,属性删除：将有大量不同取值且无概化操作符的属性或者可用其它属性来代替它的较高层概念的那些属性删除。比如客户信息表中的用户标识、身份证号码等

30、，它们的取值太多且无法在该取值域内找到概化操作符，应将其删除，得到表1。,决策树算法,ID3算法实际应用-在电信行业应用实例（4）,属性概化：用属性概化阈值控制技术沿属性概念分层上卷或下钻进行概化。文化程度分为3类：W1初中以下(含初中)，W2高中(含中专)，W3大学(专科、本科及以上)；职业类别：按工作性质来分共分3类：Z1一Z3；缴费方式：托收：T1,营业厅缴费：T2,充值卡：T3。连续型属性概化为区间值：表中年龄、费用变化率和在网时间为连续型数据，由于建立决策树时，用离散型数据进行处理速度最快，因此对连续型数据进行离散化处理，根据专家经验和实际计算信息增益，在“在网时长”属性中，通过检测

31、每个划分，得到在阈值为5年时信息增益最大，从而确定最好的划分是在5年处，则这个属性的范围就变为5：H1,H2。而在“年龄”属性中，信息增益有两个锋值，分别在40和50处，因而该属性的范围变为40-50即变为青年，中年，老年：N1,N2,N3；费用变化率：指（当月话费近3个月的平均话费）/近3个月的平均话费）0，F1:30%，F2：30%-99%, F3:100%变为F1,F2,F3。,决策树算法,ID3算法实际应用-在电信行业应用实例（5）,决策树算法,ID3算法实际应用-在电信行业应用实例（6）,在图中，NO表示客户不流失，YES表示客户流失。从图可以看出，客户费用变化率为100%的客户肯定

32、已经流失；而费用变化率低于30%的客户；即每月资费相对稳定的客户一般不会流失，费用变化率在30%99%的客户有可能流失，其中年龄在4050岁之间的客户流失的可能性非常大，而年龄低于40岁的客户，用充值卡缴费的客户和在网时间较短的客户容易流失；年龄较大的客户，则工人容易流失。,主要内容,决策树基本概念,决策树算法,决策树研究问题,主要参考文献,决策树研究问题,理想的决策树有三种： (1)叶子结点数最少； (2)叶子结点深度最小； (3)叶子结点数最少且叶子结点深度最小。然而，洪家荣等人已经证明了要找到这种最优的决策树是NP难题。因此，决策树优化的目的就是要找到尽可能趋向于最优的决策树。,关于过

33、渡拟合,上述的决策树算法增长树的每一个分支的深度，直到恰好能对训练样例比较完美地分类。实际应用中，当数据中有噪声或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时，该策略可能会遇到困难。在以上情况发生时，这个简单的算法产生的树会过渡拟合训练样例（过渡拟合：Over Fitting）.,决策树研究问题,关于过渡拟合,对于一个假设，当存在其它的假设对训练样例的拟合比它差，但事实上在实例的整个分布上（包含训练集合以外的实例）表现得却更好时，则称该假设过度拟合训练样例。过度拟合：给定一个假设空间H，一个假设hH，如果存在其它的假设h1 H ,使得在训练样例上h的错误率比h1小，但在整个实

34、例发布上h1的错误率比h小，则称假设h过度拟合训练数据过度拟合产生的原因：噪声，训练样例太小等,决策树研究问题,关于过渡拟合,对学习算法是否成功的真正测试是看它对于训练中未见到的数据的执行性能。训练过程应该包含训练样本和验证样本。验证样本用于测试训练后的性能。如果验证结果差，则需要考虑采用不同的结构重新进行训练，例如使用更大的样本集，或者改变从连续值到离散值得数据转换等。通常应该建立一个验证过程，在训练最终完成后用来检测训练结果的泛化能力。,决策树研究问题,关于过渡拟合,分类模型的误差,一般可以将分类模型的误差分为： 1、训练误差（Training Error）； 2、泛化误差（Gene

35、ralization Error）,决策树研究问题,关于过渡拟合,分类模型的误差,训练误差是在训练记录上误分类样本比例；泛化误差是模型在未知记录上的期望误差；一个好的模型不仅要能够很好地拟合训练数据，而且对未知样本也要能够准确地分类。一个好的分类模型必须具有低的训练误差和泛化误差。因为一个具有低训练误差的模型，其泛化误差可能比具有较高训练误差的模型高。（训练误差低，泛化误差高，称为过渡拟合）,决策树研究问题,关于过渡拟合,模型过渡拟合的潜在因素,（1）噪声导致的过渡拟合；错误的类别值/类标签，属性值等,（2）缺乏代表性样本所导致的过渡拟合根据少量训练记录作出的分类决策模型容易受过渡拟

36、合的影响。由于训练样本缺乏代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会导致过渡拟合。,决策树研究问题,关于过渡拟合,模型过渡拟合的潜在因素,哺乳动物分类的训练样例,体温,恒温,冷血,冬眠,N,Y,N,N,4条腿,Y,N,N,Y,哺乳动物分类的训练样例,按照训练模型。人和大象都不是哺乳动物。决策树作出这样的判断是因为只有一个训练样例具有这些特点（鹰，恒温，不冬眠）被划分为非哺乳动物。该例清楚表明，当决策树的叶节点没有足够的代表性时，可能会预测错误。,决策树研究问题,关于过渡拟合,解决过度拟合的手段： 1 及早停止树增长； 2 后修剪法。,决策树研究问题,关于过渡拟

37、合,1 及早停止树增长由于决策树学习要从候选集合众选择满足给定标准的最大化属性，并且不回溯，也就是我们常说的爬山策略，其选择往往会是局部最优而不是全局最优。树结构越复杂，则过渡拟合发生的可能性越大。因此，要选择简单的模型。 Occan法则（又称Occan剃刀 Occan Razor）:具有相同泛化误差的两个模型，较简单的模型比复杂的模型更可取。,决策树研究问题,关于过渡拟合,后修剪法（后剪枝法）在训练过程中允许对数据的过渡拟合，然后再对树进行修剪该方法称为后剪枝法。,决策树研究问题,关于过渡拟合,后修剪法（后剪枝法）例,A,B,负,C,正,正,负,Y,Y,Y,N,N,N,一棵通过训练集合学

38、好的决策树,决策树研究问题,关于过渡拟合,后修剪法（后剪枝法）例,A,B,负,C,正,正,负,Y,Y,Y,N,N,N,对以上的决策树通过右侧的验证集合进行测试，发现其有5个错分类。,决策树研究问题,关于过渡拟合,后修剪法（后剪枝法）例,A,B,负,C,正,正,负,Y,Y,Y,N,N,N,18，19，20,1，2，3，4 5，6，7，8,9，10，11，12,13，14，15，16，17,错分类5个，6，7，8，13，14,决策树研究问题,关于过渡拟合,后修剪法（后剪枝法）例,第1步将决策树规则化,规则1 IF A=Y AND B=Y THEN +规则2 IF A=Y AND B=N AND

39、C=Y THEN +规则3 IF A=Y AND B=N AND C=N THEN 规则4 IF A=N THEN -,A,B,负,C,正,正,负,Y,Y,Y,N,N,N,决策树研究问题,关于过渡拟合,后修剪法（后剪枝法）例,规则1 IF A=Y AND B=Y THEN +规则2 IF A=Y AND B=N AND C=Y THEN +规则3 IF A=Y AND B=N AND C=N THEN 规则4 IF A=N THEN -,第2步规则精度的计算,决策树研究问题,规则2与规则4精度为100%，保留,关于过渡拟合,后修剪法（后剪枝法）例,第3步对规则进行修剪,决策树研究问题,?,

40、关于过渡拟合,后修剪法（后剪枝法）例,第3步对规则进行修剪-最终规则集合为,规则1 IF A=Y AND B=Y THEN +规则2 IF A=Y AND B=N AND C=Y THEN +规则3 IF A=Y AND B=N AND C=N THEN 规则4 IF A=N THEN - 原始规则集合,规则1 IF A=Y THEN +规则2 IF A=Y AND B=N AND C=Y THEN +规则3 IF C=N THEN 规则4 IF A=N THEN - 最终规则集合,决策树研究问题,关于过渡拟合,后修剪法（后剪枝法）例,第4步根据精度和泛化能力对对规则进行排序,IF A=N

41、 THEN - 18，19，20 IF A=Y AND B=N AND C=Y THEN + 9,10,11,12 IF C=N THEN 6,7,8,13,14,15,16,17 IF A=Y THEN +1,2,3,4,5,尽管13，14仍然被错分，但整个模型的精度提高了,决策树研究问题,主要内容,决策树基本概念,决策树算法,决策树研究问题,主要参考文献,主要参考文献,几个数据,万方数据库中查询涉及决策树的学位论文；时间跨度是2005-2009；查询结果是245篇（硕士论文居多）按照以下三个领域分类：1 利用决策树解决实际问题；2 利用决策树与其它数据挖掘（机器学习）结合改进；3 有关决策

42、树的改进方法。,约150篇,约100篇,主要参考文献,几个数据,万方数据库中查询涉及决策树的期刊论文时间跨度是2005-2009；查询结果是982篇按照以下三个领域分类：1 利用决策树解决实际问题；2 利用决策树与其它数据挖掘（机器学习）结合改进；3 有关决策树的改进方法。,约600篇,约400篇,非计算机领域占相当部分计算机领域的主要期刊没有一篇,以研究与发展为例，前100篇中有4篇初略估计1000篇中有40篇，平均每年8篇，该期刊每年发表文章360篇，占比8/360=2.2%.研究与发展录用率约8-10%。可以初略推算出每年收到的关于决策树方面的论文约80-100篇,主要参考文献,几个数据,以上几个关于决策树的数据也许能够表明，尽管决策树非常古老，但目前仍然有相当部分的研究人员和研究项目和工程项目。仍然是硕士研究生可以加以研究的主要方向。另外，通过对这些数据的分析，我也想告诉大家，数据是非常宝贵的。特别是学校科研项目多数是研究项目，对海量数据集合的获得非常不容易。而目前数据挖掘研究和应用往往和大数据集合有关。像网络日志、万方数据、国外数据挖掘通用数据集合（一般都比较小）等都是我们可以利用的数据集合。,