Clementine第四讲.ppt
《Clementine第四讲.ppt》由会员分享,可在线阅读,更多相关《Clementine第四讲.ppt(44页珍藏版)》请在三一办公上搜索。
1、分类预测:决策树(一),主要内容,决策树算法概述从学习角度看,决策树属有指导学习算法目标:用于分类和回归C5.0算法及应用分类回归树及应用模型的对比分析,决策树算法概述:基本概念,得名其分析结论的展示方式类似一棵倒置的树,根节点叶节点中间节点2叉树和多叉树,决策树算法概述:特点,体现了对样本数据的不断分组过程决策树分为分类树和回归树体现了输入变量和输出变量取值的逻辑关系逻辑比较形式表述的是一种推理规则每个叶节点都对应一条推理规则对新数据对象的分类预测,决策树算法概述:几何理解,决策树建立的过程就是决策树各个分枝依次形成的过程决策树的每个分枝在一定规则下完成对n维特征空间的区域划分决策树建立好后
2、,n维特征空间会被划分成若干个小的边界平行或垂直于坐标轴的矩形区域,确定每一步特征空间划分标准时,都同时兼顾由此将形成的两个区域,希望划分形成的两个区域所包含的样本点尽可能同时“纯正”,决策树算法概述:核心问题,第一,决策树的生长利用训练样本集完成决策树的建立过程第二,决策树的剪枝利用测试样本集对所形成的决策树进行精简,决策树算法概述:树生长,决策树的生长是对训练样本集的不断分组,分枝准则的确定涉及:第一,如何从众多的输入变量中选择一个当前最佳的分组变量第二,如何从分组变量的众多取值中找到一个最佳的分割点,决策树算法概述:树剪枝,树剪枝的原因:完整的决策树对训练样本特征的捕捉“过于精确”-过拟
3、和(Overfitting)常用的修剪技术:预修剪(pre-pruning):用来限制决策树的充分生长。策略:事先指定决策树生长的最大深度事先指定树节点样本量的最小值后修剪(post-pruning):待决策树充分生长完毕后再进行剪枝,决策树算法概述:树剪枝,后修剪:待决策树生长完毕,根据一定规则,剪去不具一般代表性的子树。策略:,事先指定允许的最大误差值通常依据测试样本集剪枝,C5.0算法,C5.0是在ID3(J R Quinlan,1979)基础上发展起来。C5.0是C4.5算法的商业化版本特点:C5.0用于建立多叉分类树输入变量是分类型或数值型,输出变量应为分类型以信息增益率确定最佳分组
4、变量和分割点,C5.0算法:熵,信息熵是信息论(C.E.Shannon,1948)中的基本概念。信息论主要用于解决信息传递过程中的问题,也称统计通信理论信息论的基本出发点认为:信息传递通过由信源、信道和信宿组成的传递系统实现,C5.0算法:熵,信息论的基本出发点认为:传递系统存在于一个随机干扰环境之中将发送的信息记为U,接收的信息记为V,那么信道可看作为信道模型,记为P(U|V),C5.0算法:熵,信道模型是一个条件概率矩阵P(U|V),称为信道传输概率矩阵P(ui|vj)是信宿收到vj而信源发出ui的概率,且信源也同样被看做是某种随机过程,有:,C5.0算法:熵,例如:二元信道模型,C5.0
5、算法:熵,先验不确定性:通信发生前,信宿对信源的状态具有不确定性后验不确定性:通信发生后,信宿收到发自信源的信息,先验不确定性部分被消除,信宿对信源仍有一定程度的不确定性后验不确定性等于先验不确定性,表示信宿没有收到信息;后验不确定性等于零,表示信宿收到了全部信息信息是用来消除随机不确定性的,信息量的大小可由所消除的不确定性大小来计量,C5.0算法:熵,信息量的数学定义:信息熵是信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的数学定义:信息熵等于0,表示只存在唯一的信息发送可能,P(ui)=1,没有发送的不确定性;如果信源的k个信号有相同的发送概率,P(ui)=1/k,则
6、信息发送的不确定性最大,信息熵达到最大P(ui)差别小,信息熵大,平均不确定性大;反之,C5.0算法:信息增益,已知信号U的概率分布P(U)且收到信号V=vj,发出信号的概率分布为P(U|vj),信源的平均不确定性:称为后验熵。后验熵的期望(条件熵或信道疑义度):信息增益信息消除随机不确定性的程度,C5.0:生长算法,如何从众多输入变量中选择一个最佳分组变量:C5.0以信息增益率为标准。例如:决策树建立之前:,决策树建立过程中,考察输入变量,如T1:,问题:类别值多的输入变量比类别值少的输入变量有更多的机会成为当前最佳分组变量,信息增益率:如何评价数值型输入变量消除平均不确定性的能力首先分箱:
7、Clementine的C5.0节点包含了MDLP分箱算法然后再根据上述方法判定,C5.0:生长算法,如何从分组变量的众多取值中找到最佳分割点默认策略:对分类型分组变量:有k个类别,将样本分成k组,形成树的k个分支对数值型分组变量:以MDLP分箱所得的最小组限值为界,将小于组限的样本划为一组,大于的划为另一组,形成两个分叉其他策略:ChiMerge分箱法,合并分组变量的多个类别后再分支,C5.0:生长算法,ChiMerge分箱:有指导的分箱方法,基本思路:将输入变量按变量值升序排序定义初始区间,将输入变量值分成若干组,C5.0:生长算法,ChiMerge分箱基本思路:计算输入变量相邻两组与输出变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Clementine 第四

链接地址:https://www.31ppt.com/p-5421888.html