数据仓库与数据挖掘技术第6章1决策树.ppt
《数据仓库与数据挖掘技术第6章1决策树.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术第6章1决策树.ppt(36页珍藏版)》请在三一办公上搜索。
1、1,第六章 数据挖掘的基本算法,主要内容分类规则挖掘的基本思想是什么?预测分析与趋势分析规则的基本思想是什么?关联算法的基本思想是什么?聚类算法的基本思想是什么?统计分析算法的基本思想是什么?品种优化算法的基本思想是什么?数据挖掘的进化算法的基本思想是什么?,2,1.分类规则挖掘的基本思想是什么?,3,分类(classification),分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。主要目的是分析输入数据,通过在训练集中的数据表现出来的特性,为每一类找到一种准确的描述或模型。,4,分类(classification)
2、,分类问题是数据挖掘领域中研究和应用最为广泛的技术之一分类问题在商业、银行业、医疗诊断、生物学、文本挖掘和因特网筛选等领域都有广泛应用。银行业,可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减少银行的损失;医疗诊断,可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;因特网筛选,可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。,5,数据分类的基本步骤(参见P126127),数据分类过程主要包含两个步骤 学习建模 分类测试,6,数据分类步骤一:学习建模,建立一个描述已知数
3、据集类别或概念的模型;该模型是通过对数据库中各数据行内容的分析而获得的。每一数据行都可认为是属于一个确定的数据类别,其类别值是由一个属性描述(被称为类别标记属性)。(分类问题数据集的表示)分类学习方法所使用的数据集称为训练样本集合,因此分类学习又可称为监督学习(learning by example),它是在已知训练样本类别情况下,通过学习建立相应模型;而无教师监督学习则是训练样本的类别与类别个数均未知的情况下进行的。通常分类学习所获得的模型可以表示为分类规则形式、决策树形式,或数学公式形式。,7,学习建模举例,例如:给定一个顾客信用信息数据库,通过学习所获得的分类规则可用于识别顾客是否是具有
4、良好的信用等级或一般的信用等级。,利用训练数据集学习并获得分类规则知识(模型),8,数据分类步骤二:分类测试,就是利用所获得的模型进行分类操作 首先对模型分类准确率进行估计,holdout方法就是一种简单的估计方法。它利用一组带用类别的样本进行分类测试(测试样本随机获得且与训练样本相互独立)。对于一个给定数据集所构造出模型的准确性可以通过由该模型所正确分类的(测试)数据样本个数所占总测试样本比例得到。对于每一个测试样本,其已知的类别与学习所获模型的预测类别进行相比较。若模型的准确率是通过对学习数据集的测试所获得的,这样由于学习模型倾向于过分逼近训练数据,从而造成对模型测试准确率的估计过于乐观。
5、因此需要使用一个测试数据集来对学习所获模型的准确率进行测试工作。,9,分类测试举例,利用学习获得的分类规则(模型),对已知测试数据进行模型准确率的评估,以及对未知(类别)的新顾客(类别)进行分类预测。,10,分类问题中使用的数据集是用什么形式来表示的呢?,分类问题的示例数据集,描述属性,类别属性,11,可以将分类问题中使用的数据集表示为X=(xi,yi)|i=1,2,total其中数据样本xi(i=1,2,total)用d维特征向量xi=(xi1,xi2,xid)来表示,xi1,xi2,xid分别对应d个描述属性A1,A2,Ad的具体取值;yi表示数据样本xi的类标号。假设给定数据集包含m个类
6、别,则yic1,c2,cm,其中c1,c2,cm是类别属性c的具体取值,也称为类标号,对于未知类标号的数据样本x,用d维特征向量x=(x1,x2,xd)来表示。,12,应用举例一,现有一个顾客邮件地址数据库。利用这些邮件地址可以给潜在顾客发送用于促销的新商品宣传册和将要开始的商品打折信息。该数据库内容就是有关顾客情况的描述,包括年龄、收入、职业和信用等级等属性描述,顾客被分类为是否会成为在本商场购买商品的顾客。当新顾客的信息被加入到数据库中时,就需要对该顾客是否会成为电脑买家进行分类识别(即对顾客购买倾向进行分类),以决定是否给该顾客发送相应商品的宣传册。考虑到不加区分地给每名顾客都发送这类促
7、销宣传册显然是一种很大浪费,而相比之下,有针对性给最大的购买可能的顾客发送其所需要的商品广告才是一种高效节俭的市场营销策略。显然为满足这种应用需求就需要建立顾客(购买倾向)分类规则模型,以帮助商家准确判别之后每个新加入顾客的可能购买倾向。此外若需要对顾客在一年内可能会在商场购买商品的次数(为有序值)进行预测时,就需要建立预测模型以帮助准确获取每个新顾客在本商店可能进行的购买次数。,13,应用举例二,客户跳槽数据集(P127表6.1),14,估值,与分类的区别与分类的描述的是离散型变量的输出不同,估值处理的是连续值的输出。分类的类别是确定的数目,估值的量是不确定的如:根据购买模式,估计一个家庭的
8、收入与分类的联系估值可作为分类的前一步工作即通过估值,得到未知的连续变量的值,然后根据预先设定的阈值,进行分类例如,银行处理家庭贷款业务,先运用估值给各个客户记分,然后根据阈值,将贷款级别分类。,15,最为典型的分类方法决策树(参见P128),所谓决策树,就是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表测试的每个结果;而树的每个叶结点就代表一个类别。树的最高层结点就是根结点。,决策树有两种结点:决策结点(引出若干树枝,每个树枝代表一个决策方案,每个方案树枝连接到一个新的结点)状态结点(对应着叶结点,表示一个具体的最终状态),优点:可理解性和直观性(结
9、构简单、效率高)难点:如何选择一个好的分支方法进行取值,16,决策树分类算法,决策树分类过程,17,决策树举例,C1,C2,C2,C2,C1,18,决策树的构造,决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则;采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,而叶节点是要学习划分的类。从根节点到叶节点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。目前已有多种决策树算法:CLS、ID3、CHAID、C4.5、CART、SLIQ、SPRINT等。著名的ID3(Iterative
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 技术 决策树
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6364916.html