毕业设计论文数据挖掘决策树算法的研究与改进.doc
《毕业设计论文数据挖掘决策树算法的研究与改进.doc》由会员分享,可在线阅读,更多相关《毕业设计论文数据挖掘决策树算法的研究与改进.doc(32页珍藏版)》请在三一办公上搜索。
1、海南师范大学本科毕业论文海 南 师 范 大 学 本科生毕业论文(设计)题目:决策树算法的研究与改进姓 名: 学 号: 专 业: 计算机科学与技术 年 级: 05专升本 系 别: 计算机科学与教育技术 完成日期: 2007年5月20日 指导教师: 29本科生毕业论文(设计)独创性声明 本人声明所呈交的毕业论文(设计)是本人在导师指导下进行的研究工作及取得的研究成果,除了文中特别加以标注和致谢的地方外,本论文中没有抄袭他人研究成果和伪造数据等行为 。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。论文(设计)作者签名: 日期:2007年5月21日本科生毕业论文(设计)
2、使用授权声明海南师范大学有权保留并向国家有关部门或机构送交毕业论文(设计)的复印件和磁盘,允许毕业论文(设计)被查阅和借阅。本人授权海南师范大学可以将本毕业论文(设计)的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复印手段保存、汇编毕业论文(设计)。论文(设计)作者签名: 日期:2007年5月21日指 导 教 师 签 名: 日期: 目录1.引言12.决策树算法的研究22.1.基本定义22.1.1.归纳学习的基本概念22.1.2.信息论的基本概念22.1.3.决策树的基本概念32.2.几种常见的决策树算法的简单介绍42.2.1.ID3 算法42.2.2.C4.5算法简介112.
3、2.3.遗传算法GA(Genetic Algorithm)122.3.决策树的评价标准1132.4.决策树的进展与发展方向152.4.1.数据挖掘中决策树算法的主要进展152.4.2.决策树技术面临的挑战及目前研究方向153.关于决策树算法的改进153.1.基于样本离散度6的特征选择方法163.1.1.基本概念163.1.2.基于离散度的改进算法173.1.3.分析与比较183.1.4.小结183.2.利用条件概率的思想来改进决策树算法183.2.1.算法的理论基础与基本思想193.2.2.举例分析193.2.3.分析与比较273.2.4.小结274.总结285.结束语286.致谢28参考文献
4、29挖掘决策树算法的研究与改进作者: 指导老师:(海南师范大学,海口,571158)摘 要:在大量信息展现给人们的时候,“知识爆炸”给人们带来了极大的困扰,如何有效的利用数据成为人们事业成败的关键。本论文主要对决策树的常见算法做初步的研究与探讨,并给出决策树的评价标准。并在此基础上利用最新的决策树算法思想由本人设计实例集验证相关文献中笔者的思想,最后提出自己一点意见和看法。关键词:数据挖掘;决策树;研究;改进 The Research and Improvement Of Data Mining decision-making tree algorithm Author: Tutor: (Ha
5、inan Normal University,HaiKou,571158)Abstract: Nowadays there are so much information tounfold in the people at present, which causes our eyes taking out all in, the knowledge explosion has brought the enormous puzzle to the people, how does the effective use data become the people enterprise succes
6、s or failure the key. This paper mainly discussed the preliminary research and the discussion to the policy-making trees common algorithm, and produces the policy-making trees evaluation criteria, as well as to policy-making tree future discussion. Using the newest policy-making algorithm thought in
7、 this foundation to design in the example collection confirmation correlation literature after myself authors thought, finally proposes a Propose his viewpoint and the view.Key words: Data Mining; decision-making tree; Research; Improvement1.引言随着现代信息技术的飞速发展,在全球范围内掀起了信息化(Information)浪潮。信息产生的渠道多而且宽广,更
8、新的频率日益加快,各行业均产生了大量的信息。面对大量多的数据,人们往往无法找到自己所需要的知识或信息,这就是所谓“信息爆炸3”(Information detonation)以及它给人们带来的困惑。如何有效地利用和处理大量的信息成为当今世界共同关心的问题。随着数据库技术(Database technology)、人工智能(Artificial intelligence)、数理统计(Mathematical statistic)和并行计算(Parallel computation)等技术的发展与融合,数据挖掘(data mining,DM)技术应运而生。自数据挖掘技术诞生以来,关于数据挖掘技术的
9、研究也就开始了。数据挖掘是一门新兴的交叉学科,自提出以来,引起了众多专家学者的广泛关注,数据开采(Data mining)、数据采掘(Data excavation)、知识发现(Knowledge discovery)和信息抽取(Information extracts)等许多同义词相继出现。目前,普遍采用的主要有数据挖掘(DM)和数据库中的知识发现(Knowledge Discovery in Database,简称KDD)。数据挖掘有广义和狭义之分,广义的数据挖掘,指从大量的数据中发现隐藏的、内在的和有用的知识或信息的过程。狭义的数据挖掘是指知识发现中的一个关键步骤,是一个抽取有用模式或建
10、立模型的重要环节。数据挖掘是在对数据实例集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据从感性认识到理性认识的升华2。如今有多种数据挖掘技术方法,可以分为两大类。决策树就是其中的一种,决策树主要是基于数据的属性值进行归纳分类,常用于分类的层次方法有“if-then1”规则。决策树方法的最大优点就是可理解性,比较直观。它与神经网络(另外一种数据挖掘技术方法)最大的区别是,决策树可以解释如何得出结果的决策过程。其缺点是处理复杂性的数据时,分支数目非常多,管理难度大。同时,还存在数据的“缺值”处理问题。其经典算法有ID3、C4.5、CART、CHAID、SLIQ和SPRINT等
11、。本论文主要对决策树的常见算法(ID3算法、C4.5算法)做初步的研究与探讨,(由于遗传算法与决策树的构造类型相似,这里也有涉及。)并给出决策树的评价标准以及决策树的发展现状和以后的发展方向。并在此基础上利用最新的决策树算法思想由本人设计实例集验证相关文献中笔者的思想,最后提出自己一点意见和看法。2.决策树算法的研究2.1.基本定义2.1.1.归纳学习的基本概念归纳学习(induction Learning) 是符号学习中研究最为广泛的一种方法。给定关于某个概念的一系列已知的正例和反例,从中归纳出一个通用的概念描述。归纳学习能够获得新的概念,创立新的规则,发现新的理论。它的一般操作是泛化(ge
12、neralization)和特化(specialization)。泛化用来扩展一假设的语义信息,以使其能够包含更多的正例,应用于更多的情况。特化是泛化的相反操作,用于限制概念描述的应用范围。2.1.2.信息论的基本概念信息论在决策树学习中有着重要的意义,1948年Shannon1提出并发展了信息论,研究以数学的方法度量并研究信息。通过通信后对信源中各种符号出现的不确定程度的消除来度量信息量的大小。他提出了一系列概念:(1)自信息量。在收到之前,收信者对信源发出的不确定性定义为信息符号的自信息量。即,其中为信源发出的概率。(2)信息熵。自信息量只能反映符号的不确定性,而信息熵可以用来度量信源X整
13、体的不确定性,定义如下: H(X)=p()I()+P()I()+P()I() = -其中r为信源X所有可能的符号数,即用信源每发一个符号所提供的平均自信息量来定义信息熵。(3)条件熵。如果信源X与随机变量Y不是相互独立的,收信者收到信息Y。那么,用条件熵H(X/Y)来度量收信者在收到随机变量Y之后,对随机变量X仍然存在的不确定性。设X对应信源符号,Y对应信源符号,为当Y为时X为的概率,则有: H(X/Y)= -(4)平均互信息量。用它来表示信号Y所能提供的关于X的信息良的大小,用I(X,Y)表示: H(X,Y)= H(X)-H(X/Y)信息论的这些基本概念,对决策树来说是非常重要的,是决策树算
14、法的设计与实现基础。2.1.3.决策树的基本概念决策树是定义布尔函数的一种方法,其输入是一组属性描述的对象,输出为yes/ no 决策。它代表一个假设,可以写成逻辑公式。其表达能力限于命题逻辑,该对象的任一个属性的任一次测试均是一个命题。在命题逻辑范围内,决策树的表达能力是完全的。一棵决策树可以代表一个决定训练实例集分类的决策过程,树的每个结点对应于一个属性名或一个特定的测试,该测试在此结点根据测试的可能结果对训练实例集进行划分。划分出的每个部分都对应于相应训练实例集子空间的一个分类子问题,该分类子问题可以由一棵决策树来解决。因此,一棵决策树可以看作是个对目标分类的划分和获取策略。一棵决策树的
15、内部结点是属性或属性的集合(又称测试属性),叶结点是所要学习划分的类。根据决策树各种不同的属性,可分为以下几种:(1)决策树的内结点的测试属性可能是单变量的,即每个内结点只包含一个属性。也可能是多变量的。(2)根据测试属性的不同属性值的个数,可能使得每个内结点有两个或多个分支。如果每个内结点只有两个分支则称之为二叉决策树。(3)每个属性可能是值类型,也可能是枚举类型。(4)分类结果既可能是两类有可能是多类,如果只有两类则称为布尔决策树。因为决策树有不同的等价表示形式,所以会有不同的算法来实现与决策树学习相同的功能。例如:ID3、C4.5、CART、CHAID、SLIQ和SPRINT等等。2.2
16、.几种常见的决策树算法的简单介绍2.2.1.ID3 算法2.2.1.1.ID3 算法简介上面讲到决策树学习是一种归纳学习方法,这里介绍决策树学习的核心算法ID3 算法,ID3 算法是在所有可能的决策树空间中一种自顶向下、贪婪的搜索方法。ID3 算法的关键是确定属性表As中可对训练实例集Es进行的最佳分类的属性A ,即在树的每一个节点上确定一个候选属性,它的测试对训练例的分类最有利。ID3搜索的假设空间是可能的决策树的集合,而ID3搜索目的是构造与训练数据一致的一棵决策树。ID3的搜索策略是爬山法,在构造决策树时从简单到复杂,用信息赢取作为指导爬山法的评价函数。ID3是基于信息熵的决策树分类算法
17、。自从Quinlan描述和分析了ID3算法以来, 有大量的学者围绕该算法作了十分广泛的研究。该算法是根据属性集的取值选择实例的类别。它的核心是在决策树中各级结点上选择属性,用信息增益率作为属性选择标准,使得在每一非叶结点进行测试时,能获得关于被测试例子最大的类别信息。使用该属性将例子集分成子集后,系统的熵值最小,期望该非叶结点到达各后代叶节点的平均路径最短,使生成的决策树平均深度较小,提高分类速度和准确率。ID3 的基本原理如下:设E = F1 F2 Fn 是n 维有穷向量空间,其中是有穷离散符号集, E中的元素e = 叫做例子,其中, j = 1 ,2 , , n。设PE 和NE 是E 的F
18、 两个例子集,分别叫正例集和反例集。假设向量空间E中的正例集PE和反例集NE 的大小分别为p和n ,ID3基于下列两个假设: (1)在向量空间E 上的一棵正确决策树,对任意例子的分类概率同E 中的正、反例的概率一致;(2)一棵决策树能对一例子做出正确类别判断所需的信息量为:I(p,n)=如果以属性A作为决策树的根, A具有v个值(,) ,它将E分为v个子集(, ) ,假设中含有Pi个正例和个反例,子集的信息熵为I(Pi,) ,以属性A为根分类后的信息熵为:因此,以A 为根的信息增益是Gain (A) = I (p,n) - E(A) 。ID3 选择使Gain (A) 最大(即E(A) 最小)的
19、属性作为根结点。对的不同的取值对应的E 的v个子集递归调用上述过程,生成的子结点,, 。ID3 的基本原理是基于两类分类问题,但很容易扩展到多类。设样本集S 共有C类样本,每类样本数为pi ,( i = 1 ,2 ,3 , c) 。若以属性A 作为决策树的根, A 具有V 个值, ,它将E 分成V 个子集, ,假设中含有j类样本的个数为,j = 1,2,c那么,子集的信息量是I()。 以A 为根分类的信息熵为: 选择属性使E( A) 最小,信息增益也将增大。理想的决策树分成3种: (1)叶节点数最小, (2)叶节点深度最小; (3)叶节点数量最少且叶子结点深度最小。决策树的好坏,不仅影响分类的
20、效率,而且还影响分类的准确率。因而许多学者致力于寻找更优的启发式函数和评价函数,洪家荣、Pei - Lei Tu等人分别证明了要找到这种最优的决策树是NP难题。因此人们为了寻求较优的解,不得不寻求各种启发式的方法。有的采用基于属性相关性的启发式函数;有的对生成的决策树进行剪枝处理;有的则扩充决策树,形成决策图。如今普遍采用的是优化算法,基本思想:首先用ID3选择属性F1,建立树T1,左、右子树的属性分别为F2,F3,再以F2,F3为根,重建树T2,T3;较T1,T2,T3的结点个数,选择结点最少的树。对于选择定树的儿子结点采用同样的方法递归建树。尽管作者用一个实验证明能建立理想的决策树,但算法
21、有较大的弱点:时间开销太大,因为每选择一个新的属性,算法都需要建立3 棵决策树,从中选优。2.2.1.2.ID3 算法实例例子一:这里我们通过考察不同的人群购买手机的状况为例,来展示ID3 算法的实际流程。此例假定要按是否买手机对一个集合进行分类,该集合中用来描述人群的属性有age、income、student和credit-rating。age的取值为youth、Middle-aged、old;Income的取值为high、medium和low;student的取值为no和yes;credit-rating的取值为fair和excellent。例子集中共有14个人,如表1 所示。在类别一栏,
22、将正例即“买手机”的人用“Y”标出,反例即“不买手机”的人用“N”标出。表1IDageincomestudentCredit-ratingClass1youthhighnofairN2youthhighnoexcellentN3Middle-agedhighnofairY4oldmediumnofairY5oldlowyesfairY6oldlowyesexcellentN7Middle-agedlowyesexcellentY8youthmediumnofairN9youthlowyesfairY10oldmediumyesfairY11youthmediumyesexcellentY12M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 数据 挖掘 决策树 算法 研究 改进

链接地址:https://www.31ppt.com/p-4858896.html