[文学]周志明论文最终版1.doc
《[文学]周志明论文最终版1.doc》由会员分享,可在线阅读,更多相关《[文学]周志明论文最终版1.doc(31页珍藏版)》请在三一办公上搜索。
1、毕业设计(论文)题 目决策树模型在客户分类中的应用 系 (院)经济与管理系专 业信息管理与信息系统班 级2008级1班学生姓名周志明学 号2008060142指导教师王连英职 称讲师二一三年六月、独 创 声 明本人郑重声明:所呈交的毕业设计(论文),是本人在指导老师的指导下,独立进行研究工作所取得的成果,成果不存在知识产权争议。尽我所知,除文中已经注明引用的内容外,本设计(论文)不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。本声明的法律后果由本人承担。 作者签名: 年 月 日毕业设计(论文)使用授权声明本人完全了解滨州学院关于收
2、集、保存、使用毕业设计(论文)的规定。本人愿意按照学校要求提交学位论文的印刷本和电子版,同意学校保存学位论文的印刷本和电子版,或采用影印、数字化或其它复制手段保存设计(论文);同意学校在不以营利为目的的前提下,建立目录检索与阅览服务系统,公布设计(论文)的部分或全部内容,允许他人依法合理使用。(保密论文在解密后遵守此规定)作者签名: 年 月 日滨州学院本科毕业设计(论文)决策树模型在客户分类中的应用摘 要数据挖掘技术,尤其是决策树模型分类方法,在对企业客户资源进行客户分类时具有重要作用和意义。本文介绍了数据挖掘及决策树的具体表述定义,详细阐述了决策树的核心算法ID3算法,同时对于ID3算法在实
3、际应用中所带来的误差和取值偏向问题进行了优化,并提出了优化算法。该算法在选取分支属性时,选取了信息增益度最大的属性,取代了ID3算法所依据的信息增益的标准。另外,在对数值连续型的数据进行离散化时,本文用分类准确率代替了原来的信息增益,简化了计算过程。并且利用ID3算法及改进的算法应用到山东领先生物工程公司的客户资源,建立了决策树分类模型,对客户进行了分类。为该领域的数据挖掘提供了合理的挖掘模式,并得出有效的分析结论。关键词:数据挖掘;决策树;客户分类;信息增益度25The Application of the Decision Tree Model in Customer Classifica
4、tionAbstractThe data mining technology, especially the classification method of decision tree model, plays an important and significant role in customer classification of enterprises customer resources. This paper introduces the data mining and decision trees specific definition of expression and ex
5、pounds the decision tree algorithm of the ID3 algorithm. This paper also puts forward the optimization algorithm for the problem of the value approach of ID3 algorithm and the errors caused by ID3 algorithm in the actual application to improve ID3 algorithm. The optimization algorithm is proposed to
6、 select the information gains biggest attribute as a branch of attribute to replace the ID3 algorithm of the information gain standards. In addition, this article replaces the original information gain with the classification accuracy when splitting the binary data making the calculation greatly sim
7、plified. And we apply ID3 algorithm and optimization algorithm to a customer resources management of Ling Xian Biotechnology Company in Shan Dong province which is based on decision tree classification model and provide the reasonable mining mode and the effective analysis conclusion in the field of
8、 data mining.Key words: Data Mining; Decision Tree; Customer Classification; Information Gain Degree目 录引言1第一章 数据挖掘及决策树方法21.1数据挖掘介绍21.2 决策树方法介绍(特点)2第二章 ID3核心算法42.1 ID3核心算法介绍42.2 ID3核心算法基本思想4第三章 客户分类问题分析63.1系统需求分析63.2 客户分类问题定义63.3 客户分类过程整体框架73.4 数据处理8第四章 决策树模型的建立114.1 算法流程114.2 构建决策树124.2.1 决策树生成124.2
9、.2 结果分析194.3.1构建改进决策树过程204.3.2 改进后结果分析23总结24参考文献25谢辞26滨州学院本科毕业设计(论文)引 言随着各种现代化技术、手段、管理方式的推进和发展,中国的经济形态由稀缺性经济逐渐过渡到过剩型经济,这种过剩主要表现在两个方面:一方面,各公司、企业生产的产品之间的差异越来越小、越来越难以区分;另一方面,从卖方市场向买方市场的转变导致客户的消费所期望得到的期望值也越来越高。所以,企业想通过产品差异来细分市场从而提高企业的竞争优势的方式变得越来越困难。而且因为客户与企业之间的沟通的方式发生的变化,我们不能保证现在自己的客户将来依旧是自己的客户,故通过维持所有客
10、户的忠诚度也变得不太现实。如何在海量的客户中分出关键客户、普通客户、垃圾客户并发现那些忠诚度可能发生的客户变得异常重要。因此,研究客户的所需所求和并对客户进行分类。数据挖掘技术,特别是决策树模型分类方法,对客户的分类具有重要作用和意义。生物技术及医药行业的迅速发展,国内外经营环境的复杂多变,使得这一行业带来的用户增多。随之而来是客户数据的迅猛增长,如何从如此众多的数据中挖掘出极具价值潜在的、重要的信息,如何提高信息的高效利用率成为企业亟待解决的问题。在生物技术及医药行业,客户流失一直在影响着业绩,通过与客户建立长久稳固的关系,最大限度的降低客户流失率,从而为企业获得最多的利润。要达到这一目的,
11、就必须对客户在与企业交互的过程中的各种客户数据进行收集、分析、分类,挖掘出隐含在数据里的有用信息,从而提高效益。文中研究并实现ID3算法,通过对生物技术及医药行业的客户数据进行收集、分析,利用决策树ID3算法构造决策树客户分类模型,为该领域的数据挖掘提供了合理的挖掘模式,并得出有效的分析结论,为保留和巩固企业的客户资源起到重要作用。第一章 数据挖掘及决策树方法1.1数据挖掘介绍从20世纪90年代以来,随着网络信息技术和数据存储技术的迅速发展,出现了一种全新的技术,数据挖掘。数据挖掘,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取非平凡的、隐含的、未知的以及具有潜在价值的信息和知识
12、的过程。它是一种数据分析的方法,它对给定的数据样本集进行分析,提取当前数据集中的规则或特征知识以得到预测性的信息。它是从数据中发现隐含着的有用的信息或者是知识的技术,它是随着社会的信息化的推进,发展和提高信息的潜在价值的认识而存在,是为满足和解决当前的“数据繁多、信息不足”等问题的技术。该技术已经广泛的应用于营销、通信、医务以及保险等许多领域,在分析客户行为以及决策支持系统等方面取得很大的成就。随着客户关系理论迅速发展和广泛应用,数据挖掘技术所带来的经济效益以及广阔的应用前景受到企业的越来越多的关注。人工智能中含有许多进行数据挖掘的算法,因此人工智能是数据挖掘技术进行数据挖掘的技术基础,在一定
13、意义上,数据挖掘是人工智能的某一分支的具体应用,是决策树模型、神经网络等技术在某一领域中具体的应用,其优点是将问题的难度和规模最大限度的降低。其主要用途有:数据总结、概念描述、分类、聚类、相关性分析、偏差分析、预测。而分类是数据挖掘中应用最广泛的用途之一,因此研究分类方法成为现在研究的重点,决策树分类因为其诸多的优点,成为了研究分类问题的重要途径和方式。1.2决策树方法介绍(特点)分类作为数据挖掘中一项应用最广泛的应用,其目的是提出一个分类模型,该分类模型能把数据库中数据项映射到给定类别中的某一个。通过该模型,能够对给定的数据进行分类,从而提取重要数据,能够为各个行业的发展带来很大的帮助。现今
14、已有的分类技术很多,有决策树法、贝叶斯法、神经网络方法、遗传算法。分类和回归最基本应用是预测。预测的目的是从历史的数据记录中推导推广的数据,从而进行对未来的预测。分类和回归方法最大的不同是:回归输出的数据是连续的,而分类输出的数据是离散的。分类技术作为数据挖掘中一个十分重要的课题,因此得到非常的重视。通过文章对各种分类方法比较、分析,决策树模型分类方法显示与以上三种算法诸多优点如下:第一,决策树法有非常高的准确率。第二,大量的训练集通过决策树显示的效率高,而神经网络方法模型的建立花费需要大量的时间,需进行非常多的重复操作;第三,决策树法生成算法不需要训练附加该领域知识的分布情况,只需要训练集中
15、包含的信息;第四,与贝叶斯法和神经网络方法对比而言,决策树法表现为比较直观的一语转化为数据库查询的描述。决策树技术以简便受到企业欢迎,其分类算法中决策树的核心算法ID3算法,通过该算法建立决策树模型。作为一种分类技术,决策树的构建过程以及利用树进行分类,都非常简单、易于解释,因此广受企业的欢迎和重视,但其主要缺点是稳定性不足。第二章 ID3核心算法2.1ID3核心算法介绍决策树ID3算法因为其基础理论明晰,算法简单,能解决大规模的学习问题并且学习能力较强,是一个具有实际价值的算法,它也是数据挖掘领域中的一个很好的范例,因此值得我们学习。然而它也有其不足之处,其中主要表现为以下四个方面:第一,I
16、D3算法倾向于选择取值多的属性,但是取值较多的属性并不代表最重要的属性,而在很多情况下这一条件成立。例如:在银行客户分析中,姓名属性取值多,却不能从中得到任何信息;第二,ID3算法不能处理两种属性类型的数据,一是具有缺失数据的,二是具有连续值的;第三,在建造决策树过程中,由于每个结点有且仅有一个属性,其弊端是:生成的决策树结点间的相关性弱;第四,ID3算法计算过程比较复杂,在解决问题过程中机器内存占用率大,耗费资源多。本课题一方面,针对ID3算法所存在易倾向选择属性多的不足,提出了一种新的优化算法,并且还引入属性个数N作为取值数,在某种程度上克服了这一缺陷,得到了较为理想的决策树。另一方面,在
17、对数值连续型数据进行离散化进程中,用分类准确率法替代了原来的信息增益,大大简化了计算。此模型在解决企业中客户分类具有有效作用,为该领域的数据挖掘提供了合理的挖掘模式,并得出有效的分析结论,为保留和巩固企业的客户资源起到重要作用。2.2ID3核心算法基本思想ID3算法是由R.Quinlan于1986年提出的,它是以信息熵的决策树算法作为基本依据,基于属性的取值范围来进行所选实例的类别判断。其基本原理是:设H=FFF是n维有穷向量空间,其中F是有穷离散符号集,H中的元素e=叫做例子,其中vF,j=1,2,n;设PE和NE是E的两个例子集,分别叫做正例集和反例集。若设向量空间H中的正例集P和反例集N
18、的大小分别为p和n,ID3算法成立必须满足下列两个假设:一方面,满足向量空间H中正反例的概率与H上的一棵正确决策树对任意例子的分类概率相等;另一方面,一棵决策树对某一个例子作出正确类别的判断所需的信息量为:I(p,n)= -log-log如果定义属性A为决策树的根,A具有m个值m,m,m,它将H分为m个子集H,H,H),假设H中含有n个反例和p个正例,子集H的信息熵为I(p,n)。以A属性为根分类后得出的信息熵为H(A)=I(p,n)。所以,可以得出,基于A为根的信息增益是gain(A)=I(p,n)-H(A)。ID3选择使gain(A)最大的属性A作为根结点,以A的不同取值对应的H的m个子集
19、H递归上述过程,生成A的子结点B,B,B。ID3算法方法是通过全面检验所含有的特征,选择决策树的结点依据是:选择互信息最大的特征A得到决策树结点,由于这样得到的决策树结点少,并且在识别某一例子的过程中准确率高,然后根据该特征的不同的值设立分枝,然后对各分枝的实例子集重复递归该方法建立决策树的剩余的结点和分枝,最终将某一子集中的例子全部归为同一类。第三章 客户分类问题分析3.1系统需求分析山东领先生物工程公司是以从事生物技术的开发和应用为主,成立比较早的一家企业。公司目前的主要产品是一种对提高免疫力、延缓衰老有显著功效的口服类产品,并且它是属于现有保健品市场上的高档产品,因此产品定价相对较高,每
20、天服用每月约需600元。在企业创始阶段,资金相对薄弱,公司的决策者对现有的保健品市场进行研究,决定采取直销的营销的模式。该模式主要是通过业务人员对潜在客户的提供个性化服务,将此产品直接销售给客户。在这种营销模式下,业务人员为了提高销售业绩,唯一的办法就是快速、有效地寻找到理想客户,这也成为本文研究工作的依据点。在2004年年底,该公司已经有70万元的销售,但也出现了销售成本偏高的问题,如会务、宣传费用等固定费用相对提高,员工工资费用偏高等。导致销售成本占销售额的55左右,公司的利润为15左右,远远低于业内平均利润。综合考虑,公司处于亏损状态。作者通过与业务人员进行沟通并且进行大量的调研后发现,
21、业务人员的业务方向和公司的客户资源使用不合理。业务人员通过宣传、举办活动等方式收集客户资源,然后将客户名单录入公司客户资源管理系统。然后对潜在客户进行家访,开展促销并提供咨询和个性化的服务,最后将客户购买的信息以及购买后业务人员跟踪的信息输入到系统中。进行家访时,由于业务人员的流动性以及客户家访的重复性,客户资源管理系统中必然存在着大量的非理想潜在客户,如果业务人员对这些资源进行家访和促销的话,毫无疑问会造成销售成本的提高。随着系统中的客户资源信息增多,如何对客户资源进行快速有效的分类,区别出理想客户和非理想客户,成为客户资源管理以及增加公司业绩的核心内容。3.2客户分类问题定义客户分类是指根
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文学 周志明 论文 最终版

链接地址:https://www.31ppt.com/p-4542364.html