毕业设计(论文)基于决策树算法对大学生消费状况的研究.doc
《毕业设计(论文)基于决策树算法对大学生消费状况的研究.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于决策树算法对大学生消费状况的研究.doc(56页珍藏版)》请在三一办公上搜索。
1、JIU JIANG UNIVERSITY 毕 业 论 文 题 目 基于决策树算法对九江学院消费状况的研究 英文题目Research on Consumption of Jiujiang University Based on Decision Tree Algorithm 院 系 信息科学与技术学院 专 业 信息管理与信息系统 姓 名 班级学号 指导教师 二一五年五月摘 要 在大数据时代,数据成为了人们关注的焦点。在我们生活的过程中会产生很多数据。当数据量巨大并且杂乱无章的时候,数据挖掘在处理这些数据中扮演着一个特别重要的角色,我们可以通过数据挖掘技术从海量的数据中挖掘出有价值的信息。近年来,
2、人们开始更多的关注与自己生活有关的数据。大学生在其日常的消费过程中产生的数据量十分庞大。这些数据中蕴含着大量的信息,需要我们去发现。 本文主要研究的是九江学院大学生的宏观消费状况。本文采用了网络问卷调查的方式随机收集了九江学院在校大学生的部分消费数据。我们对收集的数据进行预处理并得到完整可靠的的数据样本,然后把这些数据以表格的形式存储于MySQL数据库中并建立可用的数据源。数据准备工作结束后,使用不同的决策相关的算法对数据建模。本文的目的是基于决策树算法对九江学院消费数据的研究,通过对算法的比较,选择了合适的决策树算法。使用的算法包括C5.0和CHAID。本文把研究目的细分为以下两项:基于决策
3、树C5.0研究九江学院大学生消费状况对学生是否加兼职的影响;基于决策树CHAID研究九江学院大学生消费状况对学生是否能够领取贫困助学金的影响。最后通过相应的决策树算法建立了不同的决策树和规则集,并对决策树和规则集进行了分析与评估。关键词:大数据,数据挖掘,消费,决策树Abstract In the era of big data, data becomes the focus of attention.We will produce a lot of data in the course of our lives .When the data becomes large and unsyste
4、matic, data mining plays a particularly important role in dealing with these data , we can mining valuable information from the vast amounts of data through the technology of data mining . In recent years, people start to given more attention on their related data with life .College students produce
5、 a huge amount of data associated with the consumption in everyday.We need to find a lot of information in these data.This paper mainly studies the Jiujiang university studentsconsumption situation.And in this paper,I random collected the date of Jiujiang university college students consumption by u
6、sing the network questionnaire.We preprocessed the data which we collected and got a complete and reliable data samples,then,we stored the data in the form of a table in the MySQL database and established the available data sources .After the preparation of data ,we used different algorithm decision
7、 for data modeling.The purpose of this article is based on algorithmic decision tree on the research of the consumption data of Jiujiang university,we select the appropriate algorithmic decision tree by comparing algorithms.The algorithmic have been used including C5.0 and CHAID.Our research objecti
8、ve was subdivided into the following two:Research on Consumption of Jiujiang University Based on C5.0 to find out the effects about whether to take part-time jobs;Research on Consumption of Jiujiang University Based on CHAID to find out the effects about whether to have chance to get financial aid.F
9、inally,different decision trees and rule sets were established by using algorithms of decision tree,then we analyzed and evaluated the decision tree and rule sets.Keywords:Big Data , Data Mining, Consumer, Decision Tree目 录摘 要IAbstractII1 绪论1.1课题研究的背景(1)1.2选题的意义(2)1.3决策树挖掘的研究现状(3)1.4论文的组织结构(4)2 什么是数据
10、挖掘2.1数据挖机的基本概念(6)2.2数据挖掘的过程(6)2.3数据挖掘的相关技术(8)2.4选定本课题使用的软件(12)3 决策树算法的研究3.1决策树算法的概述(17)3.2决策树基本算法的介绍(20)3.3适用课题研究的算法及原因(29)4 基于决策树算法对九江学院大学生消费状况的研究4.1九江学院大学生的消费状况调查(31)4.2消费数据的收集与处理(32)4.3决策树的挖掘结果(34)4.4研究结果总结(45)5 总结与展望5.1总结(47)5.2展望(47)致 谢(49)参考文献(50)1 绪论1.1课题研究的背景 自从20世纪80年代开始,计算机数据库技术越来越成熟,各行业也越
11、来越重视对自身数据的收集与处理。因此许多行业通过不同的方式获得的数据量惊人。由于人们逐渐有了提取数据中的信息的意识,因此数据挖掘技术发展的越来越成熟。国外非常重视数据中存在的价值,因此不乏数据挖掘的案例。随着互联网技术的发展,基于互联网平台进行销售的商城、书店、营业厅关于web点击流量的存储容量的大小已经到达了GB级1。这些数据中潜藏着很多十分有用的信息。例如国外某连锁超市就是通过对大量数据的分析发现顾客购买尿布后再去购买啤酒的关联性非常的大,然后根据这条关联规则,把啤酒喝尿布放相邻位置销售,结果销量相比没有放在一起销售前有了显著的上升。如今经济市场的竞争十分的激烈,为了能够更深入的了解市场及
12、自身的状况,也为了能够为企业的发展作出更好的决策,许多企业的管理者开始寻求能够提高企业经济效益以及确保企业长远发展的方法。有许多企业管理者会使用优秀的数据挖掘工具分析企业数据,并从中得到对管理企业有帮助的重要信息。因此,人们逐渐把数据挖掘技术运用到商业领域,并且引发了一系列管理、营销策略的变化。比如,在国外使用数据挖掘技术帮助从政的案例:2012年美国总统奥巴马成功连任后,有媒体报道,奥巴马投入了巨额费用使用数据挖掘技术,有效锁定目标选民后即时调整广告投放策略,因此这极大的帮助了奥巴马赢得选举。而在国内数据挖掘技术发展比国外更晚,但是发展十分迅猛,研究消费数据方面的案例十分的丰富。大部分对数据
13、挖掘技术研究重点偏向于商业应用方面。大学生是比较特殊的消费群体,其产生的海量消费数据中蕴含很多有用的信息,这些通过数据挖掘获取的信息对商家提高自己的经济效益有很大的帮助。在校大学生在生活中所产生数据量不容小视。我们知道校园管理人员的日常工作是十分繁琐与辛苦的,如果能从与学生生活息息相关的消费数据中分析得出大量的信息,并且这些信息能够有助于学生的学习和生活以及老师的教学与管理,那么这将更加能够说明数据挖掘的价值与意义。1.2选题的意义如今国内大学入学率越来越高,随之而来的是学校对于培养学生的良好的消费习惯和价值观的任务变得举足轻重。我们的消费不仅能够影响我们的学习,还能够影响我们的人生观。研究人
14、员对大学生消费的研究并不多,而且使用数据挖掘技术来分析大学生消费行为的就更屈指可数了。以往对大学生消费调查与研究所得的结果大部分比较浅显。在大数据时代我们可以使用数据挖掘技术从海量的消费数据中研究当今大学生的消费行为,并能够从中得到便于学校更好的教育莘莘学子的决策树或者规则集。比如,我们可以找到到九江学院大学生在课余时间有意愿做兼职或者勤工助学的消费特征,根据这些消费特征我们可以更准确的判断哪些学生会有兼职或勤工助学的趋势,这样学校就可以为那些预测结果为极有可能去兼职的学生做相应的引导或者帮助;我们也可以从消费数据中挖掘出判断学生电话消费档次的决策树,通过不同的规则,电信运营商可以推出更贴合学
15、生需求的话费套餐;我们还可以从消费数据中挖掘出能够判断学生能否申请到贫困补助的决策树。每个学校都有本校学生申请贫困补助的评选标准,校园管理者可以使用通过数据挖掘学生的各种数据而得到的关于是否能够成功申请贫困补助的决策树,作为评选贫困生的参考。 本次课题对我的挑战非常的大。我来自信息管理与信息系统专业,平时对数据挖掘这门技术了解比较少。如今获知的一些关于大数据的信息让我更清楚的认识到我们生活中的数据中蕴含巨大的价值,以及更深刻的认识到在大数据时代数据挖掘技术的重要性。而且我发现The Big Talk栏目就有好几期节目涉及到大数据的应用。2015年3月15号,马云在德国汉诺威国际博览会开场演讲中
16、提到“未来的世界,我们将不再由石油驱动,而是由数据驱动,有一种东西将在机器中流动,那就是数据.”。我最终选择了这个课题是因为我认为这个课题将会让我更多的了解数据挖掘技术。选定课题后,在课余时间,我会向图书馆借阅关于数据挖掘的书籍,平时也会通过网络平台了解关于数据挖掘方面的知识,同时关注一些有关数据挖掘的论坛或者QQ群。只要一有疑惑,我会立即向那些对数据挖掘技术有更深入了解的人寻求帮助。选择这个课题不仅仅是因为我个人的兴趣,更多在于我的导师对数据挖掘这门技术的价值的远见卓识。我非常希望自己通过该课题能够对数据挖掘有深刻的理解,并且能通过这次研究获得让自己和导师满意的研究成果。1.3决策树挖掘的研
17、究现状 决策树算法被提出至今有一个多世纪的时间了,算法的种类特别的多,但是大部分算法存在局限性。比如,只能处理较小的数据集而且被处理的数据集必须一直存储在内存当中。如今我们不难发现大部分决策树算法面对当今存放在数据库或者数据仓库中的海量数据有种无能为力的感觉,种种迹象让我们知道传统的决策树算法不管在预测精度方面还是运算效率方面都已经跟不上市场对数据挖掘算法需求的步伐了。针对这些的问题,不少研究算法的人员花了非常大的心血去改进算法或者创造新的算法,并主要从处理数据集的功能方面对算法进行了改进,使得算法能够适用于大数据集的挖掘。在我们身边有许多数据挖掘的工具,其中已经集成了决策树算法的工具非常的多
18、,例如:SAS、IBM Intrlligent Miner、MSMiner、Clementine等用于分析数据的产品,并且这些数据挖掘工具被广泛的运用于商业市场。虽然各种与决策树相关的算法被广泛的应用,但是还是存在很多问题,比如,如何去管理非常大的数据集;如何进一步提高预测的精度;如何更完美的处理更复杂的数据集。国外在较早的年代就开始了对数据挖掘这门技术的研究。在美国的一所国立医学图书馆中就有与数据挖掘的论文成全上万篇。国外研究出的决策树算法有CART、C4.5、ID3、SPRINT、CHAID等。我国比发达国家更晚进入互联网时代,这间接导致我国人民更晚认识到数据对我们未来生活影响很大,所以我
19、国对数据挖掘相应算法的研究涉及的也不多。不过根据相关报道我们知道有部分研究人员对决策树算法中的ID3算法进行了研究和改进。以刘小虎为代表的研究人员对ID3算法进行了改进,使得该新算法在选择新的分组变量值的时候考虑决策树的两层节点。在国内我们可以找出很多有关决策树在实际应用中的案例,比如:有人通过决策树算法对牙医诊断进行分类;有人通过决策树算法对高校的贫困生进行分类;有人通过决策树算法对个人的信用等级进行分类以用于房贷发放的审核;有人基于决策树的算法对超市的消费数据进行分类以用于提高超市的销售业绩。与我们生活息息相关的数据挖掘技术已经被应用的范围变得越来越大了,身在大数据时代的我们应该好好珍惜这
20、个学习机会。1.4论文的组织结构 本文主要通过对C5.0算法和CHAID算法研究比较,分析各个算法的性能以及对我们收集的大学生消费数据进行挖掘是否合适。本文针对课题设计了相应的研究方法,我们主要是把九江学院在校大学生的宏观的消费数据作为研究的主体,把收集到的数据导入到MySQL数据库当中,建立相应的数据源。然后,用数据挖掘工具通过我们的训练样本建立不同的决策树模型,最后使用测试样本对我们建立的模型进行分验证和评估。 本文的内容分为五章,详细安排如下: 第一章:介绍本课题的研究背景,选题的意义以及决策树挖掘的研究现状,还有本文的主要研究方法和内容结构。 第二章:详细介绍了数据挖掘的基本概念、数据
21、挖掘的过程、数据挖掘的相关技术与数据挖掘工具,最后通过比较各个数据挖掘工具的优缺点并结合本次研究时的实际数据环境选择了本文分析数据使用的数据挖掘软件。 第三章:主要研究关决策树算法,简要的介绍了什么是决策树,并对决策树中的部分算法进行了相应的举例介绍。最后比较介绍过的决策树算法各自的优缺点,然后在本章最后通过衡量本文研究的需求选定了适用于本课题的决策树算法。 第四章:介绍九江学院在校大学生的宏观消费状况和研究我们这些消费数据将要使用的工具。本文使用Clementine挖掘工具并结合了C5.0和CHAID算法对我们收集到的九江学院大学生消费数据进行分析,并对挖掘出的模型进行了评估。最后对本次研究
22、的过程以及结果进行了相应的总结。 第五章:总结了本文对消费数据的研究的整个过程,其中包括数据包括数据的收集与处理,数据使用的算法与软件,挖掘结果的分析。最后介绍了一些我对数据挖掘技术未来发展的看法,该技术在发展的过程中机会与风险共存。2 什么是数据挖掘2.1数据挖机的基本概念“数据挖掘”2一词被提出至今有26年之久了,这个概念是在第11届国际人工智能联合学术会上被提出的。数据挖掘这个词被迅速流传开来是从1995年开始的,那时候人们比较重视挖掘出数据中的信息,所以经常会召开一些关于挖掘数据中知识的会议来宣传数据挖掘的重要性。数据库中的知识发现(Knowledge Discovery in Dat
23、abase,KDD)2是一个比较浅显易懂的概念,它由计算机学术界的相关人士提出的。从概念的表面意思我们可以知道数据挖掘就是从我们的数据中找到有价值的信息,并且这些信息对我们的生活有帮助。完整的KDD过程包括数据源的建立和管理、从数据源中提取数据、数据预处理、模型建立、模型评估、模型可视化以及模型应用等一系列步骤。虽然数据挖掘概念的提出以及数据挖掘技术的发展到现在有二十多年了,但目前还没有哪个行业能够对数据挖掘的定义给出确切的答案,因此我们发现不同的资料在解释数据挖掘这个词的时候说法是不一样的,但是万变不离其宗。很多人认为将存储在数据库中的数据比喻为“矿石”,数据挖掘则是一个从数据“矿石”中开采
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 论文 基于 决策树 算法 大学生 消费 状况 研究
链接地址:https://www.31ppt.com/p-3980247.html