关联规则的相关算法研究基于Apriori和FPgrowth算法.doc
《关联规则的相关算法研究基于Apriori和FPgrowth算法.doc》由会员分享,可在线阅读,更多相关《关联规则的相关算法研究基于Apriori和FPgrowth算法.doc(56页珍藏版)》请在三一办公上搜索。
1、学校代码:10491 研究生学号:120080940 中国地质大学硕士学位论文关联规则的相关算法研究-基于Apriori和FP-growth算法硕 士 生:学科专业:计算机软件与理论指导教师:二一年五月A Dissertation Submitted to China Universityof Geosciences for the Master Degree of Computer Software and TheoryResearch on Association Rules Mining Algorithm-base on Apriori and FP-growthMaster Cand
2、idate:LIANG WeiMajor:Computer Software and TheorySupervisor:SUN BinChina University of GeosciencesWuhan 430074 P. R. China中国地质大学(武汉)研究生学位论文原创性声明本人郑重声明:本人所呈交的硕士学位论文关联规则的相关算法研究-基于Apriori和FP-growth算法,是本人在导师的指导下,在中国地质大学(武汉)攻读硕士学位期间独立进行研究工作所取得的成果。论文中除已注明部分外不包含他人已发表或撰写过的研究成果,对论文的完成提供过帮助的有关人员已在文中说明并致以谢意。本人
3、所呈交的硕士学位论文没有违反学术道德和学术规范,没有侵权行为,并愿意承担由此而产生的法律责任和法律后果。学位论文作者(签字): 日期:年月日作者简介梁伟,男,壮族,1976年1月出生于广西壮族自治区崇左市。2008年9月进入中国地质大学(武汉)信息工程学院攻读硕士学位,专业为计算机软件与理论,研究方向为数据库技术和数据挖掘。至今已经修完全部课程,共计15门课程,其中学位课程10门,选修课程5门,各门课程成绩合格,总学分为28分,各科平均成绩为72分。在硕士研究生学习阶段,认真学习专业知识,阅读大量专业文献,以第一作者在公开刊物发表论文两篇:关联规则算法探讨-企业技术开发(CN 43-1172/
4、TB ,2009.10)基于MYSQL的SQL注入问题研究-科教导刊(CN 42-1795/N,2009.12)关联规则的相关算法研究-基于Apriori和FP-growth算法硕士生:梁 伟 导师:孙 斌摘 要数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘是数据挖掘的一个主要研究内容,而如何快速发现频繁项集是关联规则数据挖掘算法的核心问题。本文讨论了数据挖掘和关联规则的一般理论,包括数据挖掘的概念、任务、模式以及数据挖掘的应用和发展趋势。深入研究了关联规则挖掘算法,分析了关联规则挖掘中经典的Apriori和FP-
5、growth算法,并总结了Apriori和FP-growth算法中存在的问题。针对Apriori算法的效率问题,从两个角度进行改进:(1)降低候选项目集中候选项产生的数量;(2)减少扫描数据库的次数。给出了一种较为高效的关联规则挖掘算法。算法的主要思想是在扫描数据库的同时把支持每个项目的事务都标记出来,采用一种新的方法生成所有的频繁集。该算法只需对源数据库进行一次扫描就可以找出所有的频繁集,并通过裁剪候选集的方法达到减少候选项数目集的目的。这样做不但降低了算法的I/O负荷,而且减少了时间开销,具有很高的效率。最后,将基于关联规则的数据挖掘改进算法方法应用到学生考试成绩管理中,对挖掘结果进行了分
6、析,并提出了指导意见。本文的工作虽然取得了一定的成果,但尚有大量问题有待于进一步研究,比如,关联规则挖掘应用系统的设计;关联规则有趣度的研究以及如何将挖掘结果友好地呈现给用户。关键词:数据挖掘 关联规则 频繁集 支持度 可信度Research on Association Rules Mining Algorithm-base on Apriori and FP-growthMaster Candidate:LIANG Wei Supervisor:SUN BinABSTRACTData Mining is one of the most active research fields,espe
7、cially in the fields of artificial intelligence and Database.Data Mining is a kind of process that reveals potential useful knowledge from massive data.The association rules mining is a main research aspect of data mining.And the discovery of the frequent item sets is a key problem of the associatio
8、n rule mining algorithm.The Data Mining is discussed generally in this paper,including its concepts, patterns,applications and development trend.Apriori algorithm and FP-growth algorithm are researched and analysed deeply,which are classic of the association rule mining algorithms.And then summarize
9、s the problems existing in there two algorithms.For improving the existing poor efficiency of Apriori algorithm,this paper expounds some schemes in two aspects. One sheme is reducing the candidate item sets,and the other is decreasing the times spending in scanning Database.Then,a more efficient alg
10、orithm for association rule mining is presented.The main idea of the algoritnm is to mark all the transactions supporting each item in scanning Databese.The new algorithm adopts a unique way to generate the frequent item sets.It can mine all the frequent item sets by scanning the source Database onl
11、y once and reducing the candidate item sets depending on the pruning.It not only decreases the bear of I/O,but also reduces the execution time,and then got high efficiency.Finally,the new method based on association rules is applied into the Management of student test scores ,the mining result is an
12、alyzed,and instructive opinion is proposed. Although the certain results has been obtained in this paper,there are still many questions to be studied hardly,such as,designing the association rule mining application system,studying the interesting association rules and presenting the mining results m
13、ore friendly to the user. Keywords:Data Mining Association Rules Frequent Item Set Support Confidence目 录第一章 绪论11.1课题的研究背景11.2数据挖掘中的关联规则21.3关联规则数据挖掘的研究现状21.3.1国外研究现状21.3.2国内研究状况31.3.3关联规则新进展41.4本文主要内容41.5本文的组织结构5第二章 数据挖掘及关联规则概述62.1数据挖掘62.1.1数据挖掘的产生和发展62.1.3数据挖掘的过程72.1.4数据挖掘的主要方法82.1.5数据挖掘的发展趋势82.2关联规
14、则92.2.1啤酒和尿布问题92.2.2基本概念92.2.3基本模型102.2.4关联规则的主要应用102.2.5关联规则的分类112.2.6关联规则的挖掘过程122.3关联规则挖掘算法分类122.3.1关联规则算法原理122.3.2经典关联规则算法122.3.3改进的关联规则算法132.4本章小结13第三章 关联规则的经典算法143.1 Apriori算法143.1.2 Apriori性质143.1.3算法描述153.1.4算法分析153.1.5算法步骤163.1.6示例说明163.2 FP-tree频集算法183.2.1算法的基本思想183.2.2算法的主要步骤193.2.3算法描述193
15、.2.4算法示例说明203.2.5算法分析223.3本章小结22第四章 改进的关联规则挖掘算法234.1算法改进思想234.2算法的主要基本步骤244.3算法描述254.4算法实例254.5算法评价284.5本章小结29第五章 改进算法在学生成绩教学指导的应用305.1学生成绩教学指导现状305.2改进算法在成绩管理中的应用315.3本章小结37第六章 结束语38致 谢40参考文献41第一章 绪论数据挖掘技术是上个世纪90年代初开始,在国内外迅速发展起来的一门交叉学科,该新兴学科涉及到计算机、数据库、统计学、人工智能与机器学习等多个领域。数据挖掘领域融合了各个学科领域的技术和成果,它的表现方法
16、多种多样。信息技术的快速发展及计算机的应用普及和数据存储技术的迅猛发展,大大提高了人们获取数据的能力,由此使得各个行业积累了大量的专业数据,数据挖掘就是利用各个学科的综合技术对海量数据进行分析处理。1.1课题的研究背景在过去的三十多年里,随着计算机硬件技术、数据收集技术和数据存储技术的飞速发展,各个学科及各行各业都逐步建立起了各自的数据库体系。在这些专业的大型数据库中,存放了海量的数据,如何才能有效利用这些数据,使其能为我们的生产实践所利用,成为人们所关注的问题。但是,面对堆积成山的丰富的数据资源来说,人们缺乏高效有力的分析手段和分析工具,于是就必然出现“数据丰富而信息贫乏”的尴尬状况。很明显
17、,数据库操作系统的查询和检索虽十分方便,但对于应付这些海量数据而言也显得无能为力,虽然之后伴随着数据仓库出现的在线分析OLAP技术具有总结、概化及聚集等强大功能,且可从不同角度来观察、分析数据,并能进行多维分析和决策支持,但OLAP技术始终不能对数据进行更深层次的分析,发现和挖掘大量数据背后所隐藏的规律和知识。俗话说,需要是发明之母,在这种形势下,数据挖掘的产生就成为了必然。数据挖掘是指从大量的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、并且是潜在有用的信息。数据挖掘是计算机技术研究中的一个很有应用价值的新领域,目前已经成为国际上数据库和信息决策领域中最前沿的研究方向之一,引起了
18、学术界和工业界的广泛关注。数据挖掘也叫数据挖掘中发现知识(KDD)。KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会上。随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,每年召开一次,其规模也由原来的KDD专题讨论会发展发展成为现在的国际性学术大会。此外,国际上还有许多数据挖掘年会,例如PAKDD、PKDD、SIAM-Data Mining等重要国际会议。另外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题和专刊。KDD作为在对大规模数据库进行分析的重要工具,对它的研究已经成为数据库及人工智能
19、领域研究的一个热点1。按照挖掘结果模式、数据挖掘任务可以分为两大类:描述性数据挖掘和预测性数据挖掘。描述性数据是对数据的一般特性进行描述。预测性数据挖掘是通过对现有数据进行分析推理,对未来的行为进行预测。具体可分为概念描述、关联规则分析、分类分析、聚类分析、异常分析及演化分析等。 1.2数据挖掘中的关联规则 1993年,Agrawal等人首次提出了关联规则问题,关联规则所反映的是某事物与他事物之间的相互依存性和关联性。假如有两个或多个事物之间有某种关联性,那么一个事物的发生状况可以通过其他事物的属性预测出来。最为简单和经典的关联规则发现问题就是对超级市场里的顾客的购物记录,即购物篮数据进行分析
20、,通过分析顾客所购买的货物的相关性来发现顾客的购买习惯,由此来制定有针对性的营销策略,提高超市商品销量。关联规则最经典的应用案例就是美国沃尔玛超市的“尿布与啤酒的故事”。关联规则数据挖掘的目的是发现数据中的规律性,比如在超级市场中顾客买某物品的同时还会同时购买哪些物品,买一台电脑后会否紧跟着购买电脑软件等。从专业的角度上来说,关联规则数据挖掘就是要从事务数据库中的项集和对象中挖掘出频繁模式、关联性、因果关系及关联规则。关联规则挖掘在数据挖掘领域是一个研究热点,从二十世纪九十年代初至今的二十多年时间里一直被广大专家、学者广泛研究。他们的研究工作主要是对原有的算法进行改进和优化,通过算法优化来提高
21、算法的挖掘效率。随着关联规则挖掘技术的不断发展和成熟,关联规则也得到了很好的应用,其应用的范围也由最初的购物篮扩展到网站路径优化、网络行为挖掘、网络人侵检测等领域。关联规则的理论研究的内容也从最初的频繁模式挖掘扩展到最大模式挖掘、增量挖掘等等。1.3关联规则数据挖掘的研究现状1.3.1国外研究现状R.Agrawal等人提出的关联规则数据挖掘问题因其可发现统计学和人工智能无法发现的数据项之间或者属性之间隐藏的属性,这说明它很有研究价值,因此国外众多学者和专家针对关联规则挖掘问题作了大量的研究和探索工作。Apriori是关联规则算法中最具代表性的算法,对Apriori算法的运行效率改进是一个很重要
22、的问题,此后,为了提高Apriori算法的效率,很多研究者提出了关联规则相关的改进算法:Savasere等人提出了分割的关联规则挖掘算法,分区算法扫描数据库一次生成所有潜在的大项目集,然后在对数据库的第二次扫描中,所有的项目集的支持度被确定。Park等人于1995年提出DHP的算法,DHP算法利用一个额外的哈希表,旨在限制产生尽可能多的候选项集。Toivonen于1996年提出了抽样算法,该算法通常只需要扫描遍数据库,在最坏的情况下也只是需要扫描2次数据库。Brin等人于1997年提出动态项集计数(DIC)的算法,通过对被划分成若干带有起始点标志的模块的数据库进行反复扫描。相较于Apriori
23、算法,DIC算法可以在任何起点标志处添加新的候选项目集,无需重新扫描整个数据库。1998年Lin等人提出了钳形搜索(Pincer-Search)算法,该算法能有效发现最大频繁集。2001年,Yang等人提出了一个高效的基于散列的方法发现的最大频繁集(HMFS)算法,该算法融合了DHP算法和钳形搜索(Pincer-Search)算法的优点。此外遗传算法也适用于关联规则挖掘,算法可以生成对关联规则挖掘合适的阈值。 改进的关联规则算法提高了Apriori算法的效率,大部分改进算法的研究一般都集中在设置最小支持度和最小置信度以实现挖掘出更客观和更有效的关联规则问题。越来越多的关联规则研究采用多元化的算
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关联 规则 相关 算法 研究 基于 Apriori FPgrowth
链接地址:https://www.31ppt.com/p-2396188.html