数据挖掘的10大分析方法.docx
数据挖掘的10大分析方法不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是1D3算法.C4.5算法继承了1D3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的缺乏;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离散化处理;4)能够对不完整数据进行处理。C4.5算法有如下优点:产生的分类规那么易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行屡次的顺序扫描和排序,因而导致算法的低效。2. Thek-meansalgorithm即K-Means算法k-meansaIgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k3.Supportvectormachines支持向量机,英文为SUPPOrIVeCtorMaChine,简称SV机(论文中一般简称SvM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是的模式识别支持向量机指南。VanderIVall和Barnard将支持向量机和其他分类器进行了比拟。4. TheApriorialgorithmApriori算法是一种最有影响的挖掘布尔关联规那么频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规那么在分类上属于单维、单层、布尔关联规那么。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。5. 最大期望(EM)算法在统计计算中,最大期望(EM,Expectation-Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariabl)o最大期望经常用在机器学习和计算机视觉的数据集聚(DataClustering)领域。6. PageRankPageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里佩奇(LarryPage)因此,PageRank里的Page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”一一衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度一一即被别人引述的次数越多,一般判断这篇论文的权威性就越高。7. AdaBoostAdabooSt是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改正权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。8. kNN:k-nearestneighborclassificationK最近邻(k-NeareStNeighbor,KNN)分类算法,是一个理论上比拟成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,那么该样本也属于这个类别。9. NaiveBayes在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(DeCiSiOnTreeModeD和朴素贝叶斯模型(NaiveBayesianModel,NBC)。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学根底,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比拟简单。理论上,'BC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比拟多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。10. CART:分类与回归树CART,ClassificationandRegressionTreeso在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。m数据挖掘常用的方法囱在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规那么、神经网络方法、Web数据挖掘等。这些方法从不同的角度对数据进行挖掘。(1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购置情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。(2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。(3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。(4)关联规那么。关联规那么是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规那么的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频工程组;第二阶段为从这些高频工程组产生关联规那么。关联规那么挖掘技术己经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。(5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反应式神经网络模型,以HoPfield的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规那么,而且人们很难理解网络的学习及决策过程。(6)Web数据挖掘。Web数据挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P看做是输出,那么Web挖掘过程就可以看做是从输入到输出的一个映射过程。当前越来越多的Web数据都是以数据流的形式出现的,因此对Web数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有:PageRank算法,HrrS算法以及LOGSOM算法。这三种算法提到的用户都是笼统的用户,并没有区分用户的个体。目前Web数据挖掘面临着一些问题,包括:用户的分类问题、网站内容时效性问题,用户在页面停留时间问题,页面的链入与链出数问题等。在Web技术高速开展的今天,这些问题仍旧值得研究并加以解决。编辑本段根本术语1)数据挖掘能做以下七种不同事情(分析方法):(Classification)预测(Prediction),相关性分组或关联规那么(Affinitygroupingorassociationrules) 聚类(Clustering) 描述和可视化(DescriptionandVisualization) 复杂数据类型挖掘(TeXt,Web,图形图像,视频,音频等)2)数据挖掘分类以上七种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘直接数据挖掘目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。间接数据挖掘目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。分类、估值、预言属于直接数据挖掘;后四种属于间接数据挖掘3)各种分析方法的简介,分类(Classification)首先从数据中选出己经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。例子:信用卡申请者,分类为低、中、高风险b.故隙诊断:史国宝钢集团与上海天律信息技术合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。注意:类的个数是确定的,预先定义好的估计(Estimation)估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分三I的类别是确定数目的,估值的量是不确定的。例子:根据购置模式,估计一个家庭的孩子个数b.根据购置模式,估计一个家庭的收入c.估计realestate的价值一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score01)。然后,根据阈值,将贷款级别分类。预测(Prediction)通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。,相关性分组或关联规那么(Affinitygroupingorassociationrules)决定哪些事情将一起发生。例子:a.超市中客户在购置A的同时,经常会购置B,即A=>B(关联规那么)b.客户在购置A后,隔一段时间,会购置B(序列分析)聚类(Clustering)聚类是对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。例子:a.一些特定病症的聚集可能预示了一个特定的疾病b.租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群聚集通常作为数据挖掘的第一步。例如,”哪一种类的促销对客户响应最好?,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,答复以下问题,可能效果更好。描述和可视化(DescriptionandVisualization)是对数据挖掘结果的表示方式。一般只是指数据可视化工具,包含报表工具和商业智能分析产品(Bl)的统称。譬如通过YonghOngZTuite等工具进行数据的展现,分析,钻取,将数据挖掘的分析结果更形象,深刻的展现出来。数据挖掘十大经典算法1。C4.5:是机器学习算法中的一种分类法第树算法,其核心算法是ID3算法。2. K-means算法:是一种聚类算法。3. SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中4. Apriori:是一种最有影响的挖掘布尔关联规那么频繁项集的算法。5. EM:最大期望值法。6. pagerank:是google算法的重要内容。7. Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。8. KNN:是一个理论上比拟成熟的的方法,也是最简单的机器学习方法之一。9. NaiveBayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(NaiveBayes)10. Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。.编辑本段开展历程需要是创造之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验,(2)I智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。编辑本段其他资料数据挖掘中的关联规那么什么是关联规那么在描述有关关联规那么的一些细节之前,我们先来看一个有趣的故事:尿布与啤酒的故事。Til L- L*EjL在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购置习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购置的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的根底上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购置最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。按常规思维,尿布与啤酒风马牛不相及,假设不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。数据关联是数据库中存在的一类重要的可被发现的知识。假设两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规那么带有可信度。关联规那么挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规那么问题,以后诸多的研究人员对关联规那么的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规那么的效率;对关联规那么的应用进行推广。关联规那么挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规那么挖掘的过程关联规那么挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频工程组(FrequentItemsets),第二阶段再由这些高频工程组中产生关联规那(AssociationRules)<>关联规那么挖掘的第一阶段必须从原始资料集合中,找出所有高频工程组(LargelIemSetS)。高频的意思是指某一工程组出现的频率相对于所有记录而言,必须到达某一水平。一工程组出现的频率称为支持度(SUPPOrt),以一个包含A与B两个工程的2-itemset为例,我们可以经由公式(1)求得包含A,B工程组的支持度,假设支持度大于等于所设定的最小支持度(MininIUmSUPPort)门槛值时,那么A,B称为高频工程组。一个满足最小支持度的bilemset,那么称为高频k-工程组(FreqUenIk-iIemsel),一般表示为Largek或FreqUent匕算法并从Largek的工程组中再产生Largek+l,直到无法再找到更长的高频工程组为止。关联规那么挖掘的第二阶段是要产生关联规那么(Ass。CiationRules).从高频工程组产生关联规那么,是利用前一步骤的高频kE程组来产生规那么,在最小信赖度(MinimUmCOnfidenCe)的条件门槛下,假设一规那么所求得的信赖度满足最小信赖度,称此规那么为关联规那么。例如:经由高频k-工程组A,B)所产生的规那么AB,其信赖度可经由公式(2)求得,假设信赖度大于等于最小信赖度,那么称AB为关联规那么。就沃尔马案例而言,使用关联规那么挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度Inin_support=5%且最小信赖度min,confidence=70%o因此符合此该超市重求的关联规那么将必须同时满足以上两个条件。假设经过挖掘过程所找到的关联规那么尿布,啤酒,满足以下条件,将可接受尿布,啤酒的关联规那么。用公式可以描述SUPPort(尿布,啤酒)=5%且COnfidCnCe(尿布,啤酒)=70%。其中,SUPPort(尿布,啤酒)=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购置的交易行为。Confidence(尿布,啤酒)=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购置啤酒。因此,今后假设有某消费者出现购置尿布的行为,超市将可推荐该消费者同时购置啤酒。这个商品推荐的行为那么是根据尿布,啤酒关联规那么,因为就该超市过去的交易纪录而言,支持了“大部份购置尿布的交易,会同时购置啤酒”的消费行为。从上面的介绍还可以看出,关联规那么挖掘通常比拟适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,那么在关联规那么挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规那么的挖掘结果。关联规那么的分类按照不同情况,关联规那么可以进行分类如下:1 .基于规那么中处理的变量的类别,关联规那么可以分为布尔型和数值型。布尔型关联规那么处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规那么可以和多维关联或多层关联规那么结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规那么中也可以包含种类变量。例如:性别="女”=职业二“秘书”,是布尔型关联规那么;性别="女”=avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规那么。2 .基于规那么中数据的抽象层次,可以分为单层关联规那么和多层关联规那么。在单层的关联规那么中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规那么中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机"Sony打印机,是一个细节数据上的单层关联规那么;台式机二Sony打印机,是一个较高层次和细节层次之间的多层关联规那么。3 .基于规那么中涉及到的数据的维数,关联规那么可以分为单维的和多维的。在单维的关联规那么中,我们只涉及到数据的一个维,如用户购置的物品;而在多维的关联规那么中,要处理的数据将会涉及多个维。换成另一句话,单维关联规那么是处理单个属性中的一些关系;多维关联规那么是处理各个属性之间的某些关系。例如:啤酒=尿布,这条规那么只涉及到用户的购置的物品;性别="女”=职业="秘书”,这条规那么就涉及到两个字段的信息,是两个维上的一条关联规那么。关联规那么挖掘的相关算法1.APriOri算法:使用候选项集找频繁项集Apriori算法是一种最有影响的挖掘布尔关联规那么频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规那么在分类上属于单维、单层、布尔关联规那么。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。该算法的根本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规那么,这些规那么必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规那么,产生只包含集合的项的所有规那么,其中每一条规那么的右部只有一项,这里采用的是中规那么的定义。一旦这些规那么被生成,那么只有那些大于用户给定的最小可信度的规那么才被留下来。为了生成所有频集,使用了递推的方法。可能产生大量的候选集,以及可能需要重复扫描数据库,是APriori算法的两大缺点。4 .基于划分的算法Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。5 .FP-树频集算法针对APriOri算法的固有缺陷,J.Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保存其中的关联信息,随后再将FPTree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验说明,FP-growth对不同长度的规那么都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。关联规那么在国内外的应用就目前而言,关联规那么挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购置了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打咨询的时候,数据库可以有力地帮助销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。同时,一些知名的电子商务站点也从强大的关联规那么挖掘中的受益。这些电子购物网站使用关联规那么中规那么进行挖掘,然后设置用户有意要一起购置的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购置某种商品的顾客会看到相关的另外一种商品的广告。但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的为难。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规那么挖掘的技术在我国的研究与应用并不是很广泛深入。近年来关联规那么开掘技术的一些研究由于许多应用问题往往比超市购置问题更复杂,大量研究从不同的角度对关联规那么做了扩展,将更多的因素集成到关联规那么挖掘方法之中,以此丰富关联规那么的应用领域,拓宽支持管理决策的范围。如考虑属性之间的类别层次关系,时态关系,多表挖掘等。近年来围绕关联规那么的研究主要集中于两个方面,即扩展经典关联规那么能够解决问题的范围,改善经典关联规那么挖掘算法效率和规那么兴趣性。数据挖掘和在线分析处理(OLAP)一个经常问的问题是,数据挖掘和OLAP到底有何不同。下面将会解释,他们是完全不同的工具,基于的技术也大相径庭。OLAP是决策支持领域的一局部。传统的查询和报表工具是告诉你数据库中都有什么(whathappened),OLAP那么更进一步告诉你下一步会怎么样(IVhalnext)和如果我采取这样的措施又会怎么样(Whatif)o用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。比方,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去观察那些高负债的账户,如果还不行,他也许要把收入和鱼匮一起考虑,一直进行下去,直到找到他想要的结果或放弃。也就是说,OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。但是如果分析的变量到达几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式1模型的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比方,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比方年龄。数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能答复你的这些问题。而且在知识发现的早期阶段,OLAP工具还有其他一些用途。可以帮你探索数据,找到哪些是对一个问题比拟重要的变量,发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现的过程。数据挖掘,机器学习和统计数据挖掘利用了宣能(AI)和统计金近的进步所带来的好处。这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着让篁机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,他们儿乎不用人的照顾自动就能完成许多有价值的功能。数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。软硬件开展对数据挖掘的影响使数据挖掘这件事情成为可能的关键点是计算机性能价格比的巨大进步。在过去的几年里磁盘在储器的价格几乎降低了99%,这在很大程度上改变了企业界对数据收集和存储的态度。如果每兆的价格是¥10,那存放ITB的价格是¥10,000,000,但当每兆的价格降为1毛钱时,存储同样的数据只有¥100,000!计算机计算能力价格的降低同样非常显著。每一代芯片的诞生都会把CPU的计算能力提高一大步。内存RAM也同样降价迅速,几年之内每兆内存的价格由几百块钱降到现在只要几块钱。通常PC都有64M内存,工作站到达了256M,拥有上G内存的效近番已经不是什么新鲜事了。在单个CPU计算能力大幅提升的同时,基于多个CPU的并行系统也取得了很大的进步。目前几乎所有的效劳器都支持多个CPU,这些SMP效劳器簇甚至能让成百上千个CPU同时工作。基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。如果你有一个庞大而复杂的数据挖掘问题要求通过访问数据库取得数据,那么效率最高的方法就是利用一个本地的并行数据库。所有这些都为数据挖掘的实施扫清了道路,随着时间的延续,我们相信这条道路会越来越平坦。数据挖掘相关的10个问题NOJDataMining和统计分析有什么不同?硬要去区分DataMining和StatiStiCS的差异其实是没有太大意义的。一般将之定义为DataMining技术的CART、CHAlD或模糊计算等等理论方法,也都是由统计学者根据统计理论所开展衍生,换另一个角度看,DataMining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么DataMining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,DataMining有以下几项特性:1.处理大量实际数据更强势,且无须太专业的统计背景去使用DataMining的工具;2 .数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,DataMining的工具更符合企业需求;3 .纯就理论的根底点来看,DataMining和统计分析有应用上的差异,毕竟DataMining目的是方便企业终端用户使用而非给统计学家检测用的。N0.2数据仓库和数据挖掘的关系为何?假设将DataWarehousing(数据仓库)比喻作矿坑,DataMining就是深入矿坑采矿的工作。毕竟DataMining不是一种无中生有的魔术,也不是点石成金的炼金术,假设没有够丰富完整的数据,是很难期待DataMining能挖掘出什么有意义的信息的。要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(DecisionSupportSystem)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓库的目标是在组织中,在正确的时间,将正确的数据交给正确的人。许多人对于DataWarehoUSing和DataMining时常混淆,不知如何分辨。其实,数据仓库是数据库技术的一个新主题,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指事务处理系统OLTP(On-LineTransactionalProcessing)所得来的数据。将这些整合过的数据置放于数据仓库中,而公司的决策者那么利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据:整合性数据Iintcgratcddata)、详细和汇总性的数据(detaiIcdandsummarizeddata).历史数据、解释数据的数据。从数据仓库挖掘出对决策有用的信息与知识,是建立数据仓库与使用DataMining的最大目的,两者的本质与过程是两回事。换句话说,数据仓库应先行建立完成,Datamining才能有效率的进行,因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为DataMining是从巨大数据仓库中找出有用信息的一种过程与技术。数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中见图1)。从数据仓库中直接得到进行数据挖掘的数据有许多好处。就如我们后面会讲到的,数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要在清理一次了,而且所有的数据不一致的问题都已经被你解决了。我据源'数攫J端库图2,融据挖掘库从耳务数据库中得出数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果你的数据仓库的计算资源己经很紧张,那你最好还是建立一个单独的数据挖掘库。当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘。N0.30LAP能不能代替DataMining?所谓OLAP(OnlineAnalyticalProcess)意指由数据库所连结出来的在线分析处理程序。有些人会说:我己经有OLAP的工具了,所以我不需要DataMining。J事实上两者间是截然不同的,主要差异在于DataMining用在产生假设,OLAP那么用于查证假设。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而DataMining那么是用来帮助使用者产生假设。所以在使用OLAP或其它QUer的工具时,使用者是自己在做探索(Exploration),但DataMining是用工具在帮助做探索。举个例子来看,一市场分析师在为超市规划货品架柜摆设时.,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购置的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但DataMining那么不然,执行DataMining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规那么,于是我们可能得到例如尿布和啤酒常被同时购置的意料外之发现,这是OLAP所做不到的。DataMining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以DataMining此种自动找出甚至不会被疑心过的数据模型与关系的特性,事实上已超越了我们经验、教育、想象力的限制