数据挖掘现阶段最常用的算法.docx
《数据挖掘现阶段最常用的算法.docx》由会员分享,可在线阅读,更多相关《数据挖掘现阶段最常用的算法.docx(11页珍藏版)》请在三一办公上搜索。
1、数据挖掘现阶段最常用的算法数据挖掘最常见的十种方法 下面介绍十种数据挖掘的分析方法,以便于大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有用! 1、基于历史的MBR分析 基于历史的MBR分析方法最主要的概念是用已知的案例来预测未来案例的一些属性,通常找寻最相似的案例来做比较。 记忆基础推理法中有两个主要的要素,分别为距离函数与结合函数。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数 据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是
2、它需要大量的历史数据,有足够 的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预 测、医学诊疗、反应的归类等方面。 2、购物篮分析 购物篮分析最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出相 关的联想规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计 吸引客户的商业套餐等等。 购物篮分析基本运作过程包含下列三点: 选择正确的品项:这里所指的正确乃是针对企业体
3、而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。 经由对共同发生矩阵的探讨挖掘出联想规则。 克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久,此时必须运用一些技术以降低资源与时间的损耗。 购物篮分析技术可以应用在下列问题上: 针对信用卡购物,能够预测未来顾客可能购买什么。 对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。 保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。 对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。 3、决策树 决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些
4、法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策 树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元 树、三元树或混和的决策树型态。 4、遗传算法 遗传算法学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经 由一连串类似产生新细胞过程的运作,利用适合函数决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集 问题上有不错的
5、表现,一般可用来辅助记忆基础推理法与类神经网络的应用。 5、聚类分析 这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。 6、连接分析 连接分析是以数学中之图形理论为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉 连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于 企业的研究。 7、
6、OLAP分析 严格说起来,OLAP分析并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。 8、神经网络 神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。 9、判别分析 当所遭遇问题它的因变量为定性,而自变量为定量时,判别分析为一非常
7、适当之技术,通常应用在解决 分类的问题上面。若因变量由两个群体所构成,称之为双群体 判别分析 ;若由多个群体构成,则称之为多元判别分析。 找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。 检定各组的重心是否有差异。 找出哪些预测变量具有最大的区别能力。 根据新受试者的预测变量数值,将该受试者指派到某一群体。 10、罗吉斯回归分析 当判别分析中群体不符合正态分布假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件是否发生,而是预测该事件的机 率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为
8、零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协 率开始减小,故机率值介于0与1之间。 补充: 常用数据挖掘算法 频繁模式挖掘,关系挖掘,以及相互关系挖掘 所谓频繁模式挖掘,指的是比如在商品交易数据库记录中,找出一起出现的商品集合,这些商品集合出现的频率要高于一个阈值,这些经常出现的商品集合称之为频繁模式。 频繁模式的思路很简单,首先统计出每个单个商品出现的次数,这就构成了一个一维表。然后再根据一维表,商品两两组合产生一个二维表。然后再由二维表产生三维表,直至到n维表。其中可以利用apriori,进行剪枝,也就是说一维表中如果出现的频率低于阈值的商品,就可以直接去掉,应为
9、包含该商品的高维商品集合的出现频率不可能高于该阈值,可以直接剪枝去掉。 频繁模式挖掘还有一种更加高效的方式,就是FP Growth,该方法通过扫描一遍数据库,在内存中构造一颗FP tree,基于这棵树就可以产生所有的频繁模式。很显然FP Growth算法的效率要高很多,但是其缺陷也很明显,在内存中维护一颗FP tree的开销也是很大的。为了解决这个问题,一个直接的思路是将数据库水平分表到各台机器上,在各台机器上执行本地的FP Growth,然后再将各台机器上的结果汇总起来,得到最终的FP Growth的结果。 所谓关系挖掘,值得是挖掘出各个项目之间的因果关系。关系挖掘的基础是频繁模式挖掘,通过
10、频繁模式挖掘,很容易得出关系,举例就很容易明白,比如我们得到一个频繁集合: 那么通过排列组合可以得到l的子集集合: 那么很容易得到下面的推理集合,也就是挖掘出的关系: 所有的关系挖掘本质上都是基于频繁模式推导出来的。 在关系挖掘中,有一种非常有用的关系模式挖掘:mining quantitative association rules。所谓quantitative association rules是这样一种关系模式: 该关系模式的挖掘,首先是确定我们所感兴趣的属性:quan1,quan2,cat,然后根据事先确定的间隔,将quan1,quan2按照一定的间隔划分成一定的catorgory,然
11、后进行频繁模式挖掘,得出一些关系,然后将这些关系按照grid进行聚合,生成最后的关系模式。 通过关系挖掘挖出的关系中往往有很多不是非常有用,因此需要通过另外的指标排除一些这样的关系,这个指标就是correlation,如下: Correlation是用来衡量A,B之间的相关性,从而排除那些没有意义的规则。 对于上述所提到的关系挖掘,有一种称之为constraint-based association mining,这是一种特殊的关系挖掘,它对于所挖掘出的条件加了一些限制条件,这些限制条件可能是由用户提出的,其主要目的是排除一些不感兴趣的关系。对于这种关系挖掘,最直接的办法先按照最普通的关系挖掘
12、方法进行挖掘,然后利用条件来对结果进行。但是还有更好的方法,就是在挖掘的过程中利用这些条件,从而缩小整个挖掘过程中的search space,从而提高效率。这些限制条件分为这么几种:antimonotonic,monotonic,succinct,convertible,inconvertible,针对每一种的限制条件,都有一些通用的方法或策略来缩小挖掘的search space,可参阅相关资料。 分类和预测 分类树 分类树是一种很常用的分类方法,它该算法的框架表述还是比较清晰的,从根节点开始不断得分治,递归,生长,直至得到最后的结果。根节点代表整个训练样本集,通过在每个节点对某个属性的测试验
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 现阶段 常用 算法
链接地址:https://www.31ppt.com/p-3560061.html