数据挖掘及应用数据挖掘概述.ppt
数据挖掘及应用:数据挖掘概述,统计与数学学院:徐雪琪2010-11-30,数据挖掘的原由,可怕的数据,有价值的知识,数据挖掘的原由,数据,知识SWA,决策,数据挖掘概念的提出,现在数据挖掘概念的首次国际学术会议1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI89)上,Gregory Piatetsky-Shapiro组织了“数据库中的知识发现”(KDD:Knowledge Discovery in Database)专题讨论会,该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。相继开展的专题讨论会随后在1991、1993和1994年都举行了KDD专题讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。,数据挖掘概念的提出,第一届KDD国际学术会议 随着参与科研和开发人员的不断增加,国际KDD组委会于1995年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召开了第一届KDD国际学术会。其会议名称全称为“ACM SIGKDD(Special Interested Group on Knowledge Discovery in Databases)International Conference on Knowledge Discovery and Data Mining”在这次会议上“数据挖掘”(Data Mining)概念第一次由Usama Fayaad提出。Usama Fayaad 对数据挖掘概念的界定 数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程。SQLServer2005 数据挖掘指的是分析数据,使用自动化或半自动化的工具来挖掘隐含的模式。数据挖掘技术:市场营销、销售与客户关系管理领域的应用 数据挖掘指的是一种态度,它表明商业活动应该基于认知,分析获得的决策比没有任何分析所得的决策好得多,经过测算的结果更有利于商业盈利。SAS 软件研究所对数据挖掘所下的定义是:数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法。,Past KDD(Knowledge Discovery and Data Mining)Meetings,KDD-2007,13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Jose,California,Aug 12,2007 KDD-2006,12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 20-23,2006,Philadelphia,PA,USA.KDD-2005,11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 21-24,2005,Chicago,IL,USA.KDD-2004,10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 22-25,2003,Seattle,WA,USA.KDD-2003,9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 24-27,2003,Washington,DC,USA.KDD-2002,8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,July 23-26,2002,Edmonton,Alberta,Canada.KDD-2001,7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 26-29,2001,San Francisco,CA,USA.KDD-2000,6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 20-23,2000,Boston,MA,USA.KDD-99,5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 15-18,1999,San Diego,CA,USA.KDD-98,4th International Conference on Knowledge Discovery and Data Mining,August 27-31,1998,New York,NY,USA.KDD-97,3rd International Conference on Knowledge Discovery and Data Mining,August 14-17,1997,Newport Beach,CA KDD-96,2nd International Conference on Knowledge Discovery and Data Mining,August 4-8,1996,Portland,OR KDD-95,1st International Conference on Knowledge Discovery and Data Mining,August 20-21,1995,Montreal,Canada KDD-94 workshop,Seattle,WA,July 31-Aug 1,1994 KDD-93 workshop,Washington,D.C.,July 11-12,1993.KDD-91 workshop,Anaheim,CA,July 14-15,1991.KDD-89 workshop,Detroit,MI,August 20,1989.,其它数据挖掘年会,PAKDD(Pacific-Asia conference on knowledge discovery and data mining)亚太平洋地区数据挖掘年会,从1997年开始,每年召开一次,至今已召开了14届,其中1999年的PAKDD在我国北京召开,2007年的也在我国南京召开,最近一届于2010年6月21-24日在印度的Hyderabad召开。PKDD(European symposium on principles of data mining and knowledge discovery)欧洲数据挖掘会议,也是从1997年开始,每年召开一次,至今也已召开了14届,最近一届于2010年9月2024日在巴塞罗那召开。SIAMData Mining(Society for Industrial and Applied Mathematics)SIAM组织召开的数据挖掘讨论会,2001年4月召开第1届讨论会,专注于科学数据的数据挖掘,以后每年召开一次,至今已召开了10届,第十届SIAM数据挖掘国际会议于2010年4月295月1日在美国Columbus召开。,国外数据挖掘工作组(较早),R.A grawal领导下的IBM Almaden实验室的数据挖掘工作组 J.Han带领下的SFU工作组 Stanford大学的Ullman领导的关联规则研究小组Minnesota大学的Kumar领导的并行数据挖掘研究小组 新西兰Ian H.Witten教授领导下的Weka工作组,国内数据挖掘研究进展,数据挖掘讨论组(可能已关闭)数据挖掘研究院中文站论坛,中国人民大学统计学院开辟了“统计学与数据挖掘”研究专栏厦门大学计划统计系数据挖掘中心(Data Mining Center,DMC),是在台湾辅仁大学统计资讯学系谢邦昌教授的大力倡导下,于2007年底成立的学术研究单位。厦门大学朱建平教授专著数据挖掘的统计方法与实践于2005年12月由中国统计出版社出版,国内数据挖掘研究进展,1993年国家自然科学基金首次支持我们对该领域的研究项目。2002年度的国家社会科学基金在统计学类中首次对该领域的研究予以支持。全国数据库学术会议(NDBC,National DataBase Academic Conference)重要的杂志有计算机学报、软件学报和计算机研究与发展等。,数据挖掘功能,功能分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律功能特征描述关联分析聚类分析离群点分析分类和预测,数据挖掘学科性质,数据挖掘学科性质,数据挖掘是“智能化的统计”,应用理论,数据挖掘过程(jiawei Han),数据清理(消除噪声或不一致数据)数据集成(多种数据源可以组合在一起)数据选择(从数据库中检索与分析任务相关的数据)数据变换(数据变换或统一成适合挖掘的形式)数据挖掘(使用各种方法提取数据模式)模式评估(使用某种度量,识别真正有趣的模式)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识data mining concepts and techniques,从系统设计看数据挖掘过程模型,一种是 Fayyad 等人总结的过程模型另一种是遵循 CRISP-DM 标准的过程模型,Fayyad过程模型,CRISP-DM(Cross-Industry Standard Process for Data Mining)过程模型,数据挖掘软件发展的三个阶段,Gregory Piatetsky-Shapiro的观点独立的数据挖掘软件横向的数据挖掘工具集纵向的数据挖掘解决方案,独立的数据挖掘软件(95年以前),特点独立的数据挖掘软件,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树。,横向的数据挖掘工具集(95年开始),发展原因随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。数据挖掘处理的数据源需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决。挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型。,横向的数据挖掘工具集(95年开始),发展过程随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件特点此类工具集的特点是提供多种数据挖掘算法 包括数据的转换和可视化 由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具(Horizontal Data Mining Tools)典型的横向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner等,纵向的数据挖掘解决方案(99年开始),发展原因随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(Vertical Solution),即针对特定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中,纵向的数据挖掘解决方案(99年开始),在证券系统中嵌入神经网络预测功能在欺诈检测系统中嵌入欺诈行为的分类/识别模型在客户关系管理系统中嵌入客户成簇/分类功能或客户行为分析功能在机器维护系统中嵌入监/检测或识别难以定性的设备故障功能在数据库营销中嵌入选择最可能购买产品的客户功能在机场管理系统中嵌入旅客人数预测、货运优化功能在基因分析系统中嵌入DNA识别功能在制造/生产系统中嵌入质量控制功能等,纵向的数据挖掘解决方案(我国案例),由上海天律信息技术有限公司完成(中国数据挖掘的领头羊)武汉钢铁(集团)公司决策支持系统中实现销售分析、库存分析、进出口分析、价格分析、客户比较分析、质量检验分析、生产分析、财务分析、宏观决策分析等方面的功能;上海电信系统中实现客户分群、流失客户分类、流失客户社会特征分析、流失客户小灵通使用特征分析、流失客户付费情况分析、流失客户流失原因分析、小灵通客户流失预测分析等等。,数据挖掘工具介绍Intelligent Miner,美国IBM公司开发的数据挖掘软件,分别面向数据库和文本信息进行数据挖掘的,包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。已经成功应用于市场分析、诈骗行为监测及客户联系管理等;Intelligent Miner for Text允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。,数据挖掘工具介绍SAS Enterprise Miner,SEMMA方法 Sample数据取样(质量、目标)Explore数据特征探索、分析和预处理 Modify问题明确化、数据调整和技术选择 Model模型的研发、知识的发现 Assess模型和知识的综合解释和评价,数据挖掘工具介绍SAS Enterprise Miner,数据获取工具 数据取样工具 数据探索和可视化工具 数据筛选工具 数据变量转换工具 变量和因素重要性筛选工具 用于Marketing Basket Analysis 的关联分析工具 群体分类的各种聚类分析方法 多种形式的回归分析工具和方法 决策树方法(CART,CHAID,C4.5,C5.0)人工神经元网络、SOM 等人工智能方法和工具 模型集成和优化工具 Boosting,Bagging,Arching 等模型最优化算法 数据挖掘的评价工具 数据挖掘数据库 数据挖掘过程的各种控制工具,数据挖掘工具介绍SAS Enterprise Miner,它的GUI界面是数据流驱动的,易于理解和使用。它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。已在我国的企业得到采用,典型的如:上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用,数据挖掘工具介绍 Spss的 Clementine,Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了 ISL公司,对Clementine产品进行重新整合和开发。是一个开放式数据挖掘工具,曾两次获得英国政府SMART 创新奖。不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准-CRISP-DM。,数据挖掘工具介绍 Spss的 Clementine,12种统计和人工智能方法,数据挖掘工具介绍 Spss的 Clementine,功能分类:类神经网络、决策树(C5或CART)、Logistic回 归;聚类:K-Means算法(一维聚类)、Kohonen算法(利用类神 经网络自我组织的演算法进行二维聚类)、2-Step算法(可自动找出最适合的聚类数);关联:Apriori算法(连续、类别变量都可用)、GRI算法(只能处理类别变量)、序列算法(只能处理类别变量,且考虑时间先后)。,数据挖掘工具介绍 Spss的 Clementine,Clementine数据源 ODBC(包括Excel)各种文本文件 Spss数据源 SAS数据源 使用者输入Clementine可同时存取多种数据来源,数据挖掘工具介绍SQL Sever 2005/2008数据挖掘,1、数据挖掘原理与应用SQL Server 2005数据库(美)Zhaohui Tang、Jamie Maclennan 著,(国外计算机科学经典教材),2007年1月。2、数据挖掘原理与应用SQL Server 2008数据库(美)Jamie Maclennan、Zhaohui Tang、Bogdan Crivat著,2010年7月。3、SQL Server 2008商业智能完美解决方案(美)Lynn langit、Kevin S.Goff、Davide Mauri、Sahil Malik、John Welch著,2010年8月。,数据挖掘工具介绍SQL Sever 2005数据挖掘,包含算法:贝叶斯算法:预测;决策树算法:Microsoft提出的混合算法,支持分类、回归,另一特性支持关联分析;时序算法:预测,结合了自动回归技术和决策树技术,也称为AutoRegression Tree,ART算法;聚类算法:聚类和预测(新),K-means算法和EM算法;序列聚类算法:马尔可夫链混合模型;关联算法:priori算法;神经网络算法:分类和回归。,数据挖掘工具介绍Weka,数据挖掘实用机器学习技术 Ian H.Witten Eibe Frank著,数据挖掘工具介绍Weka,四种不同的用户界面探索者(Eplorer)知识流(Knowledge Flow)实验者(Experimenter)命令行界面(Simple CLI)数据源要求ARFF格式 一般可将数据存为CSV格式,即可读取,数据挖掘工具介绍Weka,探索者界面 优点:所有Weka功能都可以菜单选择及表单填写的方式完成,操作简单;缺点:需要将所处理的数据全部调入内存,这意味着只能用于挖掘小至中等规模数据量的问题。,数据挖掘工具介绍Weka(探索者界面),功能:预处理(Preprocess);分类(Classify);聚类(Cluster);关联(Associate);选择属性(Select Attributes);可视化(Visualize)。,数据挖掘工具介绍Weka,知识流界面 可进行数据流操作,能实现大型数据集的递增分批读取及处理。,数据挖掘工具介绍Weka,实验者界面 能够将不同的学习技术进行比较,实现其处理过程自动化,含有可供Weka高级用户将运算负荷通过Java过程方式调用手段分布多个机器上运行的机制。,数据挖掘工具介绍 AlphaMiner,AlphaMiner 是一个开源数据挖掘平台,是一个基于元素的平台,控制着所有组合元素的执行操作和工作能力。它通过提供一个简单易行的托放接口的操作环境,使用户只需要选择必要的操作建立过程,并能使操作流程简单明了。AlphaMiner最新版本为2.5,数据挖掘工具介绍AlphaMiner,访问不同数据源中的数据 用不同的方式勘探数据 操作数据 建立各种数据挖掘模型 分析模型 在企业环境中部署模型,数据挖掘工具介绍AlphaMiner,基于工作流的案例构造 使普通的商业管理人员能够用简单的拖放-放下操作来构建数据挖掘案例 插件式组件体系结构 为在数据导入和导出,数据转换,建模算法,模型评估和部署方面增加新的 BI 应用提供了良好的扩展性,可以在保持系统架构不改变的情况下很方便的增加新的 BI 应用。Alphaminer 第一个版本中,Xelopes 和 Weka 被整合到一起,从而为 Alphaminer 系统提供了极高的性能。通用数据挖掘功能 提供了强大的分析功能,可构建特定的商业分析如:顾客描绘,顾客聚类,产品关联规则分析,产品分类和预测等。,数据挖掘需要的三类人员,业务分析员是领域专家,负责解决领域问题,并能根据业务目标确定用于数据定义和挖掘算法的业务需求。数据分析员是统计专家,精通数据分析技术,有能力根据业务需求确定数据挖掘流程,并为挖掘过程中的各个阶段选择合适的功能及算法。数据管理员是计算机专家,精通数据库管理技术,能够从数据库或数据仓库中收集数据,并能够为特定挖掘任务创建挖掘数据库。,我们可以做什么数据挖掘从业人员的愿景,数据挖掘就业的途径可以下几种,(注意:不包括数据仓库或数据库管理员的角色)A:做科研(在高校、科研单位以及大型企业,主要研究算法、应用等)B:做程序开发设计(在企业做数据挖掘及其相关程序算法的实现等)C:数据分析师(在存在海量数据的企事业单位做咨询、分析等),谢谢!,