《数据挖掘》PPT课件.ppt
《《数据挖掘》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据挖掘》PPT课件.ppt(101页珍藏版)》请在三一办公上搜索。
1、数据挖掘在智能信息系统中的应用研究,吴渝重庆邮电学院计算机学院,2004.12,2,目录,数据挖掘简介数据挖掘研究平台技术海量数据挖掘应用研究电子邮件智能分析网络入侵检测研究展望,3,数据挖掘简介,实例应用工具,4,什么是数据挖掘,通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构,海量数据,数据挖掘,知识库,5,实例,全球最大的零售商沃尔玛(Walmart):星期四、啤酒与尿布销售额上涨了30英国电信通过直邮的方式向客户推荐新产品使直回应率提高了100汇丰银行分类客户群,对每种产品找出最有价值的客户
2、营销费用减少了30,6,应用举例,电信:客户流失百货公司/超市:购物篮分析 保险:交叉销售,流失信用卡:欺诈探测电子商务:网站日志分析,个性化服务税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健,病症原因分析,7,应用比例,8,商业工具:SPSS Clementine,9,丰富的数据挖掘算法,PredictionNeural net,C5.0ClassificationNeural net,C5.0SegmentationKohonen,Kmeans,C5.0AssociationApriori,GRI,Web graphSequenceCaprI,Neural Net,Regre
3、ssion,10,价格?,SPSS Clementine 7.2 中文版校园方案租赁优惠买断优惠(台币)教授个人研究使用(1人)225000395000(10万RMB)教学专用版(10人)335000 595000 教学专用版(25人)449000 795000(20万RMB),1人民币 3.908台币,11,数据挖掘研究,回顾技术,12,数据挖掘历史回顾,1989 IJCAI Workshop on Knowledge Discovery in Databases Knowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawl
4、ey,1991)1991-1994 Workshops on Knowledge Discovery in DatabasesAdvances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining(KDD95-98)Journal of Data Mining and Knowle
5、dge Discovery(1997)1998 ACM SIGKDD,SIGKDD1999-2001 conferences,and SIGKDD ExplorationsMore conferences on data miningPAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.,13,相关技术,Data Mining,Database Technology,Statistics,OtherDisciplines,InformationScience,MachineLearning(AI),Visualization,14,数
6、据挖掘的不同视角,Databases to be minedRelational,transactional,object-relational,active,spatial,time-series,text,multi-media,heterogeneous,legacy,WWW,etc.Knowledge to be minedCharacterization,discrimination,association,classification,clustering,trend,deviation and outlier analysis,etc.Techniques utilizedDat
7、abase-oriented,data warehouse(OLAP),machine learning,statistics,visualization,neural network,etc.Applications adaptedRetail,telecommunication,banking,fraud analysis,DNA mining,stock market analysis,Web mining,Weblog analysis,etc.,15,预言模型文化(PM)输出的是预言模型,知识发现文化(KD)输出的是规则,数据挖掘文化,共同点两种文化输入的都是学习集(learning
8、 sets)目的都是尽可能多的自动化数据挖掘过程 数据挖掘过程并不能完全自动化,只能半自动化举例说明假设移动电话用户根据其转换到其他通信公司的风险,被分成低、中、高三组一个数据挖掘系统可能抽取出一条规则,比如:“一天至少接到两个电话的用户有低的更换率”。一个预言模型可能给每个用户分配两个分数:一个分数在0和1之间,表示用户可能更换通信公司的概率,另一个暗示该用户在下一年可能会给公司带来的利润。,16,数据挖掘与标准化进程,CRISP-DM(CRoss-Industry Standard Process for Data Mining)数据挖掘过程标准化XML(Extensible Markup
9、 Language)与数据预处理相结合,表示数据SOAP(Simple Object Access Protocol)数据库与系统互操作的标准PMML(Predictive Model Markup Language)预言模型交换标准,,利用XML描述和存储数据挖掘模型OLE DB For Data Mining数据挖掘系统基于API的接口,可算为通用数据挖掘语言2000年3月,微软公司推出了一个数据挖掘语言,17,数据挖掘标准流程,CRISP-DM(CRoss-Industry Standard ProcessData Mining),在1996年制定,是当今数据挖掘业界通用流行的标准之一,
10、强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域流程内容商业理解数据理解数据准备建立模型模型评估模型发布,18,数据挖掘流程,商业理解(Business Understanding)确定目标,对现有资源评估,确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标,制定数据挖掘计划数据理解(Data Understanding)确定数据挖掘所需要的数据,对数据进行描述,数据的初步探索,检查数据的质量数据准备(Data Preparation)选择数据,清理数据,对数据进行重建,调整数据格式使之适合建模,19,数据挖掘流程,建立模型(Modeling)对各个模型进行
11、评价,选择数据挖掘模型,建立模型模型评估(Evaluation)评估数据挖掘的结果,对整个数据挖掘过程的前面步骤进行评估,确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布(Deployment)把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型,预言模型交换标准PMML,21,为什么需要PMML?,模型交换对于复杂的数据挖掘任务,需要应用不同的数据挖掘工具,因而工具之间必须能够互相交换结果模型部署(deploy)软件商能够更容易地将数据挖掘结果导入到其他支持这种标准的工具中。从发展的眼光看,需要将商业智能跨越在In
12、eternet上进行实施部署,PMML为这项功能提供了的基础。独立性独立于平台、应用和操作系统,只定义模型描述,而不是模型执行的方法 标准化标准化的模型描述就象HTML之于Internet一样,将开放模型的封闭性,开放数据挖掘行业。,22,PMML优缺点,优点描述数据挖掘模型的标准 在数据挖掘工具之间,以及数据挖掘工具和其他应用之间交换数据挖掘模型 数据挖掘工具外部一种存储模型的有效的方式 将模型与数据和工具分离 用户易于编辑模型(作为XML文档,可以通过文本编辑器编辑)缺陷当前,模型并没有真正实现与数据的分离,因为,在建模前需要经过大量的数据转换 没有被所有的数据挖掘软件商采纳 对模型诊断(
13、diagnostics)和期望的性能度量没有规定,23,数据挖掘平台研究与开发,层次结构数据挖掘+商业逻辑+行业应用可扩展性的体系结构软件结构数据挖掘平台的应用针对行业的解决方案软件开发商二次开发,24,层次结构:数据挖掘+商业逻辑+行业应用,关联规则、序列模式、分类、聚集、神经元网络、偏差分析,数据挖掘算法层,产品推荐、客户细分、客户流失、欺诈甄别、特征分析,商业逻辑层,基因(DNA)分析、银行、保险、电信、证券、零售业,行业应用层,25,可扩展性的体系结构,数据挖掘应用服务器,行业客户端,信息系统,数据挖掘应用服务器,行业客户端,数据挖掘应用平台,26,软件结构,供数据挖掘使用的数据仓库E
14、TL(抽取、转换、装载)工具数据挖掘应用服务器数据挖掘应用服务器管理平台针对行业的分析平台,27,数据挖掘平台针对行业的解决方案,28,数据挖掘平台对软件开发商二次开发,29,基于粗糙集的智能数据分析平台,RIDAS:基于Rough Set的研究平台,可用于数据挖掘开发:重庆邮电学院计算机科学与技术研究所,30,RIDAS功能,Complete Discretization Attribute reduction Value reduction Automation Sample test Sample recognizing Generating rules from incomplete
15、data set directly Training data collection Checking history,31,和其它系统比较,RIDAS界面,33,粗糙集算法,Discretization algorithm(11),Data complete algorithm(6),Cancel completeDiscernibility matrix based completeAverage complete条件平均补齐;组合补齐;条件组合补齐;,基于属性重要性的离散算法;Nave algorithm;Semi-Naive数据离散算法;Nguyen greedy algorithm;
16、Improved greedy algorithm 1;Improved greedy algorithm 2;基于断点重要性;等频率划分算法;等距离划分算法;基于信息熵算法 Entropy Scaler;Manual Scaler(手工指定断点);,34,Attribute reduction algorithms(12),Value reduction algorithms(5),General value reduction algorithm;归纳值约简算法;Discernibility matrix based value reduction algorithm;heuristic
17、value reduction algorithm;Skowron algorithm;,General attribute reduction algorithm;基于可辨识矩阵和 逻辑运算的属性约简算法;基于特征选择的属性约简算法;归纳属性约简算法;基于互信息的属性约简算法;Entropy based attribute reduction algorithm 1;Entropy based attribute reduction algorithm 2;动态约简算法;Gene reduction algorithm1;Gene reduction algorithm2;Gene redu
18、ction algorithm3;Manual reduction algorithm,35,存在问题,算法流程较固定引入新算法困难,模型单一支持数据格式不够处理能力和处理数据量局限较大无可视化支持无知识解释功能软件bug较多,非专业开发,36,数据挖掘系统如何支持PMML标准?,一个实际的数据挖掘系统D-Miner,37,急需人员加盟,系统分析员、软件工程方式管理更多挖掘算法和模型实现方便的模型和算法导入机制可视化支持,丰富的数据视图数据库等各种数据接口支持海量数据处理能力行业应用接口,38,基于Rough Set的海量数据挖掘算法研究,2004.9,思想简介,39,当前数据特点,数据规模巨
19、大:成百万、千万甚至更多的海量数据数据分布存储:集中处理代价极其昂贵数据来源广:甚至在格式和内容上也存在差距;数据特性未知:数据结构、内在联系和分布规律知之甚少如生物基因数据、空间数据和互联网络信息等数据包含不确定信息:数据不完备、冲突等数据日益增长:新数据可能与旧数据之间形成新的联系,呈现新的结构,甚至产生新的冲突,40,海量数据处理方案,直接处理海量数据全集的方法可伸缩Rough Set知识约简算法 分布式处理海量数据集的方法基于Rough Set的海量数据分割算法,41,可伸缩算法思想,42,解决方案,提出了类分布链表(CDL)的结构CDL包含每步数据处理所需所有信息通过CDL改进一组知
20、识约简算法求取信息熵离散化属性约简值约简,43,CDL的分类,一个CDL可以分为三个部分:不相容类分布链表(ICDL)知识约简的重点 单例相容分布链表(SSCDL)多例相容分布链表(MSCDL),44,通过CDL发现知识的过程,数据集,内存,知识,提取并载入,处理,ICDL,SSCDL,MSCDL,处理,DBMS,45,算法测试结果,环境训练集大小:10万至100万测试集大小:训练集的30%测试环境:通过VC6.0&SQL Server 2000编程实现值得注意:使用RIDAS系统不能训练如此大数据集结论改进算法可以提高算法的可伸缩性改进算法不损失正确率及识别率等性能能够处理大规模数据集CDL
21、的方法可以作为一种框架改进许多其他Rough Set算法的可伸缩性,分布式数据挖掘(DDM),Data Source,Data Source,Data Source,Data MiningAlgorithm,Data MiningAlgorithm,Data MiningAlgorithm,LocalModel,LocalModel,LocalModel,Local Model Aggregation,Final Model,47,分布式处理海量数据,分布式数据挖掘系统,?,?如何分割才是比较理想的呢,48,解决方法,通常的DDM系统都把重点放在了组合局部模型上了,在处理海量数据的时候采用随机
22、抽样的思想进行分割解决方案:提出了最佳分割的定义提出基于Rough Set的分割算法来找寻最佳分割如果一个信息系统经过分割后,我们可以从分割后的信息系统中得到与原始的信息系统相同的知识或者规则,则我们说这样的分割是最佳的分割。,49,父数据集,子数据集1,子数据集2,子数据集n,数据分割,子规则集1,子规则集2,子规则集n,父规则集,规则生成,组合规则,分布式学习模型,50,算法测试,正确性测试和不分割(RIDAS)、随机分割方案对比速度测试记录数:12960属性数:9海量数据测试记录数:581012属性数:55其中训练集数:300000,51,算法正确性测试方法,数据集,RIDAS,规则集,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘 数据 挖掘 PPT 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5519578.html