高级人工智能课件.pptx
2019年6月23,感谢你的观看,1,高级人工智能,第十三章 知识发现(二)xxx 中国科学院计算技术所,2019年6月23,感谢你的观看,2,主要内容,研究背景MSMiner体系结构元数据数据仓库平台数据采掘集成工具,2019年6月23,感谢你的观看,3,典型的知识发现系统,SAS公司的SAS Enterprise Miner IBM公司的Intelligent Miner Solution公司的Clementine加拿大Simon Fraser Univ.的DBMiner中科院计算技术研究所的MSMiner等,2019年6月23,感谢你的观看,4,知识发现工具SAS,SAS公司的SAS Enterprise Miner是一种通用的数据挖掘工具。通过收集分析各种统计资料和客户购买模式,SAS Enterprise Miner可以帮助您发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收入、降低成本。,2019年6月23,感谢你的观看,5,知识发现工具SAS,SAS Enterprise Miner提供抽样-探索-转换-建模-评估(SEMMA)的处理流程。数据挖掘算法有:聚类分析,SOM/KOHONEN神经网络分类算法 关联模式/序列模式分析 多元回归模型 决策树模型(C45,CHAID,CART)神经网络模型(MLP,RBF)SAS/STAT,SAS/ETS等模块提供的统计分析模型和时间序列分析模型也可嵌入其中。,2019年6月23,感谢你的观看,6,知识发现工具Intelligent Miner,IBM公司的Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。它可以自动实现数据选择、数据转换、数据发掘和结果显示。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。,2019年6月23,感谢你的观看,7,知识发现工具Clementine,Solution公司的Clementine 提供了一个可视化的快速建立模型的环境。它由数据获取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和报告(Reporting)等部分组成。都使用一些有效、易用的按钮表示,用户只需用鼠标将这些组件连接起来建立一个数据流,可视化的界面使得数据挖掘更加直观交互,从而可以将用户的商业知识在每一步中更好的利用。,2019年6月23,感谢你的观看,8,数据挖掘工具:公用系统,MLC+MatlabWeka,2019年6月23,感谢你的观看,9,知识发现工具MSMiner,中科院计算技术研究所智能信息处理开放实验室开发的MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。MSMiner具有下列特点:.基于数据仓库和新型的元数据管理按照主题创建数据仓库,并通过元数据进行管理和维护。.数据的抽取、转换、装载等预处理方便,支持OLAP查询。,2019年6月23,感谢你的观看,10,MSMiner的特点,提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经计算等多种数据挖掘算法,支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖掘功能,并支持高层次的决策分析功能。实现了可视化的任务编辑环境,以及功能强大的任务处理引擎,能够快捷有效地实现各种数据转换和数据挖掘任务。可扩展性好。转换规则和挖掘算法是封装的、模块化的,系统提供了一个开放的、灵活通用的接口,使用户能够加入新的规则和算法。容易进行二次开发。,2019年6月23,感谢你的观看,11,数据仓库:特征,面向主题集成性稳定性随时间变化,2019年6月23,感谢你的观看,12,数据仓库:OLAP,ROLAP:Relational OLAPMOLAP:Multidimensional OLAPHOLAP:Hybrid OLAP,2019年6月23,感谢你的观看,13,数据挖掘和数据仓库的结合,数据仓库为数据挖掘提供经良好处理的数据源数据挖掘为数据仓库提供深层数据分析手段,2019年6月23,感谢你的观看,14,MSMiner体系结构,设计目标:提供快捷有效的数据挖掘解决方案。设计要求:开放性可扩展性效率易用性,2019年6月23,感谢你的观看,15,MSMiner体系结构,2019年6月23,感谢你的观看,16,元数据的内容,关于外部数据源的关于内部数据的(包括数据库、表、字段的信息)关于数据仓库的(包括事实表、维表、立方以及其它的中间表)关于用户信息的数据采掘算法(包括算法的参数信息)关于采掘任务的(包括采掘步骤、每个步骤的所用的参数),2019年6月23,感谢你的观看,17,元数据:元数据库,2019年6月23,感谢你的观看,18,元数据:元数据对象模型,设计思路一致性完备性易维护性,2019年6月23,感谢你的观看,19,元数据是层次的嵌套的封装的互相联系的采用面向对象的方法共有60多个类,元数据的结构,2019年6月23,感谢你的观看,20,数据仓库平台:结构,2019年6月23,感谢你的观看,21,数据仓库平台:数据抽取和集成,数据的简单抽取和集成数据的复杂处理面向数据挖掘的数据预处理,2019年6月23,感谢你的观看,22,数据抽取和集成:MSETL,MSETL系统作为MSMiner数据挖掘平台的一个重要组成部分,主要完成从业务数据源到分析数据源的转换功能。具体包括从异质业务数据源中抽取需要的数据,对这些数据进行多种预处理,把经过处理后的数据装载入指定数据仓库/数据库,2019年6月23,感谢你的观看,23,数据抽取和集成:MSETL,2019年6月23,感谢你的观看,24,数据抽取和集成:MSETL,支持多种数据源和目的数据库良好的可扩充性高效率的调度执行功能增量更新功能,2019年6月23,感谢你的观看,25,数据抽取和集成:MSETL,2019年6月23,感谢你的观看,26,数据抽取和集成:MSETL,2019年6月23,感谢你的观看,27,数据仓库平台:数据仓库建模,产品号产品名称产品目录,产品维表,订单号订货日期,订货维表,客户号客户名称客户地址,客户维表,产品号客户号订单号时间标识地区名称产品数量总价,事实表,时间标识月季度年,时间维表,地区名称省别,地区维表,星型模型,2019年6月23,感谢你的观看,28,OLAP,MOLAP,ROLAP,HOLAPOLAP 的操作Slice(切片)Dice(切块)Roll up(上卷)Drill down(下钻)Pivot(旋转)OLAP方案采用了自主开发的 OLAP Server,2019年6月23,感谢你的观看,29,数据立方体,2019年6月23,感谢你的观看,30,数据仓库平台:OLAP的实现,2019年6月23,感谢你的观看,31,数据挖掘集成工具:结构,数据挖掘集成工具结构示意图,数据仓库平台,任务编辑,任务规划和执行,算法库,算法管理,元数据任务模型库、算法描述,2019年6月23,感谢你的观看,32,数据挖掘集成工具:数据挖掘任务模型,Step1,Step2,Step4,Step3,Step5,DMTask=(V,R)V=x|x StepObjectsR=|P(x,y)x,yV,2019年6月23,感谢你的观看,33,数据挖掘集成工具:数据挖掘任务模型,步骤对象BNF语法定义::=;:=|;:=,:=|;:=,:=|:=|:=*,2019年6月23,感谢你的观看,34,数据挖掘集成工具:编辑任务模型,任务向导,2019年6月23,感谢你的观看,35,数据挖掘集成工具:编辑任务模型,任务编辑图板,2019年6月23,感谢你的观看,36,数据挖掘集成工具:处理任务模型,人机界面,主控模块,规划器,解释器,缓存,函数库,黑板,任务模型库,数据采掘任务处理引擎的结构,2019年6月23,感谢你的观看,37,数据挖掘集成工具:处理任务模型,任务规划和解释执行,S1-S2-S3-S4-S5,2019年6月23,感谢你的观看,38,数据挖掘集成工具:DML语言,DML函数,人机交互和控制台输入/输出数值计算字符串处理图形、图表展示文件操作数据库访问,网络通讯对象访问消息处理和流程控制黑板操作外部功能调用其它辅助功能,2019年6月23,感谢你的观看,39,数据挖掘集成工具:内嵌,决策树SOM神经网络粗糙集关联规则,2019年6月23,感谢你的观看,40,决策树,2019年6月23,感谢你的观看,41,知识约简,知识约简在保持知识库的分类或决策能力不变的条件下,删除其中不相关或不重要知识冗余知识资源的浪费;干扰人们作出正确而简洁的决策Rough Set把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集(Z.Pawlak)知识约简是粗糙集的核心内容之一,2019年6月23,感谢你的观看,42,Rough Set约简,2019年6月23,感谢你的观看,43,数据挖掘集成工具:外联,BP神经网络统计分析模糊聚类超曲面分类SVM贝叶斯网络基于范例推理(CBR)隐马尔科夫模型(HMM),2019年6月23,感谢你的观看,44,BP用于预测,2019年6月23,感谢你的观看,45,统计工具,线性回归模型一元线性回归、多元线性回归、逐步回归 非线性回归模型二次曲线、三次曲线、指数曲线、幂指数曲线、生产函数等模型 确定型时间序列模型指数平滑法、趋势移动平均法(水平趋势、线性趋势和二次曲线趋势)、成长曲线模型(Compertz曲线、Logistic曲线和修正指数曲线)、季节指数法随机型时间序列模型(自回归移动平均模型ARMA)相关分析,2019年6月23,感谢你的观看,46,自回归移动平均(ARMA),2019年6月23,感谢你的观看,47,模糊聚类,基于传递闭包的模糊聚类计算模糊相似矩阵的传递闭包,从而获得传递闭包法的模糊聚类基于摄动的模糊聚类参数系相似矩阵的最优模糊等价阵及其等价标准型获得失真最小的模糊聚类,2019年6月23,感谢你的观看,48,数据挖掘集成工具:可扩展算法库,算法注册,2019年6月23,感谢你的观看,49,MSMiner的应用:计算机选案,决策树选案,执行选案,选案结果分析,定义样本模板,训练样本数据,选案规则,样本数据表,数据汇总表,税务稽查计算机选案系统功能结构,2019年6月23,感谢你的观看,50,MSMiner的应用:计算机选案,挖掘结果:,2019年6月23,感谢你的观看,51,2019年6月23,感谢你的观看,52,进一步的工作,与用户合作开发应用实例进一步完善工作流完善和丰富数据挖掘算法库算法评测功能。,2019年6月23,感谢你的观看,53,