数据挖掘软件Clementine介绍.ppt
数据挖掘软件CLEMENTINE介绍,Clementine产品介绍,Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。,Clementine中的Data Mining 的方法,ClassificationClusteringEstimationPredictionMarket Basket AnalysisDescription,预测和分类推估类似,不同在于是预測未來,將新资料带入既有资料建立的模型预见結果銀行新申请信用卡的客戶要給多少额度,估计和分类的不同在於目标变量为连续值,常和分类配合用分类判断为会贷款客户后再推估会贷款的金額,聚类非监督式,未知有几类,将性质类似的资料加以区分,把顾客资料分群对不同群体采用不同推销手法,购物篮分析找出哪些事件会一起发生超級市场发現男性客戶会一起购买啤酒跟尿布,描述增进对于资料的认识,图形视觉化呈现,或规則、决策树等,相关技术神经网络决策树(C5.0 C&RT)Logistic 回归等等,相关技术K-Means两步骤Kohonen等等,相关技术分类跟估计的所有方法,相关技术AprioriGRI等等,相关技术决策树规则各类图表等等,分类目标变量(因变量、反应变量数)为类別的狀況信用卡公司將既有资料分为伪卡非伪卡找出伪卡的模式,数据挖掘应用-业务建摸,神经网络 Neural Networks,聚类分析 Clustering,OpenAccnt,Add NewProduct,DecreaseUsage,?,Time,序列分析 Sequence Analysis,决策树 Decision Trees,倾向性分析,客户保留 客户生命周期管理 目标市场 价格弹性分析,客户细分 市场细分,倾向性分析 客户保留 目标市场 欺诈检测,关联分析 Association,市场组合分析 套装产品分析 目录设计 交叉销售,Clementine面板,Clementine的使用,1打开一个流文件,2执行流文件中的某一流程,3得到结果,4浏览结果1,4浏览结果2,5浏览结果3,Clementine流文件的建立,1读取数据文件1,在节点区,双击文件读入节点,在流区出现其图标,再在流工作区,双击文件读入节点,读入所需数据文件。,读取数据文件2,对数据进行处理,1,2,4,5,6 去掉两个变量Na、K,3 增加新变量:Na_to_K=Na/K,定义变量的方向,在节点区双击Type节点,使之在流区中出现,把Drug的Direction从in(输入)改为out(输出),作分类处理,保存流文件,读取文本数据与查看数据,Clementine可以读入的数据文件,文本格式数据 SPSS/SAS数据 Excel,Access,dBase,Foxpro,Oracle,SQL Server,DB2等数据库 用户输入数据文件读入节点:,读取文本数据与查看数据,查看数据1,点击Data 和Types,出现数据的属性,查看数据2,点击Table,使之出现在流工作区,再点击Execute(执行),得到右面图表:,Clementine中的字段类,离散型 二分 eg:sex:m/f 多分 eg:等级:好/中/差 离散 eg:连续型 整数 实数 日期、时间 其它,数据理解之数据质量,缺失值的检查:quality节点,点击Quality节点,使之出现在工作区,再执行Quality,出现数据质量表,从中可以看出,数据100%有效,一共有200个有效数据。,Distribution节点-初步 理解字符型字段的分布,1,2,3,4,简单数据整理,Derive节点介绍,2 增加新变量:Na_to_K=Na/K,根据原有字段值生成新字段值,Filter节点介绍,对某些字段进行重命名或丢弃某些无意义的字段,去掉两个变量Na、K,数据理解之数据间简单关系,Web节点-研究字符型字段间关系1,Web节点-研究字符型字段间关系2,执行后,得到字符间的网状连系,其中粗线条,表示字符之间的强联系。,Statistics节点-研究连 续型字段间线性相关关系,得到Na_to_K的统计属性,及它与Age的线性关系,2规则归纳模型 规则归纳模型 c5.0,3 crt决策树,4 kohonen聚类,5 k-means聚类,6 two step 聚类,7 apriori关联规则模型,