数据挖掘第二部分SPSSclementine11培训2cindy.ppt
Clementine 基础培训第二部分,学习机器学习的常用技术,比如神经网络,决策树等等,并学习如何将它们应用到业务数据,2006 SPSS Inc.,2,培训内容,第七章 Clementine 的建模技术第八章 神经网络第九章 规则归纳第十章 模型的比较和合并第十一章 Kohonen 网络 第十二章 关联规则第十三章 时序分析第十四章 其它模块,第七章 Clementine的建模技术,2006 SPSS Inc.,4,Clementine 建模,建模主要途径:预测 预测一个数字值或符号值关联 寻找可能一起发生的事件聚类 寻找表现相似事物的群体,2006 SPSS Inc.,5,预测模型,预测模型,有时提及为监督学习,输入用来为输出预测值Clementine 中有八个预测模型节点:神经网络四个不同的规则归纳方法:C5.0,QUEST,CHAID和C&R Tree线性和 Logistic 回归分析一个序列探测方法,2006 SPSS Inc.,6,聚类方法,聚类方法,有时提及为无监督学习,没有输出字段的概念Clementine中有三个聚类方法:Kohonen网络 K-means聚类两步聚类,2006 SPSS Inc.,7,关联技术,关联技术可以看成是推广的预测模型,在这里数据中的字段被同时看成输入和输出Clementine中有三个关联技术:AprioriGRI Carma 序列探测节点将会随着时间(也就是序列)寻找关联规则,2006 SPSS Inc.,8,什么是监督学习?,当我们知道模型输出时的一种建模技术我们将会“监督”这些算法并且告诉它们什么是我们想要预测的,2006 SPSS Inc.,9,什么是精炼?,一个精炼的模型可以直接 放置回数据流区域一个生成的模型创建的新字段(或者数据列)可能为:分组预测和关联值,精炼模型,未精炼模型,2006 SPSS Inc.,10,什么是预测?,决定一个数值或分类结果,2006 SPSS Inc.,11,什么是神经网络?,在输入的基础上预测结果的一种建模技术,这些输入在隐藏层上被权重修改和大脑内神经元的行为相似,2006 SPSS Inc.,12,什么是规则归纳?,显示预测的“原因”与神经网络对比构造规则集消除不重要的因素Clementine 为规则归纳提供 C5.0,C&R Tree QUEST和CHAID算法,2006 SPSS Inc.,13,什么是线性回归?,一种统计技术假定数据能够以线性的关系建立模型一般用来预测数字值,2006 SPSS Inc.,14,什么是 Logistic 回归?,一种与线性回归相似的统计技术,预测输入属于一个特殊输出分类的概率用来预测一个二元结果多项 logistic 回归预测多重结果,2006 SPSS Inc.,15,什么是主成分和因子分析?,通过把高度相关字段看成一样来减少字段数目的数据降维技术主成分分析找出最能够捕捉所有输入字段差异的输入字段的线性组合因子分析试图识别一组解释观察字段组内相关结构的概念,或者说因子主成分分析和因子分析的目标都是找出几个能够有效概括原始字段所含信息的导出字段,2006 SPSS Inc.,16,什么是聚类?,一系列将具有相似特征的 情形分组在一起的技术考虑将相似的事物分组到一起,2006 SPSS Inc.,17,什么是 Kohonen 网络?,将具有相似特征的情形分组在一起的聚类技术没有建立一个预测可以处理分类和连续字段有时候称为一个自组织映射(SOM),因为结果将生成一个二维“映射”,2006 SPSS Inc.,18,什么是 K-means 聚类?,更传统的聚类技术和其它分类技术又非常紧密相关,但是对于分类数据处理的不是很好,2006 SPSS Inc.,19,什么是两步聚类?,K-means 聚类需要终端用户去决定聚类数,两步聚类在统计算法的基础上决定聚类数并不像 Kohonen 那样需要大量的系统资源步骤:所有的记录进入最大聚类分组初始聚类合并在一起,2006 SPSS Inc.,20,什么是关联规则?,寻找一起发生的事件 在一家食品店的购买Clementine 为关联规则提供 GRI,Apriori 和 Carma 算法,和,和,2006 SPSS Inc.,21,什么是序列关联?,序列关联可以使用序列算法 寻找序列或事件的顺序,2006 SPSS Inc.,22,何时使用何种技术:,2006 SPSS Inc.,23,第八章,神经网络,2006 SPSS Inc.,24,第八章 神经网络,内容介绍神经网络节点创建一个神经网络介绍生成的模型面板浏览并解释结果评估模型目的展示如何在 Clementine 中创建一个神经网络,浏览生成的模型并解释输出结果,2006 SPSS Inc.,25,神经网络,设置变量类型过度训练模型敏感性分析生成的模型面板理解神经网络结果,2006 SPSS Inc.,26,表现评估,过程:训练模型测试模型评估模型不要单独使用训练数据评估模型的表现!为什么?在测试数据上模型的表现有可能恶化,因为模型没有一般性 训练过度即使 Clementine 有“避免过度训练”这个选项用来确保模型的有效性模型有可能在有偏的样本上建立(提高,减少),2006 SPSS Inc.,27,使用神经网络,建立一个神经网络用来预测字段 Risk类型节点设置字段:ID 类型设为无类型字段 RISK 方向设为输出实例化类型节点神经网络节点:设定随机种子233显示反馈图,2006 SPSS Inc.,28,生成的模型面板浏览模型,浏览输入字段的权重,2006 SPSS Inc.,29,测试模型,改变数据源为Riskvalidate.txt生成的模型节点直接连接类型节点使用分析节点,2006 SPSS Inc.,30,理解神经网络,生成的模型节点直接连接类型节点使用制表节点创建包含预测值的数据表格使用矩阵节点比较预测值和真值行 RISK,列$N-RISK行百分比使用评估图节点生成收益图和功效图选择包含最优线和基准线,2006 SPSS Inc.,31,输出结果,2006 SPSS Inc.,32,分析预测结果,两个符号字段使用网络图节点:字段 MARITAL 和$N-RISK 使用分布节点:字段 MARITAL颜色层叠字段$N-RISK,2006 SPSS Inc.,33,分析预测结果,一个数值字段一个符号字段使用直方图节点:字段 INCOME,颜色层叠字段$N-RISK字段 INCOME,颜色层叠字段 RISK比较生成的两个直方图,2006 SPSS Inc.,34,练习:预测Response to campaign,类型节点连接数据源节点(数据文件Charity)字段 Response to campaign 方向为输出以下五个字段 Pre-campaign expenditure,Pre-campaign visits,Gender,Age,Mosaic Bands(该字段需要把类型设置成集合)方向为输入神经网络节点连接类型节点使用默认设置生成并浏览神经网络模型查看其预测精度如何?哪些字段是最重要的?生成的神经网络模型连接类型节点,同时连接到矩阵节点建立一个预测 Response 和实际 Response 的矩阵哪一种在模型中预测的最好?利用网络图,条形图节点或数据稽查节点(选取一个颜色交叠字段)来分析预测结果定义流名称如 Network.str,并保存该流,2006 SPSS Inc.,35,第九章,规则归纳,2006 SPSS Inc.,36,第九章 规则归纳,内容介绍四个规则归纳节点:C5.0,CHAID,QUEST和 C&R Tree创建一个 C5.0规则模型浏览并解释结果创建一个规则集目的介绍如何在 Clementine 中建立一个规则归纳模型,浏览产生的模型并解释输出结果,以及如何通过决策树生成规则集,2006 SPSS Inc.,37,C5.0 与 C&RT,C5.0 仅仅处理符号数据输出建立决策树和规则集使用信息增益比率来拆分样本输入字段较多时,比较稳健C&RT 建立决策树,可以转换成规则集只建立二元拆分使用离差度量来拆分样本,2006 SPSS Inc.,38,使用 C5.0 规则归纳技术,使用 C5.0 来预测 RiskC5.0 节点设置:生成决策树浏览模型:完全展开树显示实例和置信度,2006 SPSS Inc.,39,从决策树生成并浏览规则集,2006 SPSS Inc.,40,理解结果,生成的模型节点直接连接类型节点使用制表节点创建含预测值的数据表格使用矩阵节点比较预测值和真值行 RISK,列$C-RISK行百分比,2006 SPSS Inc.,41,理解结果,使用评估图节点生成收益图选择包括最优线改变评估图的目标种类:选项条目用户定义“命中”TARGET=“good risk”比较收益图,2006 SPSS Inc.,42,练习:预测Response to campaign,打开前一章生成的数据流Network.str C5.0节点连接类型节点,使用默认设置生成并浏览C5.0规则节点完全展开所有规则,理解决策过程决策树是否与前面生成的神经网络模型类似生成的C5.0模型连接类型节点,同时连接到矩阵节点建立一个预测Response和实际Response的矩阵与神经网络模型相比,哪个模型预测精度更高?保存更新的流,2006 SPSS Inc.,43,第十章,模型的比较和合并,2006 SPSS Inc.,44,第十章 模型的比较和合并,内容用评估图和分析节点比较模型用验证数据比较模型合并使用神经网络和规则归纳目标介绍模型评估的方法,以及如何比较和合并神经网络和规则归纳,2006 SPSS Inc.,45,联合模型,使用分析节点来比较两个模型的预测结果我们可以联合模型并允许它们“投票决定”一个模型的预测我们可以使用一个模型的预测作为其它模型的输入我们可以使用一个模型来帮助我们理解其它模型,2006 SPSS Inc.,46,为什么使用多重模型?,决定哪些是输入字段特别为神经网络使用理解模型预测的逻辑性使用在神经网络之后用来更好的理解神经网络提高模型表现使用多重模型并“投票决定”模型使用多重模型:一个模型的预测结果用来预测别的模型理解模型在哪里犯错通过预测在哪里犯错来改正模型表现,2006 SPSS Inc.,47,比较模型,使用分析节点使用评估图使用验证数据:RiskValidate.txt,2006 SPSS Inc.,48,在神经网络前使用规则归纳,减少神经网络的输入使用生成的 C5.0 规则接点自动生成过滤节点可以发现字段ID,AGE 和MORTGAGE 被排除生成的过滤节点后使用神经网络,2006 SPSS Inc.,49,在神经网络后使用规则归纳,帮助理解神经网络类型节点中设置:RISK 和$NC-RISK 为无方向,$N-RISK 方向为输出使用 C5.0 在神经网络预测基础上生成规则集理解神经网络的预测原因,2006 SPSS Inc.,50,提高模型表现,测试和训练平衡数据标准化数据联合模型,2006 SPSS Inc.,51,练习:比较两个模型,打开数据流:Network.str重组数据流使生成的神经网络模型和 C5.0 模型在同一流中并与同一类型节点相连接添加分析节点到流中,并运行流哪个模型的预测精度更高?两个模型的预测结果中有多少是一致的?通过评估图来比较两个模型附加题:浏览生成的C5.0模型,并通过它生成过滤节点,并与类型节点相连规则的形成是基于全部的输入字段吗?,2006 SPSS Inc.,52,第十一章,Kohonen网络,2006 SPSS Inc.,53,第十一章 Kohonen 网络,内容介绍 Kohonen 节点创建一个 Kohonen 网络解释结果目的介绍如何用 Kohonen 节点分割和聚类数据,并解释结果,2006 SPSS Inc.,54,Kohonen 网络,细分或聚类数据的技术解释 Kohonen 网络的结果用图表描述细分或聚类聚类不是预测,而是寻找事物的自然分组,2006 SPSS Inc.,55,使用 Kohonen 网络,寻找相似购买者的分组Kohonen 节点设置:用户定义字段:Ready made 到 Tinned Goods或者在类型节点中设置所有非食物字段无方向指定随机种子数 1000专家选项:长度 3,宽度 3输出反馈图,2006 SPSS Inc.,56,理解 Kohonen 网络,2006 SPSS Inc.,57,理解 Kohonen 网络,关注主要类别:在浏览器中选择聚类 X、Y分别为 2、0的类别自动生成选择节点为每个聚类创建索引值导出字段 cluster导出规则$KX-Kohonen$KY-Kohonen使用其它字段建立图表描述聚类使用条形图节点生成导出的字段 cluster 的条形图选择颜色层叠字段,2006 SPSS Inc.,58,用条形图观察聚类,2006 SPSS Inc.,59,在散点图中观察聚类,使用散点图节点创建散点图散点图节点连接生成的Kohonen 节点X 字段$KX-KohonenY 字段$KY-Kohonen选项条目设置搅动为 0.3选择颜色交叠字段,2006 SPSS Inc.,60,练习:划分群体,变量文件节点(UKTraining.txt)类型条目设置字段Id,Total Spend,Sector,Venue,Number of Courses,Mini Subscription,Privilege Card,Subscription 无方向制表节点查看数据Kohonen 网络节点连接变量文件节点:在专家选项中,把 长度和宽度设成 3,生成并浏览模型点击浏览器,浏览生成的聚类结果,尝试解释主要类别生成选择节点连接生成的 Kohonen 网络节点选择主要类别导出节点连接生成的选择节点为每个类别创建索引值聚类结果与以下字段有什么关系?能否找到其它模式?Region,Mini Subscription or 5 day deal,Subscription,Privilege Card保存流,命名为 Kohonen.str,2006 SPSS Inc.,61,第十二章,关联规则,2006 SPSS Inc.,62,第十二章 关联规则,内容介绍两种生成关联规则的方法使用 Apriori 节点建立一组关联规则解释结果目的介绍 Clementine 中如何能够使用 GRI,Apriori 或Carma 节点生成一组关联规则,示范 Apriori 节点并浏览生成的模型,2006 SPSS Inc.,63,Clementine中的关联规则,Clementine中有三种不同的关联规则:广义规则归纳(GRI),Apriori 和 Carma 关联规则形式:前提 结果规则1规则2规则R完全形式:结果 前提 实例 支持 置信度 规则支持,2006 SPSS Inc.,64,关联规则,GRI 允许符号和数值数据作为输入产生未精炼模型APRIORI 只允许符号输入结果显示为:,2006 SPSS Inc.,65,使用Apriori节点,类型节点中设置:产品字段方向设置为两者人口统计字段为无方向Apriori 节点中设置:选择标记字段只有真值浏览生成的关联规则,2006 SPSS Inc.,66,建立更多关联规则,先前生成的模型只产生 4个规则为了创建更多规则,可以降低规则置信度的值编辑 Apriori 节点:降低“最小规则置信度”到 75%生成并评估新规则,2006 SPSS Inc.,67,使用关联,生成规则集:规则集名 Alcohol,目标字段 Alcohol,默认值0浏览生成的规则集从规则集生成过滤节点过滤规则中无用的字段Fresh Vegetables,Fresh Meat,Toiletries,Tinned Goods 和人口统计字段,2006 SPSS Inc.,68,练习:购物篮分析,打开数据流:Kohonen.str设置变量文件节点类型条目把所有课程字段的方向设置为 bothApriori 节点连接变量文件节点,并执行流设置最小规则支持度为1%,最小规则置信度为50%标记字段只显示真值浏览生成的 Apriori 模型并以支持度和置信度排序这些规则有意义吗?,2006 SPSS Inc.,69,第十三章,时序分析,2006 SPSS Inc.,70,第十三章 时序分析,内容介绍时序分析方法使用序列节点发现序列中的规则解释序列规则并且增加序列预测到流中目的介绍Clementine如何能识别时序数据中公共的序列,示范序列节点,浏览生成的模型,以及如何使用预测结果,2006 SPSS Inc.,71,介绍,序列节点分析结果形式 前提 结果规则1规则2规则R序列规则:前提1 前提2 前提N=结果完全形式:前提 结果 实例 支持 置信度 规则支持关联规则实例仅仅是相配前提的记录序列规则实例相配整个规则的记录,2006 SPSS Inc.,72,序列节点,序列节点设置:ID 字段 ID选择ID号相邻时间字段 Index1内容字段 Stage,2006 SPSS Inc.,73,探索序列和模型预测,浏览生成的序列规则集增加实例和规则支持度到规则统计表通过支持度排序生成的序列规则集节点连接类型节点使用制表节点生成表格前三个序列预测,2006 SPSS Inc.,74,练习:电信业维修问题,变量文件节点(FailTelRepair.txt)制表节点查看数据序列节点连接变量文件节点在ID field项选择ID,time field项选择Index1,content field项下选择Stage运行流,再简单模式下进行序列检测分析浏览生成的规则集哪些序列事置信度最高?哪些序列事件支持度最高?使用其他的排序方式增加对规则集的了解比较本章输出的结果是否可以找到与代码299(代表维修失败)关联较多而与代码210(代表维修成功)关联较少的阶段代码可以帮助理解那个阶段会导致维修失败,2006 SPSS Inc.,75,第十四章 其它模块,其它模块,2006 SPSS Inc.,76,第十四章 其它模块,内容介绍Clementine Server 介绍Clementine Solution Publisher 介绍CEMI介绍Clementine Scripts 介绍Cleo介绍Text Mining for Clementine Predictive Marketing和Predictive Web Analytics提高模型性能的建议,2006 SPSS Inc.,77,Clementine Server,2006 SPSS Inc.,78,Clementine Solution Publisher,2006 SPSS Inc.,79,CEMI,2006 SPSS Inc.,80,Clementine Scripts,2006 SPSS Inc.,81,Cleo,2006 SPSS Inc.,82,Text Mining for Clementine,2006 SPSS Inc.,83,提高模型性能的建议,平衡数据转换数据联合模型方法,