数据挖掘第二部分SPSSclementine11培训2cindy.ppt
《数据挖掘第二部分SPSSclementine11培训2cindy.ppt》由会员分享,可在线阅读,更多相关《数据挖掘第二部分SPSSclementine11培训2cindy.ppt(83页珍藏版)》请在三一办公上搜索。
1、Clementine 基础培训第二部分,学习机器学习的常用技术,比如神经网络,决策树等等,并学习如何将它们应用到业务数据,2006 SPSS Inc.,2,培训内容,第七章 Clementine 的建模技术第八章 神经网络第九章 规则归纳第十章 模型的比较和合并第十一章 Kohonen 网络 第十二章 关联规则第十三章 时序分析第十四章 其它模块,第七章 Clementine的建模技术,2006 SPSS Inc.,4,Clementine 建模,建模主要途径:预测 预测一个数字值或符号值关联 寻找可能一起发生的事件聚类 寻找表现相似事物的群体,2006 SPSS Inc.,5,预测模型,预测
2、模型,有时提及为监督学习,输入用来为输出预测值Clementine 中有八个预测模型节点:神经网络四个不同的规则归纳方法:C5.0,QUEST,CHAID和C&R Tree线性和 Logistic 回归分析一个序列探测方法,2006 SPSS Inc.,6,聚类方法,聚类方法,有时提及为无监督学习,没有输出字段的概念Clementine中有三个聚类方法:Kohonen网络 K-means聚类两步聚类,2006 SPSS Inc.,7,关联技术,关联技术可以看成是推广的预测模型,在这里数据中的字段被同时看成输入和输出Clementine中有三个关联技术:AprioriGRI Carma 序列探测
3、节点将会随着时间(也就是序列)寻找关联规则,2006 SPSS Inc.,8,什么是监督学习?,当我们知道模型输出时的一种建模技术我们将会“监督”这些算法并且告诉它们什么是我们想要预测的,2006 SPSS Inc.,9,什么是精炼?,一个精炼的模型可以直接 放置回数据流区域一个生成的模型创建的新字段(或者数据列)可能为:分组预测和关联值,精炼模型,未精炼模型,2006 SPSS Inc.,10,什么是预测?,决定一个数值或分类结果,2006 SPSS Inc.,11,什么是神经网络?,在输入的基础上预测结果的一种建模技术,这些输入在隐藏层上被权重修改和大脑内神经元的行为相似,2006 SPS
4、S Inc.,12,什么是规则归纳?,显示预测的“原因”与神经网络对比构造规则集消除不重要的因素Clementine 为规则归纳提供 C5.0,C&R Tree QUEST和CHAID算法,2006 SPSS Inc.,13,什么是线性回归?,一种统计技术假定数据能够以线性的关系建立模型一般用来预测数字值,2006 SPSS Inc.,14,什么是 Logistic 回归?,一种与线性回归相似的统计技术,预测输入属于一个特殊输出分类的概率用来预测一个二元结果多项 logistic 回归预测多重结果,2006 SPSS Inc.,15,什么是主成分和因子分析?,通过把高度相关字段看成一样来减少字
5、段数目的数据降维技术主成分分析找出最能够捕捉所有输入字段差异的输入字段的线性组合因子分析试图识别一组解释观察字段组内相关结构的概念,或者说因子主成分分析和因子分析的目标都是找出几个能够有效概括原始字段所含信息的导出字段,2006 SPSS Inc.,16,什么是聚类?,一系列将具有相似特征的 情形分组在一起的技术考虑将相似的事物分组到一起,2006 SPSS Inc.,17,什么是 Kohonen 网络?,将具有相似特征的情形分组在一起的聚类技术没有建立一个预测可以处理分类和连续字段有时候称为一个自组织映射(SOM),因为结果将生成一个二维“映射”,2006 SPSS Inc.,18,什么是
6、K-means 聚类?,更传统的聚类技术和其它分类技术又非常紧密相关,但是对于分类数据处理的不是很好,2006 SPSS Inc.,19,什么是两步聚类?,K-means 聚类需要终端用户去决定聚类数,两步聚类在统计算法的基础上决定聚类数并不像 Kohonen 那样需要大量的系统资源步骤:所有的记录进入最大聚类分组初始聚类合并在一起,2006 SPSS Inc.,20,什么是关联规则?,寻找一起发生的事件 在一家食品店的购买Clementine 为关联规则提供 GRI,Apriori 和 Carma 算法,和,和,2006 SPSS Inc.,21,什么是序列关联?,序列关联可以使用序列算法
7、寻找序列或事件的顺序,2006 SPSS Inc.,22,何时使用何种技术:,2006 SPSS Inc.,23,第八章,神经网络,2006 SPSS Inc.,24,第八章 神经网络,内容介绍神经网络节点创建一个神经网络介绍生成的模型面板浏览并解释结果评估模型目的展示如何在 Clementine 中创建一个神经网络,浏览生成的模型并解释输出结果,2006 SPSS Inc.,25,神经网络,设置变量类型过度训练模型敏感性分析生成的模型面板理解神经网络结果,2006 SPSS Inc.,26,表现评估,过程:训练模型测试模型评估模型不要单独使用训练数据评估模型的表现!为什么?在测试数据上模型的
8、表现有可能恶化,因为模型没有一般性 训练过度即使 Clementine 有“避免过度训练”这个选项用来确保模型的有效性模型有可能在有偏的样本上建立(提高,减少),2006 SPSS Inc.,27,使用神经网络,建立一个神经网络用来预测字段 Risk类型节点设置字段:ID 类型设为无类型字段 RISK 方向设为输出实例化类型节点神经网络节点:设定随机种子233显示反馈图,2006 SPSS Inc.,28,生成的模型面板浏览模型,浏览输入字段的权重,2006 SPSS Inc.,29,测试模型,改变数据源为Riskvalidate.txt生成的模型节点直接连接类型节点使用分析节点,2006 S
9、PSS Inc.,30,理解神经网络,生成的模型节点直接连接类型节点使用制表节点创建包含预测值的数据表格使用矩阵节点比较预测值和真值行 RISK,列$N-RISK行百分比使用评估图节点生成收益图和功效图选择包含最优线和基准线,2006 SPSS Inc.,31,输出结果,2006 SPSS Inc.,32,分析预测结果,两个符号字段使用网络图节点:字段 MARITAL 和$N-RISK 使用分布节点:字段 MARITAL颜色层叠字段$N-RISK,2006 SPSS Inc.,33,分析预测结果,一个数值字段一个符号字段使用直方图节点:字段 INCOME,颜色层叠字段$N-RISK字段 INC
10、OME,颜色层叠字段 RISK比较生成的两个直方图,2006 SPSS Inc.,34,练习:预测Response to campaign,类型节点连接数据源节点(数据文件Charity)字段 Response to campaign 方向为输出以下五个字段 Pre-campaign expenditure,Pre-campaign visits,Gender,Age,Mosaic Bands(该字段需要把类型设置成集合)方向为输入神经网络节点连接类型节点使用默认设置生成并浏览神经网络模型查看其预测精度如何?哪些字段是最重要的?生成的神经网络模型连接类型节点,同时连接到矩阵节点建立一个预测 R
11、esponse 和实际 Response 的矩阵哪一种在模型中预测的最好?利用网络图,条形图节点或数据稽查节点(选取一个颜色交叠字段)来分析预测结果定义流名称如 Network.str,并保存该流,2006 SPSS Inc.,35,第九章,规则归纳,2006 SPSS Inc.,36,第九章 规则归纳,内容介绍四个规则归纳节点:C5.0,CHAID,QUEST和 C&R Tree创建一个 C5.0规则模型浏览并解释结果创建一个规则集目的介绍如何在 Clementine 中建立一个规则归纳模型,浏览产生的模型并解释输出结果,以及如何通过决策树生成规则集,2006 SPSS Inc.,37,C5
12、.0 与 C&RT,C5.0 仅仅处理符号数据输出建立决策树和规则集使用信息增益比率来拆分样本输入字段较多时,比较稳健C&RT 建立决策树,可以转换成规则集只建立二元拆分使用离差度量来拆分样本,2006 SPSS Inc.,38,使用 C5.0 规则归纳技术,使用 C5.0 来预测 RiskC5.0 节点设置:生成决策树浏览模型:完全展开树显示实例和置信度,2006 SPSS Inc.,39,从决策树生成并浏览规则集,2006 SPSS Inc.,40,理解结果,生成的模型节点直接连接类型节点使用制表节点创建含预测值的数据表格使用矩阵节点比较预测值和真值行 RISK,列$C-RISK行百分比,
13、2006 SPSS Inc.,41,理解结果,使用评估图节点生成收益图选择包括最优线改变评估图的目标种类:选项条目用户定义“命中”TARGET=“good risk”比较收益图,2006 SPSS Inc.,42,练习:预测Response to campaign,打开前一章生成的数据流Network.str C5.0节点连接类型节点,使用默认设置生成并浏览C5.0规则节点完全展开所有规则,理解决策过程决策树是否与前面生成的神经网络模型类似生成的C5.0模型连接类型节点,同时连接到矩阵节点建立一个预测Response和实际Response的矩阵与神经网络模型相比,哪个模型预测精度更高?保存更新
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 第二 部分 SPSSclementine11 培训 cindy
链接地址:https://www.31ppt.com/p-5361654.html