数据挖掘第一部分SPSSclementine11培训1cindy.ppt
《数据挖掘第一部分SPSSclementine11培训1cindy.ppt》由会员分享,可在线阅读,更多相关《数据挖掘第一部分SPSSclementine11培训1cindy.ppt(79页珍藏版)》请在三一办公上搜索。
1、Clementine基础培训第一部分,介绍Clementine数据挖掘软件的基本操作和环境,学习如何使用Clementine读取、处理数据,2006 SPSS Inc.,2,培训内容,第一章 数据挖掘简介第二章 Clementine简介第三章 读取数据文件第四章 数据质量第五章 数据处理第六章 寻找数据之间的关系,第一章 数据挖掘简介,2006 SPSS Inc.,4,第一章 数据挖掘简介,内容介绍数据挖掘概念介绍CRISP-DM(跨行业数据挖掘标准流程)概述课程计划目的介绍数据挖掘过程,理解数据挖掘中的术语和关键概念,以及如何使用 CRISP-DM 过程模型管理一个数据挖掘项目,2006 S
2、PSS Inc.,5,什么是数据挖掘?,利用各种技术发现数据的隐含关系(知识)使用历史数据预测、分类,并且预测未来常用技术:人工智能、机器学习、决策树一个交互、反复的过程,2006 SPSS Inc.,6,Clementine 中对数据挖掘的支持,主动支持:计算机使用各种算法在数据中识别规则和关系被动支持:使用者处理并且浏览数据来寻找可疑的关系,2006 SPSS Inc.,7,数据,数据是可以得到的吗?数据包含所需要了解的属性吗?数据是否有噪声?数据量足够吗?可以获得关于数据的专家知识吗?,2006 SPSS Inc.,8,数据挖掘的策略(计划性),主要想解决什么样的问题?可以得到什么样的数
3、据来源,并且与当前问题相关的是哪部分数据?在挖掘数据前,需要做什么样的数据预整理和数据清洗?将会使用什么样的数据挖掘技巧?将会如何评估数据挖掘的分析结果?,2006 SPSS Inc.,9,CRISP-DM 过程模型,跨行业数据挖掘标准过程(CRISPDM)定位是面向行业、工具导向、面向应用适用于大型工业和商业实践的一般标准六个阶段:商业理解数据理解数据准备建模模型评估结果发布,2006 SPSS Inc.,10,课程计划,数据挖掘及数据挖掘软件数据理解:从数据源抽取数据用表格图形技术透视数据处理缺失值数据准备:针对记录的数据准备,如选择记录、对记录排序针对字段的数据准备,如生成新的字段针对文
4、件的数据准备,如合并文件,2006 SPSS Inc.,11,课程计划,建模技术:监督学习技术,神经网络、归纳规则(决策树)、线性回归、Logistic 回归非监督学习技术,Kohonen 网络、两步聚类、K-means 聚类关联规则、时序探测模型评估如何应用 CRISP-DM 流程研究数据挖掘问题,第二章 Clementine简介,2006 SPSS Inc.,13,Clementine 简介,内容熟悉 Clementine 中的工具和面板介绍可视化编程的思想目的初步了解 Clementine 的功能数据课程的数据文件存放在目录“C:培训基础培训1”中,2006 SPSS Inc.,14,C
5、lementine用户界面,数据流区域,数据流,输出和模型管理器,项目窗口,2006 SPSS Inc.,15,可视化编程,节点一个图标代表在 Clementine 中进行的一个操作工作流一系列连接在一起的节点选项板包含一系列不同功能的图标,2006 SPSS Inc.,16,选项板,源节点用来将数据读入 Clementine 中记录选项节点在记录上进行操作一条记录是一种“情形”或一“行”数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意:建模算法产生生成的模型,2006 SPSS Inc.,17,在下面一部分举例:,增加一个节
6、点移动一个节点编辑一个节点重新命名一个节点复制一个节点删除一个节点,注释一个节点保存一个节点重新载入一个节点连接节点删除节点连接获得帮助,2006 SPSS Inc.,18,增加一个节点,在选项板上双击节点,自动放置节点到数据流区域注意:它会自动地连接到“中心”节点将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下,未选择,选择,当节点在选项板中被选中后,会变成淡蓝色,2006 SPSS Inc.,19,编辑一个节点,在节点上右击,展开一个节点点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作,2006 SPSS Inc.,
7、20,连接节点,使用鼠标中键来连接节点在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程),通过双击来连接节点双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上,未选中的节点(灰白色),被选中的节点(淡蓝色),2006 SPSS Inc.,21,删除节点之间的连接,在连接箭头的头部按住鼠标右键选择“删除连接”,2006 SPSS Inc.,22,关于连接节点:源节点,源节点是连接到初始数据源的节点源节点只能发送数据不能连接到一个源节点,2006 SPSS Inc.,23,关于连接节点:终端
8、节点,终端节点是生成输出、图形、表格和模型的节点不能从终端节点连接到任何节点,2006 SPSS Inc.,24,设置目录,为了方便地存取数据文件或流,您可以将目录设定为自己文件的位置只在本次操作中起作用通过选择菜单“文件”中“设置目录”选项,然后输入或选择工作目录,2006 SPSS Inc.,25,Clementine 客户端和服务器端,Clementine 可以运行在 客户端和服务器端两种模式下默认的模式是客户端在菜单“工具”中选择“服务器登录”注意 Clementine 客户端和服务器端版本必须匹配,2006 SPSS Inc.,26,帮助菜单,帮助主题CRISP-DM 帮助教程软件使
9、用辅助选项帮助键盘代替鼠标操作 这是什么,2006 SPSS Inc.,27,练习:熟悉 Clementine 的环境,熟悉Clementine的环境:菜单帮助练习在数据流区域加入节点:选择变项文件节点从输出选项板中,选择表节点连接两个节点编辑变项文件节点断开节点之间的连接删除节点,第三章 读取数据文件,2006 SPSS Inc.,29,课程简介,内容Clementine 中可以读取的数据格式读取文本数据文件读取 SPSS 数据文件使用 ODBC 读取数据库查看数据Clementine 中的数据类型和字段方向保存 Clementine 数据流目的介绍数据读入 Clementine 的一些方法
10、,2006 SPSS Inc.,30,Clementine 中读取数据格式,文本文件SPSS 数据文件ODBC 兼容的数据库SAS 数据文件用户输入文件,2006 SPSS Inc.,31,文本文件,自由字段文本文件是包含分隔符(逗号、制表符、空格或一些其它字符)的数据文件,可以使用变项文件节点读取数据如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定文本文件导入固定文件节点读取文件SmallSampleComma.txtSmallSampleFixed.txt,2006 SPSS Inc.,32,读取自由字段文本文件,添加变量文件节点到数据流区域编辑节点指向文件
11、 SmallSampleComma.txt通过选择“类型”条目检查结果,2006 SPSS Inc.,33,读取固定字段文本文件,移动一个固定文件节点到数据流区域编辑这个节点指向文件 SmallSampleFixed.txt构造 4 个新字段,列出变量名和字段长度交互式手动输入,2006 SPSS Inc.,34,读取 SPSS 数据文件,添加 SPSS 文件节点到数据流区域编辑节点,指向文件 SmallSample.savSPSS 数据文件有特殊的“标签”:变量标签描述字段数值标签附上解释数值的编码,2006 SPSS Inc.,35,数据库节点,使用数据库节点前必须配置 ODBC 驱动去指
12、定数据库的位置“控制面板-管理工具”选择 ODBC选择“添加”,2006 SPSS Inc.,36,添加 ODBC 数据源,选择合适的 ODBC 驱动,该驱动应该匹配数据库的名称和版本数据源 Holidays数据库文件custandhol.mdb,2006 SPSS Inc.,37,使用数据库节点,添加并编辑数据库节点:选择数据库节点连接数据源选择“添加新的数据库连接”在数据源列表中选择需要连接的数据源,点击连接选择需要读取的表格,2006 SPSS Inc.,38,定义字段类型,类型节点指定字段的一系列重要属性指定字段类型、方向和缺失值Clementine 可以自动设置变量类型,用户也可以强
13、制指定类型为建立模型,指定字段的方向指定缺失值以及如何处理缺失值变量值检查保证字段值满足一定的设置,2006 SPSS Inc.,39,定义字段类型,字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的字段类型:连续型 用于描述数值,如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间离散型用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型集合型 用于描述带有多个具体值的数据(黄、绿、蓝)标记型 用于只取两个具体值的数据(真、假)无类型 用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据,2
14、006 SPSS Inc.,40,字段实例化,在读取值前数据称为未实例化,字段设置为连续或离散型通过读取值后数据完全实例化,字段的取值和类型都是可知的通过类型节点或数据源节点上的类型条目可以指定数据类型,2006 SPSS Inc.,41,字段实例化,何时在源节点实例化数据集不太大不打算以后在流中增加字段何时在类型节点实例化数据集较大,而且流在类型节点前就过滤了子集数据在流中被过滤数据在流中被合并或追加在处理过程中导出新的数据字段,2006 SPSS Inc.,42,字段类型,用变项文件节点读取SmallSampleComma.txt字段实例化将ID字段的类型修改为无类型,2006 SPSS
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 第一 部分 SPSSclementine11 培训 cindy
链接地址:https://www.31ppt.com/p-5361657.html