数据挖掘与Clementine使用培训电信.ppt
数据挖掘与Clementine使用培训,北京瑞斯泰得数据技术开发有限公司2023/6/29,1,一、数据挖掘概述,什么是数据挖掘数据挖掘的实现路线和流程数据挖掘方法论CRISP-DM,2,为什么进行数据挖掘?商业观点,业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值客户信息数据客户交易行为数据客户反馈数据网络数据计算机变得越来越便宜、功能却越来越强大商业竞争越来越激烈,对客户了解越多就意味着机会越大,3,为什么进行数据挖掘?技术观点,业务中的数据量呈现指数增长(GB/小时)传统技术难以从这些大量数据中发现有价值的规律数据挖掘可以帮助我们从大量数据中发现有价值的规律,4,一个市场营销的例子,在数据中发现有价值的规则或者模式,女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关,5,一个市场营销的例子,数据变的复杂会如何?,女性对市场活动做出回应,老年男性也可能对市场活动做出回应,6,一个市场营销的例子,数据挖掘可以从异常复杂的数据中发现规律,通过数据挖掘发现回应的5条规则:1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应,通过数据挖掘发现不回应的5条规则:1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应,7,数据挖掘收益分析,8,利润分析图,9,数据挖掘效果模拟分析,目的:发现新客户(使响应率从1%提高到1.2%),10,什么是数据挖掘?,不同的定义从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程从大量数据中自动化(或者半自动化)的发现有价值规律的过程数据挖掘的其他名称数据库内知识发现(KDD-Knowledge discovery in databases)数据/模式分析商业智能人工智能,11,数据挖掘的起源,来源于机器学习/人工智能、模式识别、统计学和数据库传统技术的局限性巨量的数据高维数据数据分布不理想,12,数据挖掘面临的挑战,海量数据高维数据数据复杂性数据质量问题数据所有权和分布隐私问题,13,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,14,商业理解,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,确定商业目标,形势评估,确定数据挖掘目标,制定项目计划,背景,商业目标,成功标准,拥有资源,需求、假定和限制,风险和偶然性,专业术语,成本和收益,数据挖掘目标,数据挖掘成功标准,项目计划,工具和方法评估,15,数据理解,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,收集原始数据,数据描述,数据探索性分析,数据质量描述,数据收集报告,数据描述报告,探索性数据分析报告,数据质量报告,16,数据准备,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,选择数据,确定分析包含/剔除数据,数据集,数据集描述,数据清理,数据清理报告,数据重构,生成新的变量(字段),生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式,适应分析,17,建立模型,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,选择建模技术,产生检验设计,建立模型,评价模型,模型技术,模型假设,检验设计,参数设定,建模,模型评价,参数设定的修订,模型描述,18,模型评估,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,结果评估,数据挖掘过程回顾,确定下一步的工作,评估数据挖掘结果,被认可的模型,数据挖掘过程的回顾,列出可能的行动,决策,19,结果发布,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,发布结果计划,监测和维护模型计划,生成最终数据挖掘报告,项目回顾,结果发布计划,监测和维护模型计划,最终数据挖掘报告,数据挖掘报告展现,项目检验总结,20,商业理解是数据挖掘的起点,解决方案,商业需要,21,商业理解的内容,数据挖掘能解决什么样的商业问题?数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?我们期望模型能够给我们怎样的精确率?有那些前提假定?,22,约束分析,时间约束分析资源约束分析人力资源数据资源软件资源硬件资源,23,制定特定的数据挖掘目标,制定的数据挖掘目标应具有:可评估性(assessable)可实现性(attainable),24,如何给定一个数据挖掘问题,是检验性数据挖掘还是探索性数据挖掘?确定哪些是可以实现的数据挖掘问题 结果可测度性 信息(数据)的可获得性 评估和控制其他相关因素的影响,25,数据来源与数据之间的关系,26,使数据适合数据挖掘,对数据进行适当的合并和汇总一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:所有的记录含有排列顺序一致的变量所有记录的变量信息是完整的(理想化状态,在现实中很难达到),27,检查数据质量,影响数据质量的几个主要问题缺失值不合理值不同数据源的不一致异常值,28,对数据进行适当的变换,数据的标准化变换生成新的变量数据的重新编码数据降维,从变量角度或者从记录角度,29,数据挖掘模型的分类,数据描述和汇总(Data description and summarization)细分(Segmentation)概念描述(Concept descriptions)分类(Classification)预测(Prediction)相关分析(Dependency analysis),30,数据挖掘技术的分类,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,31,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树),收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,32,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络),输 入,流失概率(0.87),输 出,男,29,3000元/月,套餐A,130元/月,33,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额结果描述:(Web图),34,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类),35,数据挖掘的典型结果政府,问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络),36,检验的形式,方法层面的检验 训练集和检验集 不同方法的互相印证和比较 模型准确性的检验:商业层面上的检验 利润率的检验 模型结果可操作性的检验 其他检验,37,关注那些错误的预测,38,数据挖掘不成功的几种可能性,糟糕的数据组织抵制结果没有被有效的发布得到了无用的结果,39,模型发布的形式,书面报告数据库更新针对特定主题的应用系统,40,数据挖掘的体系结构,41,问题&讨论,42,二、Clementine概述,Clementine在数据挖掘中的地位Clementine发展历史Clementine的配置Clementine操作基础,43,数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位,44,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,45,Clementine发展历程,Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点,46,Clementine的软件构成,Clementine Client;Clementine Server;Clementine Batch;SPSS Data Access Pack;Clementine Solution Publisher(Optional)。,47,Clementine的两种运行方式,单机版运行以下情况必须使用单机版运行:数据存储在本机,且不能在网络上共享;机器不联网;无Clementine Server可供使用。以下情况可以使用单机版运行:要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处;单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,C/S结构运行以下情况必须使用C/S结构运行:单机内存或者硬盘不够大,难以运行大量数据;单机上没有或者无法配置数据连结,无法从数据库中获取数据;组织规则不允许下载大量数据到单机。以下情况可以使用C/S结构运行:要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处;单机速度慢,Clementine Server运行的机器配置高。,48,Clementine的系统结构,Clementine的三层结构:1、数据库层;通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL(Stream Description Language)之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。,49,Clementine运行的两种方式,图形界面方式适用操作系统Windows系列特点:图形化界面与客户直接交互适合交互式分析过程,命令行方式使用操作系统Windows系列Unix系列特点:命令行操作不能生成图形,所有结果保存在文件里或者数据库中适合于以下情况使用:运行耗时较长的建模过程希望在后台运行一些耗时较长的数据准备过程希望按照一定的时间定期运行(比如每周、每月等)希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,50,Clementine的界面和设计思路,可视化界面四个区域分别是建模区、结点区、模型描述区、项目管理区通过连接结点构成数据流建立模型Clementine通过6类结点的连接完成数据挖掘工作,它们是:Source(源结点):Database、Var.Files等Record Ops(记录处理结点):Select、Sample等Field Ops(字段处理结点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):Neural Net、C5.0等Output(输出结点):Table、Matrix等,51,Clementine操作基本知识,鼠标应用三键与双键鼠标左键选择节点或图标置于建模区右键激活浮动菜单中键连接或断开两个节点 帮助,52,Clementine操作基本知识,节点的增加,以 为例Click“Sources”,Click,Click“流区域”Click“Sources”,Double Click Click“Sources”,Drag to“流区域”节点的删除Click,DeleteRight Click,Click“Delete”节点的移动:Drag,53,Clementine操作基本知识,节点的编辑Double ClickRight Click,Click“Edit”节点的重命名和解释Right Click,Click“Edit”,Click“Annotations”Double Click,Click“Annotations”Right Click,Click“Rename and Annotations”拷贝、粘贴,54,Clementine操作基本知识,构建流时节点的连接Highlight,Add to the CanvasRight Click,Click“Connect”,Click Drag the middle mutton from to 构建流时节点连接的删除Right Click or,Click“Disconnect”Right Click“Connection”,Click“Delete Connection”Double Click or,55,Clementine操作基本知识,流的执行Highlight“Stream”,ClickRight Click,Click“Execute”In the Edit Window of the,Click“Execute”流的保存帮助Help MenuDialogue Window,56,一个例子罗斯文商贸公司,商业问题:微软公司提供的案例数据库罗斯文商贸公司,如何对客户价值进行评估背景介绍:1.罗斯文商贸公司是Microsoft数据库产品(Access,SQL Server等)中的一个示例数据库;2.它虚拟了一家经销日用品的商贸公司的情况;3.目前该公司保存的历史数据资料,见下页;4.我们需要对客户的价值进行评估,以便采取有效的市场销售策略。,57,罗斯林商贸公司数据,58,罗斯文商贸公司统计问题,数据挖掘问题:(1)如何描述客户价值?购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?使用最简单的购买总金额(2)需要什么样的数据挖掘方法?描述汇总?分类?预测?概念描述?细分?相关分析?使用最简单的描述汇总(3)需要的数据从哪里来?从以下几个来源:客户订单订单明细,59,罗斯文商贸公司商业问题解决方案,商业问题解决方案 从所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多的关注,60,Clementine的优化,包括两个方面的优化结构优化用户优化,61,结构优化,把中间结果存储在Server上(尽量使用server版处理)从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行)减少数据的迁移(数据提前进行规划),62,用户优化,自动优化数据流:当使用这一选项时,Clementine将重写数据流以使效率最高(可以通过Clementine Server中的sql_rewriting_enabled来调整是否可以使用)优化的SQL生成。使尽可能的操作在数据库内进行。优化Clementine执行。调整数据降维的操作尽可能接近数据源完成。手动优化数据流操作顺序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。,63,一个数据挖掘的实例客户信用级别判断系统,64,问题的提出,如何通过数据挖掘实现小灵通信用级别的判断系统 某电信公司按照某种标准将小灵通客户信用等级分为5类,分别是gradeA、gradeB、gradeC、gradeX、gradeY。现在希望建立一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同的市场营销策略。,65,数据描述,66,遵循CRISP-DM的数据挖掘过程,67,在进行数据挖掘过程中应该注意的几个问题,商业经验的作用数据的拆分训练集与检验集不同模型的印证与比较,68,结果发布,信用级别静态列表信用级别写回数据库实时判断信用级别的分析应用,69,问题&讨论,70,三、数据理解:数据的可视化和报告,数据组织形式数据图形展现数据表格展现,71,数据挖掘要求的数据格式,变量 记录(行代表记录,列代表变量),72,数据尺度,根据数据的不同,可以把变量分为以下一些类型定类变量例如:客户编号、性别、邮编等不能比较大小定序变量产品等级、信用级别、客户收入水平分类等可以比较大小、不能进行加减运算定距变量出生日期、温度等可以进行加减运算、不能进行乘除运算定比变量收入、长度等可以进行乘除运算,73,各类变量尺度比较,74,描述性统计量,描述统计量(summary statistic),也称汇总统计量或概括统计量用少量数字概括大量数据的技术,75,离散变量的描述性统计,频数 累计频数 频率 累计频率(累计必须是定序变量),76,连续变量的描述指标,反映数据平均趋势和位置的指标反映数据离散趋势的指标反映数据分布状况的指标,77,反映连续数据平均趋势的指标,平均数算术平均数几何平均数截尾算术平均数:比较稳健有效地描述平均值 中位数:(代表群体基本的趋势,集中的趋势)众数(多用于离散变量)四分位数(25%,50%,75%)百分位数,78,平均数与中位数的结合使用,对5个数值表示的内容说法有些不同,含义与左图不同,含义与左图不同,79,反映连续数据离散趋势的指标,极差(全距)range=max-min 内距 50%的差距 方差:更适合离散趋势的描述(趋势放大)标准差 变异系数:标准差/均值,值越大,则离散程度越大。,80,平均数与标准差的应用,切比雪夫定理在任何一个数据集中,至少有(1-1/z2)的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。切比雪夫定理含义1.至少75%的数据项与平均数的距离在2个标准差之内;2.至少89%的数据项与平均数的距离在3个标准差之内;(6西格玛质量管理应用)3.至少94%的数据项与平均数的距离在4个标准差之内。,81,连续变量的经验法则,正态分布是一种最常用的连续型分布关于正态分布的经验法则1.约68%的数据项与平均数的距离在1个标准差之内;2.约95%的数据项与平均数的距离在2个标准差之内;3.几乎全部数据项(99.97%)与平均数的距离在3个标准差之内。,82,切比雪夫和经验法则的应用,问题某单位有100个人,他们的平均身高是170cm,标准差为5cm,那么有多少人的身高是落在160cm-180cm这个区间里的呢?经验法则的应用 根据切比雪夫定理,该单位至少有75%的人身高在160cm180cm这个区间里 根据正态分布经验法则,该单位大约有95%的人身高在160cm180cm这个区间里,83,反映连续数据分布状况的指标,偏度 峰度,84,图形展现数据,85,图形技术的应用,图形可以用来直观的展示数据的分布特征和取值情况常见的描述离散变量的图形有 条形图 饼形图常见的描述连续变量的图形有 直方图常见的描述两个离散变量之间关系的图形有 Web图 条形图常见的描述两个连续变量之间关系的图形有 散点图常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图,86,通过图形可以表现多个变量之间的关系,87,Chapter 2,Clementine 简介,88,Chapter 2 Clementine 简介,目的:初步了解Clementine软件内容:2.1 SPSS Clementine C/S2.2 SPSS Clementine 面板2.3 SPSS Clementine 可视化程序使用基础节点SPSS file 节点 Table 节点,89,2.1 Clementine C/S,启动:Start.Programs.Clementine 8.1 Clementine and Clementine ServerToolsServer Login,90,Clementine的结构示意图,91,2.2 Clementine 面板,92,第二讲:数据简单准备与理解,数据准备之读入数据数据理解之数据质量数据理解之数据分布,93,Chapter 3,读取数据文件,94,Chapter 3 读取数据文件,目的掌握Clementine如何读取文本格式数据了解Clementine可以读取的数据格式掌握Clementine中的字段类型和方向数据S,95,Chapter 3 读取数据文件,内容及节点:3.1 Clementine可以读取的数据格式3.2 读取文本数据与查看数据3.3 读取SPSS数据3.4 读取数据库数据(专用spss配置的链接)3.5 Clementine中的字段类型3.6 Clementine中的字段方向3.7 保存Clementine流,96,3.1 Clementine可以读取的数据格式,文本格式数据SPSS/SAS数据Excel,Access,dBase,Foxpro,Oracle,SQL Server,DB2等数据库(每次只能读一个表)用户输入数据,97,3.2 读取文本数据与查看数据,98,3.2 读取文本数据与查看数据,99,3.2 读取文本数据与查看数据,100,3.2 读取文本数据与查看数据,101,3.2 读取文本数据与查看数据,102,3.3 读取SPSS数据,变量标签值标签,103,3.4 读取数据库数据,ODBC设置,数据库-表,104,3.5 Clementine中的字段类型,离散型二分 eg:sex:m/f多分 eg:等级:好/中/差离散 eg:连续型整数 实数日期、时间其它,105,3.6 Clementine中的字段方向,106,3.7 读取其它格式的数据,SasFixed text file:同一字段在各行的同一列,107,Chapter 4,数据理解之数据质量,108,Chapter 4 数据理解之数据质量,目的:掌握如何应用Clementine发现数据的准确性、完整性熟悉用于数据质量分析的几个节点内容:4.1 数据理解4.2 缺失值定义4.3 Quality节点介绍4.4 Distribution节点-初步理解字符型字段的分布4.5 Histogram/Statistics节点-初步理解数值型字段的分布数据:Smallsamplemissing.txtRisk.txt,109,数据理解的内容,对数据质量进行评价对数据进行初步的描述对数据之间的关系进行探索性分析,110,4.1 数据理解,在数据挖掘之前,理解数据的取值范围及数值分布是非常重要的Histogram/StatisticsDistribution数据质量越高,挖掘结果准确性越高Quality,111,4.2 缺失值定义,Missing values are values in the data set that are unknown,uncollected,or incorrectly entered.They are invalid for their fields.缺失值的定义:type节点系统默认缺失值-onNull-数值型字段-空值-“”-“$Null”Empty String-字符型字段-空值-“”White Space-字符型字段-空值以及空格值-“”或“”-包括Empty String指定缺失值-Blank Value系统默认缺失值指定特殊缺失值-“99”缺失值的检查:quality节点,112,4.2 缺失值定义,113,4.2 缺失值定义,数据缺失情况数据量的大小包含缺失值的字段的数量缺失值的数量缺失值的处理方法忽略含缺失值的字段忽略含缺失值的记录默认值代替缺失值根据一定规则填充缺失值,114,4.3 Quality节点介绍,查看缺失值情况查看各类型缺失值的分布情况Blank Value的指定,115,4.3 Quality节点介绍,Quality结果,116,4.4 Distribution节点-初步理解字符型字段的分布,单个字段的值分布例:人群中各种风险等级人数及百分比与其它分类字段合并例:分性别显示各种风险等级人数及百分比例:各种风险等级中男性女性各占比例,117,4.5 Histogram/Statistics节点-初步理解数值型字段的分布,单个字段的值分布例:人群收入水平与其它分类字段合并例:显示各种风险等级的收入水平例:显示各收入水平的各风险等级比例,118,Chapter 5,简单数据整理,119,Chapter 5 简单数据整理,目的:掌握Clementine中的数据整理技术熟悉用于数据整理的几个节点内容5.1 Clem语言简介5.2 Select节点介绍5.3 Filter节点介绍5.4 Derive节点介绍5.5 自动生成操作节点数据Risk.txtSmallSampleMissing.txt,120,5.1 Clem语言简介,Clementine Language of Expression Manipulation应用节点:Derive导出,Select选择,Filter过滤构建材料:函数、符号、数字、字段记录敏感:对每条记录返回值(整数、实数、布尔值、字符值、日期、时间)或评估是否满足条件两种表达式:条件表达式与计算表达式,121,5.2 Select节点介绍,用于根据一定条件选择或丢弃某些记录CLEM构建,122,5.3 Filter节点介绍,对某些字段进行重命名或丢弃某些无意义的字段无意义字段缺失值占大比例所有记录有相同值中间过程生成的中间变量,123,5.4 Derive节点介绍,根据原有字段值生成新字段值按公式生成字段生成二分型字段生成多分型字段对所有记录按同样标准生成新字段对不同记录按不同标准生成新字段对多个字段进行同一转换,124,5.4 Derive节点介绍,可以利用导出把连续数据离散化(导出为标志及集合),以进一步分析,125,5.5 自动生成操作节点,自动生成“Select”自动生成“Filter”,126,第三讲主要内容,数据理解之数据关系探测基本建模方法简要介绍,127,Chapter 6,数据理解之数据间简单关系,128,Chapter 6 数据理解之数据间简单关系,目的:掌握如何理解字段间关系熟悉用于字段关系理解的几个节点内容6.1 Matrix节点-研究字符型字段间关系6.2 Web节点-研究字符型字段间关系6.3 Statistics节点-研究连续型字段间线性相关关系6.4 Plot节点-研究连续型字段间关系6.5 Histogram节点-研究连续型字段与字符型字段的关系数据Risk.txt,129,Chapter 6 数据理解之数据间简单关系,解决问题风险等级是否与收入有关风险等级是否与性别有关如果一个人的信用卡数量较多,是否意味着它欺诈的可能性也大,130,6.1 Matrix节点-研究字符型字段间关系,解决问题月付款的人是否比周付款的人风险程度更高男性是否比女性风险程序更高Matrix节点:交叉表(列联表)来显示字符型数据间关系行字段与列字段的选择显示百分比,131,6.1 Matrix节点-研究字符型字段间关系,132,6.2 Web节点-研究字符型字段间关系,例:婚姻状态、抵押贷款等是否与风险等级有关几个小概念:人数总数百分比大类百分比小类百分比强、中、弱相关关系结果解读,133,6.2 Web节点-研究字符型字段间关系,134,6.3 Statistics节点-研究连续型字段间线性相关关系,例:收入是否随年龄呈线性增长Statistics节点设置结果解读注意:线性相关关系而非相关关系(线形相关是相关关系的一种,其他相关关系最终需要转化为线形相关来研究),135,6.3 Statistics节点-研究连续型字段间线性相关关系,136,6.4 Plot节点-研究连续型字段间关系,例:显示孩子数目与贷款数目的关系用点的大小来反映其代表记录的多少用点的密度来反映其代表记录的多少用不同颜色的点来反映不同类别的记录,137,6.4 Plot节点-研究连续型字段间关系,138,6.5 Histogram节点-研究连续型字段与字符型字段的关系,例:不同风险等级的人的收入情况显示某收入水平的各风险等级人数显示某收入水平-各风险等级在该收入水平所占的比例,139,表格展现数据,140,表格的元素构成,141,表格类型在SPSS里实现,堆叠表(Stacking)嵌套表(Nesting)交叉表(Crosstabulation)分层表(Layers),142,堆叠表,143,嵌套表,144,交叉表,145,分层表,146,把层去掉以后的效果,147,枢轴表技术(Pivot Tables),行、列、层可自由互换,达到从各个角度观察数据的目的,148,Clementine表格,149,问题&讨论,150,Chapter 7,建模技术概览,151,Chapter 7 Clementine中的建模技术,目的:了解Clementine中提供的各种建模技术内容7.1 Clementine提供的模型技术7.2 Neural Networks(神经网络)7.3 规则归纳模型7.4 统计模型7.5 聚类模型7.6 关联规则模型7.7 Sequence模型7.8 总述,152,Data Mining Model,Supervised Model(监督模型,预测模型,有目标的,关注风险状况)(Predictive Model),Unsupervised Model,Data Reduction(数据整理),Neural Networks,C5.0,C&RT(CART),Regression,Logistic regression(分类变量预测),Kohonen,K-means,Two-Step,PCA(Principal Component Analysis)主成分分析,Factor因子分析,Clementine提供模型概述,Clustering(聚类),APRIORI,GRI(多维关联),Sequence,Associations(关联),153,7.1 Clementine提供的模型技术,几种技术:预测、聚类、关联规则预测技术:InputsOutput六种方法:Neural Networks规则归纳:C5.0,C&RT与时间或顺序有关的关联规则:Sequence(Capri)统计学:回归、Logistic回归,154,7.1 Clementine提供的模型技术,聚类技术无Output无监督的学习三种方法:Kohonen统计学:K-means、TwoStep关联规则Both Input and Output三种方法GRI,AprioriSequence(Capri),155,7.2 Neural Networks,模仿人脑Input/Output可以是Num,也可以是SymbolicMLP与RBFN劣势:黑匣子,156,7.3 规则归纳模型,是决策树算法与Neural Net相比的优势结果好解释自动删除无意义的Input字段主要是根据结果变量值对数据按Input进行细分有两种结果形式:决策树形式或规则集形式,157,7.4 统计模型之线性回归,统计模型与Neural Net相比:严格的假设(如误差正态分布)用简单方程表达模型,便于解释可自动选择字段无法捕捉Inputs字段间的交互作用统计模型:线性回归Logistic回归主成分分析,158,7.4 统计模型之回归,线性回归:方程:Y=a+b1x1+b2x2+bnxn原理:寻找使误差平方和最小的系数Output字段-Numeric输出必须是连续型Input字段-Numeric/SymbolicLogistic回归:方程原理:寻找使误差平方和最小的系数回归系数随结果值而改变,与NN,RI相比,不适合复杂数据Output字段-Symbolic输出必须是离散性Input字段-Numeric/Symbolic,159,7.4 统计模型之主成分分析,数据降维技术:用少量不相关数据(主成分)来代替大量相关数据(原始数据)作分析主成分是原始数据的线性组合更可能与统计分析方法合并使用(相对于机器学习),尤其是在多个等级分类字段可用于预测模型或聚类分析之前,160,7.5 聚类模型,发现有相似值记录的群体多用于市场(细分客户)和其它商业应用与主成分分析相似,多用于预测模型之前无监督学习(无output)三种聚类分析方法:KohonenK-meansTwoStep,161,7.5 聚类模型,Kohonen聚类是一种实施无监督学习的神经网络算法一维或二维网格,各神经元相互连接K-means聚类又称为快速聚类,(速度快,适合大量数据)用户指定类别数与记录顺序有关(小数据量与记录顺序无关,大数据需要先执行一定程序找出数据各类别中心)TwoStep聚类用户指定范围,模型根据统计学标准自动选择类数消耗机器资源少能给出一个较好的结果,162,7.6 关联规则模型,寻找数据中一起发生的事情与Web相似,但以极快的速度发掘更复杂的模式与规则归纳不同之处每个规则的Output字段可能各不相同规则可用于查看,但非预测可生成同一output字段的规则,用于预测与规则归纳相比,运行较慢,可增加限制条件从而提高速度两种算法:Apriori,GRI(广义规则探测),163,7.7 Sequence模型,与关联规则不同之处在于寻找与时间/顺序有关的规则应用领域:零售、网络日志、过程改进用于字符型字段,数值被当作是字符用CARMA算法,164,7.8 综述,如果要预测某个字段-有监督的机器学习和其中一种统计方法(依结果字段而定)如果想发现有相似行为(许多字段)的个体-聚类关联规则不能直接用于预测,但它是一种用于理解数据内模式的有用工具如果对顺序、时间有兴趣,可用Sequence算法,165,7.8 综述,如果想进一步选择具体的预测技术,依赖于目的字段,output字段与input字段间关系有一定经验规律,但不是规则Clementine的优势之处在于建模的简单Clementine只能发现数据内存在的关系,如果数据本身不相关联,不可能提取出一个模型数据挖掘是一个迭代、重复的过程,166,第四讲:预测建模技术,神经网络模型技术决策树模型技术回归分析技术模型间评估技术,167,预测的重要性,在当今充满竞争的社会里,一个企业如果能准确地预知其未来,那么其生存机会将大大增加,预测科学就是处理对未来的预测等问题的学科。,人们对未知的恐惧预测的重要性由来已久,168,预测相关注意事项,预测对象所在的环境常常处于动态变化之中,一些不可知事件会对预测结果造成很大影响;被用来进行预测的数据常常是不稳定、不确定和不完全的,由其来源和收集的方式所决定;不同的时间区域常常需要不同的预测方法,形式上难以统一;因为不同的预测方法在复杂性、数据要求以及准确程度上均不同,因此选择一个合适的预测方法是很困难的。,169,Chapter 8,Neural Networks,170,Chpater 8 Neural Networks,目的:掌握如何在Clementine中进行Neural Network 模型的构建和解读掌握Neural Network节点数据:Risktrain.txt,171,Chpater 8 Neural Networks,内容8.1 Neural Net节点介绍8.2 构建Neural Network8.3 模型管理区介绍8.4 结果查看和结果解释8.5 模型预测值生成8.6 模型评价8.7 理解预测原因8.8 模型总结,172,神经网络模型预测技术,基本概念:神经元 三层结构,173,8.1 Neural Net节点介绍,字段方向-Type节点或表In-X字段-自变量字段Out-Y字段-结果字段-聚类、主成分分析除外Both-自变量和结果字段-关联规则或顺序算法None-不用字段ID-typeless-None五种Neural Net方法,默认Quick过度训练(长时间接触同一个数据源,并用同样特征去描述其他数据集,结果往往错误)停止规则(避免过度训练)字段的相对重要性分析,174,避免过度训练问题选择测试集错误较低,或者两集错误交叉点,175,8.2 构建Neural Network,例:用age、sex、income等来预测客户的风险等级,176,8.3 模型管理区介绍,浏览模型结果导出模型代码将模型载入数据流将模型导入项目管理区保存、清除、装载模型管理区,177,8.4 结果查看和结果解释,结果的浏览:Right click generated“model”模型准确性输入字段或层输出字段或层各输入字段的相对重要性,178,