数据挖掘与系统平台使用原理培训教材.ppt
《数据挖掘与系统平台使用原理培训教材.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与系统平台使用原理培训教材.ppt(306页珍藏版)》请在三一办公上搜索。
1、数据挖掘与Clementine使用培训,北京瑞斯泰得数据技术开发有限公司2023/2/22,1,一、数据挖掘概述,什么是数据挖掘数据挖掘的实现路线和流程数据挖掘方法论CRISP-DM,2,为什么进行数据挖掘?商业观点,业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值客户信息数据客户交易行为数据客户反馈数据网络数据计算机变得越来越便宜、功能却越来越强大商业竞争越来越激烈,对客户了解越多就意味着机会越大,3,为什么进行数据挖掘?技术观点,业务中的数据量呈现指数增长(GB/小时)传统技术难以从这些大量数据中发现有价值的规律数据挖掘可以帮助我们从大量数据中发现有价值的规律,4,一个市场营
2、销的例子,在数据中发现有价值的规则或者模式,女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关,5,一个市场营销的例子,数据变的复杂会如何?,女性对市场活动做出回应,老年男性也可能对市场活动做出回应,6,一个市场营销的例子,数据挖掘可以从异常复杂的数据中发现规律,通过数据挖掘发现回应的5条规则:1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应,通过数据挖掘发现不回应的5条规则:1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应,7,数据挖掘收益分析,8,利润分析图,9,数据挖掘效果模拟分析,目的:发现新客户(使响应率从1%提高到1
3、.2%),10,什么是数据挖掘?,不同的定义从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程从大量数据中自动化(或者半自动化)的发现有价值规律的过程数据挖掘的其他名称数据库内知识发现(KDD-Knowledge discovery in databases)数据/模式分析商业智能人工智能,11,数据挖掘的起源,来源于机器学习/人工智能、模式识别、统计学和数据库传统技术的局限性巨量的数据高维数据数据分布不理想,12,数据挖掘面临的挑战,海量数据高维数据数据复杂性数据质量问题数据所有权和分布隐私问题,13,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估
4、 模型发布,14,商业理解,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,确定商业目标,形势评估,确定数据挖掘目标,制定项目计划,背景,商业目标,成功标准,拥有资源,需求、假定和限制,风险和偶然性,专业术语,成本和收益,数据挖掘目标,数据挖掘成功标准,项目计划,工具和方法评估,15,数据理解,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,收集原始数据,数据描述,数据探索性分析,数据质量描述,数据收集报告,数据描述报告,探索性数据分析报告,数据质量报告,16,数据准备,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,选择数据,确定分析包含/剔除数据,
5、数据集,数据集描述,数据清理,数据清理报告,数据重构,生成新的变量(字段),生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式,适应分析,17,建立模型,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,选择建模技术,产生检验设计,建立模型,评价模型,模型技术,模型假设,检验设计,参数设定,建模,模型评价,参数设定的修订,模型描述,18,模型评估,商业理解,数据 理解,数据准备,建立模型,模型评估,结果发布,结果评估,数据挖掘过程回顾,确定下一步的工作,评估数据挖掘结果,被认可的模型,数据挖掘过程的回顾,列出可能的行动,决策,19,结果发布,商业理解,数据 理解,数据准
6、备,建立模型,模型评估,结果发布,发布结果计划,监测和维护模型计划,生成最终数据挖掘报告,项目回顾,结果发布计划,监测和维护模型计划,最终数据挖掘报告,数据挖掘报告展现,项目检验总结,20,商业理解是数据挖掘的起点,解决方案,商业需要,21,商业理解的内容,数据挖掘能解决什么样的商业问题?数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?我们期望模型能够给我们怎样的精确率?有那些前提假定?,22,约束分析,时间约束分析资源约束分析人力资源数据资源软件资源硬件资源,23,制定特定的数据挖掘目标,制定的数据挖掘目标应具有:可评估性(assessable)可实现性(attainable
7、),24,如何给定一个数据挖掘问题,是检验性数据挖掘还是探索性数据挖掘?确定哪些是可以实现的数据挖掘问题 结果可测度性 信息(数据)的可获得性 评估和控制其他相关因素的影响,25,数据来源与数据之间的关系,26,使数据适合数据挖掘,对数据进行适当的合并和汇总一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:所有的记录含有排列顺序一致的变量所有记录的变量信息是完整的(理想化状态,在现实中很难达到),27,检查数据质量,影响数据质量的几个主要问题缺失值不合理值不同数据源的不一致异常值,28,对数据进行适当的变换,数据的标准化变换生成新的
8、变量数据的重新编码数据降维,从变量角度或者从记录角度,29,数据挖掘模型的分类,数据描述和汇总(Data description and summarization)细分(Segmentation)概念描述(Concept descriptions)分类(Classification)预测(Prediction)相关分析(Dependency analysis),30,数据挖掘技术的分类,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,31,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发
9、放多少 结果描述:(决策树),收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,32,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络),输 入,流失概率(0.87),输 出,男,29,3000元/月,套餐A,130元/月,33,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额结果描述:(Web图),34,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类),35,数据挖掘的典型结果政府,问题描述:如何从众多申请经费或者纳税中发现欺诈
10、结果描述:(回归、神经网络),36,检验的形式,方法层面的检验 训练集和检验集 不同方法的互相印证和比较 模型准确性的检验:商业层面上的检验 利润率的检验 模型结果可操作性的检验 其他检验,37,关注那些错误的预测,38,数据挖掘不成功的几种可能性,糟糕的数据组织抵制结果没有被有效的发布得到了无用的结果,39,模型发布的形式,书面报告数据库更新针对特定主题的应用系统,40,数据挖掘的体系结构,41,问题&讨论,42,二、Clementine概述,Clementine在数据挖掘中的地位Clementine发展历史Clementine的配置Clementine操作基础,43,数据挖掘的一般流程及数
11、据挖掘软件在数据挖掘过程中的地位,44,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,45,Clementine发展历程,Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点,46,Clementine的软件构成,Clementine Client;Clementine Server;Clementine Batch;SPSS Data Access
12、Pack;Clementine Solution Publisher(Optional)。,47,Clementine的两种运行方式,单机版运行以下情况必须使用单机版运行:数据存储在本机,且不能在网络上共享;机器不联网;无Clementine Server可供使用。以下情况可以使用单机版运行:要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处;单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,C/S结构运行以下情况必须使用C/S结构运行:单机内存或者硬盘不够大,难以运行大量数据;单机上没有或者无法配置数据连结,无法从数据库中获取数据;组织规则不允许下载大量数
13、据到单机。以下情况可以使用C/S结构运行:要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处;单机速度慢,Clementine Server运行的机器配置高。,48,Clementine的系统结构,Clementine的三层结构:1、数据库层;通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。在三层结构下通过Clementine Server进行调度,由客户端向服务器端发
14、送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL(Stream Description Language)之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。,49,Clementine运行的两种方式,图形界面方式适用操作系统Windows系列特点:图形化界面与客户直接交互适合交互式分析过程,命令行方式使用操作系统Windows系列Unix系列特点:命令行操作不能生成图形,所有结果保存在文件里或者数据库中适合于以下情况使用:运行耗时较长的建模过程希望在后台运行一些耗时较长的
15、数据准备过程希望按照一定的时间定期运行(比如每周、每月等)希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,50,Clementine的界面和设计思路,可视化界面四个区域分别是建模区、结点区、模型描述区、项目管理区通过连接结点构成数据流建立模型Clementine通过6类结点的连接完成数据挖掘工作,它们是:Source(源结点):Database、Var.Files等Record Ops(记录处理结点):Select、Sample等Field Ops(字段处理结点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):
16、Neural Net、C5.0等Output(输出结点):Table、Matrix等,51,Clementine操作基本知识,鼠标应用三键与双键鼠标左键选择节点或图标置于建模区右键激活浮动菜单中键连接或断开两个节点 帮助,52,Clementine操作基本知识,节点的增加,以 为例Click“Sources”,Click,Click“流区域”Click“Sources”,Double Click Click“Sources”,Drag to“流区域”节点的删除Click,DeleteRight Click,Click“Delete”节点的移动:Drag,53,Clementine操作基本知识,
17、节点的编辑Double ClickRight Click,Click“Edit”节点的重命名和解释Right Click,Click“Edit”,Click“Annotations”Double Click,Click“Annotations”Right Click,Click“Rename and Annotations”拷贝、粘贴,54,Clementine操作基本知识,构建流时节点的连接Highlight,Add to the CanvasRight Click,Click“Connect”,Click Drag the middle mutton from to 构建流时节点连接的删除
18、Right Click or,Click“Disconnect”Right Click“Connection”,Click“Delete Connection”Double Click or,55,Clementine操作基本知识,流的执行Highlight“Stream”,ClickRight Click,Click“Execute”In the Edit Window of the,Click“Execute”流的保存帮助Help MenuDialogue Window,56,一个例子罗斯文商贸公司,商业问题:微软公司提供的案例数据库罗斯文商贸公司,如何对客户价值进行评估背景介绍:1.罗斯
19、文商贸公司是Microsoft数据库产品(Access,SQL Server等)中的一个示例数据库;2.它虚拟了一家经销日用品的商贸公司的情况;3.目前该公司保存的历史数据资料,见下页;4.我们需要对客户的价值进行评估,以便采取有效的市场销售策略。,57,罗斯林商贸公司数据,58,罗斯文商贸公司统计问题,数据挖掘问题:(1)如何描述客户价值?购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?使用最简单的购买总金额(2)需要什么样的数据挖掘方法?描述汇总?分类?预测?概念描述?细分?相关分析?使用最简单的描述汇总(3)需要的数据从哪里来?从以下几个来源:客户订单订单明细,59
20、,罗斯文商贸公司商业问题解决方案,商业问题解决方案 从所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多的关注,60,Clementine的优化,包括两个方面的优化结构优化用户优化,61,结构优化,把中间结果存储在Server上(尽量使用server版处理)从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行)减少数据的迁移(数据提前进行规划),62,用户优化,自动优化数据流:当使用这一选项时,Clementine将重写数据流以使效率最高(可以通过Clementine Server中的sql_rewriting_enabled来调整是否可以使用)优
21、化的SQL生成。使尽可能的操作在数据库内进行。优化Clementine执行。调整数据降维的操作尽可能接近数据源完成。手动优化数据流操作顺序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。,63,一个数据挖掘的实例客户信用级别判断系统,64,问题的提出,如何通过数据挖掘实现小灵通信用级别的判断系统 某电信公司按照某种标准将小灵通客户信用等级分为5类,分别是gradeA、gradeB、gradeC、gradeX、gradeY。现在希望建立一套系统,能够使得市场部人员
22、根据用户的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同的市场营销策略。,65,数据描述,66,遵循CRISP-DM的数据挖掘过程,67,在进行数据挖掘过程中应该注意的几个问题,商业经验的作用数据的拆分训练集与检验集不同模型的印证与比较,68,结果发布,信用级别静态列表信用级别写回数据库实时判断信用级别的分析应用,69,问题&讨论,70,三、数据理解:数据的可视化和报告,数据组织形式数据图形展现数据表格展现,71,数据挖掘要求的数据格式,变量 记录(行代表记录,列代表变量),72,数据尺度,根据数据的不同,可以把变量分为以下一些类型定类变量例如:客户编号、性别、邮编等不
23、能比较大小定序变量产品等级、信用级别、客户收入水平分类等可以比较大小、不能进行加减运算定距变量出生日期、温度等可以进行加减运算、不能进行乘除运算定比变量收入、长度等可以进行乘除运算,73,各类变量尺度比较,74,描述性统计量,描述统计量(summary statistic),也称汇总统计量或概括统计量用少量数字概括大量数据的技术,75,离散变量的描述性统计,频数 累计频数 频率 累计频率(累计必须是定序变量),76,连续变量的描述指标,反映数据平均趋势和位置的指标反映数据离散趋势的指标反映数据分布状况的指标,77,反映连续数据平均趋势的指标,平均数算术平均数几何平均数截尾算术平均数:比较稳健有
24、效地描述平均值 中位数:(代表群体基本的趋势,集中的趋势)众数(多用于离散变量)四分位数(25%,50%,75%)百分位数,78,平均数与中位数的结合使用,对5个数值表示的内容说法有些不同,含义与左图不同,含义与左图不同,79,反映连续数据离散趋势的指标,极差(全距)range=max-min 内距 50%的差距 方差:更适合离散趋势的描述(趋势放大)标准差 变异系数:标准差/均值,值越大,则离散程度越大。,80,平均数与标准差的应用,切比雪夫定理在任何一个数据集中,至少有(1-1/z2)的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。切比雪夫定理含义1.至少75%的数据项与平
25、均数的距离在2个标准差之内;2.至少89%的数据项与平均数的距离在3个标准差之内;(6西格玛质量管理应用)3.至少94%的数据项与平均数的距离在4个标准差之内。,81,连续变量的经验法则,正态分布是一种最常用的连续型分布关于正态分布的经验法则1.约68%的数据项与平均数的距离在1个标准差之内;2.约95%的数据项与平均数的距离在2个标准差之内;3.几乎全部数据项(99.97%)与平均数的距离在3个标准差之内。,82,切比雪夫和经验法则的应用,问题某单位有100个人,他们的平均身高是170cm,标准差为5cm,那么有多少人的身高是落在160cm-180cm这个区间里的呢?经验法则的应用 根据切比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 系统 平台 使用 原理 培训教材
链接地址:https://www.31ppt.com/p-2697025.html