数据挖掘简单概括.ppt
《数据挖掘简单概括.ppt》由会员分享,可在线阅读,更多相关《数据挖掘简单概括.ppt(89页珍藏版)》请在三一办公上搜索。
1、第1章 引言第2章 数据预处理第3章 数据仓库与OLAP技术概述第4章 数据立方体计算与数据泛化第5章 挖掘频繁模式、关联和相关第6章 分类和预测第7章 聚类分析第8章 挖掘流、时间序列和序列数据第9章 图挖掘、社会网络分析和多关系数据挖掘第10章 挖掘对象、空间、多媒体、文本和Web数据第11章 数据挖掘的应用和发展趋势,体系结构:典型数据挖掘系统,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据清洗、集成和选择,数据库,数据仓库,万维网,其他信息库,在何种数据上进行数据挖掘(数据源),关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列
2、数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和遗产(legacy)数据库文本数据库和万维网(WWW),数据仓库,数据仓库是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。,数据挖掘的应用,数据分析和决策支持市场分析和管理目标市场,客户关系管理(CRM),市场占有量分析,交叉销售,市场分割风险分析和管理风险预测,客户保持,保险业的改良,质量控制,竞争分析欺骗检测和异常模式的监测(孤立点)其他的应用文本挖掘(新闻组,电子邮件,文档)和WEB挖掘流数据挖掘DNA 和生物数据分析,
3、数据挖掘应用市场分析和管理(1),数据从那里来?信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生活方式研究目标市场构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等确定顾客的购买模式交叉市场分析货物销售之间的相互联系和相关性,以及基于这种联系上的预测,数据挖掘应用市场分析和管理(2),顾客分析哪类顾客购买那种商品(聚类分析或分类预测)客户需求分析确定适合不同顾客的最佳商品预测何种因素能够吸引新顾客提供概要信息多维度的综合报告统计概要信息(数据的集中趋势和变化),数据挖掘应用公司分析和风险管理,财务计划现金流转分析和预测交叉区域分析和时间序列分析(财务资
4、金比率,趋势分析等等)资源计划总结和比较资源和花费竞争对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程将定价策略应用于竞争更激烈的市场中,数据挖掘应用欺诈行为检测和异常模式的发现,方法:对欺骗行为进行聚类和建模,并进行孤立点分析应用:卫生保健、零售业、信用卡服务、电信等汽车保险:相撞事件的分析 洗钱:发现可疑的货币交易行为 医疗保险职业病人,医生以及相关数据分析不必要的或相关的测试电信:电话呼叫欺骗行为电话呼叫模型:呼叫目的地,持续时间,日或周呼叫次数.分析该模型发现与期待标准的偏差零售产业分析师估计有38的零售额下降是由于雇员的不诚实行为造成的反恐怖主义,其他应用,体育竞赛美国
5、NBA的29个球队中,有25个球队使用了IBM 分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。天文学JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星网上冲浪通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究,数据挖掘技术分类,数据挖掘,验证驱动挖掘,发现驱动挖掘,SQL,SQL生成器,查询工具,OLAP,描述,预测,可视化,聚类,关联规则,顺序关联,汇总描述,分类,统计回归,时间序列,决策树,神经网路,数据挖掘的主
6、要方法,关联分析发现数据之间的关联规则,这些规则展示属性值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。关联规则是形如X Y,即”A1.Am B1.Bn”的规则;其中,Ai(i1,.,m),Bj(j1,.,n)是属性-值对。关联规则解释为“满足X中条件的数据库元组多半也满足Y中条件”。例1.6给定AllElectronics关系数据库,一个数据挖掘系统可能发现如下形式的规则age(X,“2029”)income(X,“2029K”)buys(X,“CD_player”)support=2%,confidence=60%其中,X是变量,代表顾客。该规则是说,所研究的All
7、Electronics顾客2%(支持度)在20-29岁,年收入20-29K,并且在AllElectronics购买CD机。这个年龄和收入组的顾客购买CD机的可能性有60%(置信度或可信性)。关联规则挖掘在第6章详细讨论。,数据挖掘的主要方法,分类和预测 通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示:决策树、IFTHEN规则、神经网络预测(prediction)用来预测空缺的或不知道的数值数据值,而不是类标号,在本书中,预测主要是指数值预测。可以用来预报某些未知的或丢失的数字值 第6章将详细讨论分类和预
8、测,数据挖掘的主要方法,聚类分析与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般地,训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象很不相似。,关于一个城市内顾客的2-D图,显示了3个聚类,每个聚类的“中心”用“+”标记,2.1 为什么要预处理数据?,现实世界中的数据是脏的不完全:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据例,occupation=“”噪音:包含错误或孤立点例,Salary=“-10”不一致
9、:编码或名字存在差异例,Age=“42”Birthday=“03/07/1997”例,以前的等级“1,2,3”,现在的等级“A,B,C”例,重复记录间的差异,数据为什么脏?,不完全数据源于数据收集时未包含数据收集和数据分析时的不同考虑.人/硬件/软件问题噪音数据源于收集录入变换不一致数据源于不同的数据源违反函数依赖,为什么数据预处理是重要的?,没有高质量的数据,就没有高质量的数据挖掘结果!高质量的决策必然依赖高质量的数据例如,重复或遗漏的数据可能导致不正确或误导的统计.数据仓库需要高质量数据的一致集成数据提取,清理,和变换是建立数据仓库的最主要的工作,第3章:数据仓库与OLAP技术,3.1什么
10、是数据仓库?3.2多维数据模型3.3数据仓库结构3.4数据仓库实现3.5从数据仓库到数据挖掘,多维数据模型,数据仓库基于 多维数据模型,多维数据模型将数据视为数据方(data cube)形式多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。数据方,可以将数据建模,并允许由多个维进行观察,由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字,多维数据模型,不同视角的数据立方分析,数据仓库、数据集市和数据立方之间的关系,数据仓库由于是企业范围的,能对多个相关的主题建模,所以在设计其数据构成时一
11、般采用星系模式。而数据集市是部门级的,具有选定的主题,可以采用星形或雪花模式。,数据仓库的后端工具和实用程序,数据提取:由多个异种,外部数据源收集数据数据清理:检测数据中的错误,可能时订正它们 数据变换:将数据由遗产或宿主格式转换成数据仓库格式 装载:排序,综合,加固,计算视图,检查整体性,并建立索引和划分 刷新传播由数据源到数据仓库的更新,参考:数据仓库与OLAP实践教程 工具:Microsoft Analysis Services,2、使用Crystal Analysis,上表下图式(Horizontal Worksheet and Chart),显示的维度,隐藏的维度,显示的度量值,图形
12、化显示,(电子教案),OLAP:Excel数据透视表和数据透视图,1、创建Excel数据透视表2、使用Excel透视表浏览数据3、使用Excel透视图分析数据,第5章:挖掘频繁模式、关联和相关,本章主要讲解关联规则挖掘关联规则挖掘是当前数据挖掘研究的主要方法之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系。例:在销售手机的商店中,70%的包含手机的交易中包含充电器,在所有交易中,有56%同时包含这两种物品。于是规则表示为手机 充电器(可信度70%,支持度56%),购物篮分析,购物篮分析:通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购
13、物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们开发更好的营销策略。,购物篮分析还可以应用在下列问题上:(1)针对信用卡购物,能够预测未来顾客可能购买什么。(2)对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。(3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。(4)对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。等等,为什么频繁模式挖掘是数据挖掘的基本任务?,许多基本的数据挖掘任务的基础关联,相关,因果关系序列模式,时间或周期关联,局部周期性,空间和多媒体关联关联分类,聚类分析,冰山方
14、,fascicles(语义数据压缩)广泛的应用购物篮数据分析,交叉销售,分类设计,销售活动分析Web 日志(点击流)分析,DNA 序列分析,等.,Apriori-关联规则的一个算法CARMA,CARMA算法简介,CARMA是一种比较新的关联规则算法,它是1999年由Berkeley大学的Christian Hidber教授提出来的。,1,2,3,4,能够处理在线连续交易流数据,仅需一次,最多两次对数据的扫描就可以构造出结果集,允许在算法执行过程中按需要重新设置支持度,占用内存少,CARMA,supermarket,关联规则:哪些商品会在一起被购买?在超市的促销中就应搭配在一起或摆放在相同的货架
15、。此时关注的是商品而不是顾客个人信息。,分类与预测,6.1分类与预测概述,分类分析所谓分类,就是把给定的数据划分到一定的类别中。分类分析就是通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类。分类分析的输入集是一组记录集合和几种类别的标记。这个输入集又称示例数据库或训练集。训练集中的记录称为样本。在这个训练集中,每个记录都被赋予一个类别的标记。,6.1分类与预测概述,分类分析分类分析方法的一个典型例子是信用卡核准过程。信用卡公司根据信誉程度,将一组持卡人记录分为良好、一般和较差三类,且把类别标记赋给每个记录。分类分析就是分析该组记录数据,对每
16、个信誉等级建立分类分析模型。如“信誉良好的客户是那些收入在5万元以上,年龄在4050岁之间的人士”。得出这个分类分析模型之后,就可根据这个分类分析模型对新的记录进行分类,从而判断一个新的持卡人的信誉等级是什么。,6.1分类与预测概述,分类与预测分类:预测分类标号(或离散值)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:(prediction)是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点分类法主要是用来预测类标号(分类属性值)预测
17、法主要是用来估计连续值(量化属性值),6.1分类与预测概述,分类步骤第一步,学习过程,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定基本概念训练数据集:由为建立模型而被分析的数据元组组成训练样本:训练数据集中的单个样本(元组)学习模型可以用分类规则、决策树或数学公式的形式提供,6.1分类与预测概述,第一步建立模型,6.1分类与预测概述,分类步骤第二步,分类过程,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立
18、于训练样本集,否则会出现“过分适应数据”的情况,6.1分类与预测概述,第二步用模型进行分类,6.1分类与预测概述,有指导的学习 VS.无指导的学习有指导的学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的“指导”下进行数据使用训练数据集中得到的规则进行分类无指导的学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类,6.1分类与预测概述,分类的主要算法(1)决策树算法(2)贝叶斯分类算法(3)神经网络分类算法(4)遗传算法(5)粗糙集分类算法其他,6.2 决策树分类算法,什么是决策树(判定树,Decis
19、ion Tree)?决策树是采用树状分岔的架构来产生规则,适用于所有分类的问题。类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布用途:提取分类规则,进行分类预测,6.2 决策树分类算法,决策树的概念如果每个内节点都恰好有两个分枝,则称为二叉树。如果内节点有多于两个的分枝,则称为多叉树。从根节点到每个叶节点的路径称为“决策规则”。决策树可用于对新样本的分类,即通过决策树对新样本属性值进行测试,从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,该叶节点表示的类别就是新样本的类别,也能有效地识别新样本的类别。,6.2 决
20、策树分类算法,决策树生成算法分成两个步骤树的生成开始,数据都在根节点递归的通过选定的属性,来划分样本(必须是离散值)树的修剪去掉一些可能是噪音或者异常的数据决策树使用:对未知数据进行分割按照决策树上采用的分割属性逐层往下,直到一个叶子节点,6.2 决策树分类算法,决策树算法基本算法(贪婪算法)自上而下分而治之的方法开始时,所有的数据都在根节点属性都是种类字段(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量(如,information gain)停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割,6.2 决
21、策树分类算法,常用的决策树演算法 ID3,C4,C4.5,C5,CART,CHAID,QUEST决策树分类算法ID3算法决策树方法中影响最大的是1986年提出的ID3方法。它是建立在推理系统和概念学习系统的基础上的算法。ID3算法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树。首先检测训练数据集的所有特征,选择信息增益最大的特征A建立决策树根节点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立树的节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以在用于对数据进行分割。,6.2 决策树分类算法,决策树的建立-决策树建立的关键,建立一个好的决策树的关键
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 简单 概括

链接地址:https://www.31ppt.com/p-5985903.html