数据挖掘与数据仓库.ppt
《数据挖掘与数据仓库.ppt》由会员分享,可在线阅读,更多相关《数据挖掘与数据仓库.ppt(79页珍藏版)》请在三一办公上搜索。
1、数据库系统原理第二部分第七章 数据挖掘与数据仓库,7.1 数据仓库概述7.2 数据挖掘技术7.3 WEB数据挖掘,7.1 数据仓库概述,一、什么是数据仓库二、DBMS与DWMS三、数据仓库的系统结构四、数据仓库的工作过程,不同层次的信息处理需求,事务处理需求不同的事务处理子系统采购子系统:订单、订单细则、供应商销售子系统:顾客、销售库存子系统:出库领料单、进料入库单、库存台帐人事子系统:员工、部门各种事务处理需求一笔订购、一笔销售、一次进料、一次出料要求强调多用户并发环境,数据的一致性、完整性,不同层次的信息处理需求,分析处理需求今年销售量下降的因素(时间、地区、商品、销售部门)某种商品今年的
2、销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?要求多个子系统中的数据(数据集成)历史数据汇总、综合的数据,从数据库到数据仓库,事务处理与分析处理的性能特性不同事务处理环境数据存取操作频率高每次操作处理的时间短占用系统资源少系统可以允许多个用户按分时方式使用资源,保持较短的响应时间分析处理环境运行时间长消耗大量系统资源事务与分析应用不宜放在同一中环境中,从数据库到数据仓库,数据集成问题事务处理目的是使业务自动化只关注与本部门业务相关的当前数据事务处理应用的分散:企业内部各事务处理应用间相互独立DSS需要集成的数据(内部各部门数据、外部数据、竞争对手数据)DS
3、S需要对分散在各个事务处理应用中的相关数据进行集成,以向分析人员提供统一的数据视图,从数据库到数据仓库,数据动态集成问题每次分析都进行数据集成的开销太大静态集成开始对所需数据进行集成,以后就一直以这部分数据作为分析的基础,不再与数据源发生联系如果数据源发生了变化,这些变化不能反映到集成数据中,导致决策者使用的是过时的数据动态集成集成数据必须以一定的周期进行刷新事务处理系统不具备动态集成的能力,数据仓库的定义,数据仓库是一个面向主题的(Subject Oriented),集成的(Integrated),相对稳定的(Nonvolatile),反映历史变化的(time Variant)数据集合。用于
4、支持管理决策,一、什么是数据仓库,数据仓库技术所要研究和解决的问题就是从OLTP系统、异构分散的外部数据源、脱机的历史业务数据中获取数据,处理后为数据分析和管理决策提供应用服务。数据仓库就是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。,二、DBMS与DWMS,OLTP主要用来完成基础业务数据的增、删、改等操作,对响应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性及效率 OLAP应用是对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。,三、数据仓库的
5、系统结构与相关问题,四、数据仓库的工作过程,1.数据的抽取2.数据的存储和管理3.数据的展现等,1.数据的抽取,数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。,2.数据的存储和管理,数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传
6、统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。,3.数据的展现,在数据展现方面主要的方式有:查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总
7、、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。,7.2 数据挖掘技术,一、问题的提出二、什么是数据挖掘三、数据挖掘的环境四、数据挖掘的主要步骤五、数据挖掘的主要任务六、数据挖掘的主要方法七、数据挖掘的主要应用八、数据挖掘的主要工具,一、问题的提出,一方面规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手;另一方面在这些大量数据的背后却隐藏着很多具有决策意义的有价值的信息。如何发现这些有用的知识,使之为管理决策和经营战略发展服务?-数据挖掘(Data Mining)。,一个广为流传的数据挖掘例子,美国加州某个超市连锁店通过数据挖掘从记录着每天销售和顾客
8、基本情况的数据库中发现:在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。于是这个连锁店的经理当机立断地重新布置了货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放上土豆片之类的佐酒小食品,同时把男士们需要的日常生活用品也就近布置。这样一来,上述几种商品的销量几乎马上成倍增长。,二、什么是数据挖掘,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程 这些模型和关系可以用来做出决策和预测。支持大规模数据分析的方法和过程,选择或者建立一种适合数据挖掘应用的数据环境是数据挖掘研究的重要课题之一 数据挖掘是一门交叉学科,会聚了数据库、人工智能
9、、统计学、可视化、并行计算等不同学科和领域,三、数据挖掘的环境,合理而科学的数据环境是确保数据挖掘有效和正确实施的基础和关键。数据挖掘对大量数据的探索式分析的起点是联机分析处理(OLAP)。需要支持OLAP数据系统与OLTP数据系统的分离,需要服务于数据挖掘总体目标的数据再组织,需要有单独的数据分析和数据处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术产品。,四、数据挖掘的主要步骤,1、数据搜集2、数据整理3、数据挖掘4、数据挖掘结果的评估5、分析决策,1.数据搜集,大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。因此,数据收集是数据挖掘的首
10、要步骤。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。,2.数据整理,数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等;因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。,3.数据挖掘,利用各种数据挖掘方法对数据进行分析。,4.数据挖掘结果的评估,数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实际情况相违背的,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证
11、模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。,5.分析决策,数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果,五、数据挖掘的主要任务,1.数据总结2.分类3.关联分析4.聚类,1.数据总结,数据总结目的是对数据进行浓缩,给出它的总体综合描述。传统的也是最简单的数据总结方法利用统计学中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等。利用OLAP技术实现数据的多维查询也是一种广泛使用的数据总结的方法。
12、,2.分类,分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种类型,并以此分析这三种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。,分类分析(Classifiers),含义有一个记录集合和一组标记,标记用以标识记录的类别先为每个记录赋予一个标记(按标记对记录分类)对同类记录的特征进行描述显式描述:例如,一组规则定义隐式描述:例如,一
13、个数学模型或公式分类具有极其广泛的应用分类常用于预测医疗诊断、性能预测、选择购物、信誉证实等,分类分析的两个步骤,构建模型:对预先确定的类别给出相应的描述先假设一个元组(或样本)集合中的每一个元组(或样本)属于预先定义的某一个类别,由一个类标号属性(class label attribute)来确定这些元组(或样本)的集合称为训练集,用于构建模型;由于提供了每个训练样本的类标号,称作有指导的学习最终的模型用决策树、分类规则或者数学公式等来表示模型应用:对未知的数据对象进行分类,分类分析第一步:构建模型,分类分析第二步:模型应用,分类分析举例,对信用卡持卡人的信誉进行分类分析记录集合:持卡人的记
14、录集一组标记:良好、普通、较差;(信誉程度)先为每个持卡人赋予一个标记,即信誉等级对同类记录(即同信誉等级的持卡人)的特征进行描述。例如,信誉良好的持卡人的特征为:收入在25000以上年龄在45-55之间居住在XYZ地区对同类记录特征的描述(规则或模型)可用来分类新记录,分类分析举例,顾客购物分类顾客属性:姓名、年龄、收入、职业、信誉度为每个顾客赋予一个标记,即是否购买计算机按该标记将顾客分类,建立分类模型新来一个顾客,按分类模型识别该顾客是否属于购买计算机类若顾客属于购买计算机的类别,则将有关新的计算机的促销材料分发给他,利用决策树进行数据分类,决策树一个类似与流程图的树结构内部接点表示一个
15、与属性值相关的判断边表示判断的结果每个叶节点是一个类别的标识,决策树分类举例:训练数据集,决策树分类举例:计算属性的熵,类标号属性buys_computer,有两个不同值yes,no,有两个类,类yes有9个样本,类no有5个样本,决策树分类举例:分枝,age?,overcast,=30,40,30.40,决策树分类举例:最终结果,由决策树产生规则,IF age=“40”AND credit_rating=“excellent”THEN buys_computer=“no”IF age=“40”AND credit_rating=“fair”THEN buys_computer=“yes”,3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 数据仓库
链接地址:https://www.31ppt.com/p-6578718.html