数据仓库与数据挖掘的决策支持.ppt
《数据仓库与数据挖掘的决策支持.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘的决策支持.ppt(135页珍藏版)》请在三一办公上搜索。
1、第5章 数据仓库与数据挖掘 的决策支持,基本原理,知识发现与数据挖掘,数据仓库系统,联机分析处理,数据仓库与数据挖掘的决策支持,数据仓库的支持系统,5.1 数据仓库的基本原理,数据仓库的兴起1.“数据太多,信息不足”的现状2.异构环境的数据源 据美国幸福杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。,5.1.1 数据仓库的概念,(1)在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,1、数据仓库的概念,(2)SAS软件研究所
2、定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,1、数据仓库的概念,传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。,操作型数据(DB数据)与分析型数据(DW数据)之间的差别为:,2、数据仓库特点,(1)数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户 DW的客户数据来源:从银
3、行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。,2、数据仓库特点,(2)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,2、数据仓库特点,(3)数据仓库是稳定的 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的 数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史
4、时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,2、数据仓库特点,大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台 需要一个并行的数据库系统 最好的数据仓库是大的和昂贵的。,面向主题,稳定,随时间变化,集成,特点,数据仓库特点,近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attr
5、ibutes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。,5.1.2 数据仓库结构,数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。,5.1.3 数据集市(Data Marts),数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市
6、场的具体解决方案。,数据集市概念,独立数据集市(Independent Data Mart)从属数据集市(Dependent Data Mart),数据集市的种类,1、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、工具集的紧密集成10、更详细的、预先存在的数据仓库的摘要子集11、可升级到完整的数据仓库,数据集市的特性,元数据是数据仓库的重要组成部分。元数据描述了数据仓库的数据和环境,即关于数据的数据(meta data)元数据包括四种元数据。,5.1.4 元数据,Himart,元数据,数据仓库使用,数据仓
7、库映射,数据模型,数据源,它是现有的业务系统的数据源的描述信息。这类元数据是是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3)每个数据项更新的频率,以及由谁或那个过程更新的说明。(4)每个数据项的有效值。,1、关于数据源的元数据,数据仓库的数据模型是星型模型。通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变换。,2、关于数据模型的元数据,这类元数据是数据源与数据仓库数据间的映射。当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据
8、反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。,3、关于数据仓库映射的元数据,这类元数据是数据仓库中信息的使用情况描述。数据仓库的用户最关心的是两类元数据:(1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。(2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。,4、关于数据仓库使用的元数据,5.2 数据仓库系统,5.2.1数据仓库系统结构 数据仓库系统由数
9、据仓库(DW)、仓库管理和分析工具三部分组成。,1、数据仓库管理系统,(1)定义部分 用于定义和建立数据仓库系统。它包括:(1)设计和定义数据仓库的数据库(2)定义数据来源(3)确定从源数据向数据仓库复制数据时的清理和增强规则(2)数据获取部分 该部件把数据从源数据中提取出来,依定义部件的规则,抽取、转化和装载数据进入数据仓库。,(3)管理部分 它用于管理数据仓库的工作,包括:(1)对数据仓库中数据的维护(2)把仓库数据送出给分散的仓库服务器或DSS用户(3)对仓库数据的安全、归档、备份、恢复等处理工作,1、数据仓库管理系统,(4)信息目录部件(元数据)数据仓库的目录数据是元数据,由三部分组成
10、:技术目录:由定义部件生成,关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映象信息。业务目录:由仓库管理员生成,关于仓库数据的来源及当前值;预定义的查询和报表细节;合法性要求等。信息引导器:使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。,1、数据仓库管理系统,分析工具集分两类工具:(1)查询工具 数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。,2、数据仓库工具集,多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致
11、和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。,2、数据仓库工具集,(2)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。,2、数据仓库工具集,3、数据仓库的运行结构,数据仓库应用是一个典型的客户/服务器(C/S)结构形式。数据仓库采用服务器结构,客户端所做的工作有:客户交互、格式化查询、结果显示、报表生成等。服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。现在,越来越普通的一种形式是三层C/S结构形式,即在客户与数据仓库服务器之间增加一个多维数据分析
12、(OLAP)服务器。,OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。这种结构形式工作效率更高。,三层C/S结构,数据仓库存储采用多维数据模型。维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。,5.2.2 数据仓库的存储,商品,城市,日期,上海,牛奶,
13、存储示意图,数据仓库是以多维表型的“维表事实表”结构形式组织的,共有三种形式:1、星型模型 大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。例如:多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。星型模型数据如下图:,2、雪花模型 雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询性能。在上
14、面星型模型的数据中,对“产品表”“日期表”“地区表”进行扩展形成雪花模型数据见下图。3、星网模型 星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。,40,联机分析处理(On Line Analytical Processing,OLAP)的概念最早是由关系数据库之父于1993年提出的。在数据仓库系统中,联机分析处理是重要的数据分析工具。OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。,5.3 联机分析处理,41,5.3.1 基本概念,OLAP是在OLTP的基础上发展起来的。OLTP是以数据库为基础的,面对的是操
15、作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。OLAP是以数据仓库为基础的数据分析处理。它有两个特点:一是在线性(On Line),由客户机/服务器这种体系结构来完成的;二是多维分析,这也是OLAP的核心所在。,1、OLAP的定义,联机分析处理是共享多维信息的快速分析。它体现了四个特征:(1)快速性:用户对OLAP的快速反应能力有很高的要求。(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。(3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。,43,1993年,提出OLAP的12条准则,其主要的准则有
16、:多维数据分析;客户/服务器结构;多用户支持;一致的报表性能等。,2、OLAP准则,44,1.多维概念视图,企业的数据空间本身就是多维的。因此OLAP的概念模型也应是多维的。用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合(概括和聚集)分析。,45,4.稳定的报表性能,报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的降低。,46,5客户/服务器体系结构,OLAP是建立在客户/服务器体系结构上的。要求多维数据库服务器能够被不同的应用和工具所访问。,47,8多用户支持 当多个用户要在同一分析模式上并行工作,需要这些功能的支持。1
17、1灵活的报表生成 报表必须充分反映数据分析模型的多维特征,并可按用户需要的方式来显示它。,OLAP是针对特定问题的联机数据访问和分析。(1)变量:变量是数据的实际意义,即描述数据“是什么”。(2)维:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。(3)维的层次:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。(4)维成员:维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。,3、OLAP的基本概念,(5)多维数组:一个多维数组可以表示为:(维1,维2,维n,变量)一个5维的结构,即(产品,地区,时间,销售渠道,销售额)。(6)数据单元(单元格):多维
18、数组的取值称为数据单元。如:5维数据单元(牙膏,上海,1998年12月,批发,销售额为100000)。,3、OLAP的基本概念,(1)OLTPOLTP是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等操作,以完成事务处理工作。OLTP利用数据库快速地处理具体业务。OLTP应用要求多个查询并行。,4、OLAP与OLTP的关系与比较,(2)OLAPOLAP是高层人员对数据仓库进行信息分析处理。存取大量的数据 包含聚集的数据 按层次对比不同时间周期的聚集数据 以不同的方式来表现数据 要包含数据元素之间的复杂的计算 能够快速的响应用户的查询,4、OLAP与OLTP的关系与比较,(3)OLA
19、P与OLTP对比(对比表),53,5.3.2 OLAP的数据组织,MOLAP和ROLAP是OLAP的两种具体形式:ROLAP是基于关系数据库存储方式建立的OLAP。多维数据映射成平面型的关系表。采用星型模型。,54,MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,类似于多维数组的结构。在分析中,需要“旋转”数据立方体以及“切片”、“切块”等操作。,MOLAP和ROLAP的对比表,56,例如,以“产品、城市、时间”三维数据,如图,5.3.3 OLAP的决策支持;OLAP多维数据分析,57,1、基本功能:切片和切块,对三维数据,通过“切片”,分别从城市和产品等不同的角度观察
20、销售情况:,58,钻 取,钻取:例如,1995年各部门销售收入表如下:,59,对时间维进行下钻操作,获得新表如下:,钻 取(续),60,旋转前的数据,旋 转,61,旋转后的数据,旋 转(续),62,旋转后再切片,63,2、广义OLAP功能,1、基本代理操作“代理”是一些智能性代理,当系统处于某种特殊状态时提醒分析员。(1)示警报告 定义一些条件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。(2)异常报告 当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。,64,2、计算能力 计算引擎用于特定需求的计算或某种复杂计算。3、模
21、型计算 增加模型,如增加系统优化、统计分析、趋势分析等模型,以提高决策分析能力。,2、广义OLAP功能,65,假设有一个5维数据模型,5个维分别为:商店,方案,部门,时间,销售。1三维表查询 在指定“商店=ALL,方案=现有”情况的三维表(行为部门,列为时间和销售量),、OLAP实例,指定商店、方案后的三维表,2、向下钻取 对汽车部门向下钻取出具体项目的销售情况和利润增长情况。,3、切片表 切片(Slice)操作是除去一些列或行不显示,4、旋转表 这次旋转操作得到1995年的交叉表方案为:现有、计划、差量、差量%。,70,5.4.1 数据仓库的开发 1、数据仓库规划 数据仓库开发的范围怎样?要
22、解决的业务问题是什么?开发的数据仓库的决策支持能力是什么?,5.4 数据仓库的决策支持及实例,71,决策者的需求:对信息的需求 对业务过程的需求 对数据访问的需求,2、定义体系结构,72,确定体系结构,(1)来源:数据应该来自于什么DBMS的源数据?(2)传输:数据通过什么样的网络拓扑结构传送过来?(3)目的地:数据发送到数据仓库的什么硬件环境?(4)元数据:确定存储和访问数据的元数据。(5)变换:编制数据抽取、变换、装载的程序。(6)访问:最终用户怎样才能查询数据?,73,(1)主题域分析 确定所需数据的范围和内容。并建立数据仓库的数据模型:主题域范围 数据仓库的数据模型(2)物理数据库设计
23、 数据的实际存储设计,3、数据仓库设计,74,(1)确定源数据、检查其完整性,进行评价。(2)完成源数据变换到目标数据仓库中去。,4、源系统分析与数据变换设计,75,完成数据加载;评审;元数据加载;系统测试,5、建立数据仓库,76,提供给用户访问的形式:(1)使用现有的特定工具;(2)开发一个最终用户访问程序。,6、用户访问方法的设计和开发,77,5.4.2 数据仓库的决策支持,美国著名的NCR数据仓库公司对数据仓库总结5种决策支持能力。1、报表 2、随机分析 3、预测 4、实时决策 5、事件触发的自动决策,78,1、报表,数据仓库所面临的最大挑战是数据集成。传统的环境经常有上百个数据源,每一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 决策 支持
链接地址:https://www.31ppt.com/p-5019225.html