【教学课件】第十章数据仓库.ppt
第十章 数据仓库,本章结构,10.1 数据仓库基本概念10.2数据仓库的基本原理10.3多维数据库与OLAP分析 10.4数据仓库模型设计10.5数据仓库的应用,10.1 数据仓库基本概念,10.1.1 数据仓库的产生 企业内部各部门的数据各不相同,利用这些数据进行分析得到的结论也会产生差异甚至截然相反。可见,传统的关系型数据库无法满足分析数据、支持决策的需求。这势必要求分析型数据环境的产生。数据仓库就是在此时产生的,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.1.2 数据仓库与数据库的区别,表10-1数据仓库和数据库的区别,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,数据仓库的定义,著名的数据仓库专家 W.H.Inmon 的定义是:数据仓库(Data Warehouse)是一个面向主题的、集成的、非易失的、随时间变化的数据集合,用于支持管理决策。该定义指出了数据仓库的四个特性:,面向主题(Subject Oriented),集成性(Integrated),非易失性(Non-Volatile),时变性(Time Variant),数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.2数据仓库的基本原理,数据仓库的体系结构,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,数据仓库的相关概念,数据抽取,数据清理,外部数据,数据转化,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,数据提取是指从外部数据源中收集数据,将提取出来的数据进行检测,并修正数据中的错误的过程称为数据清理,将不同格式的数据转换成相同格式过程称为数据转化,外部数据是从系统外部获得的与分析主题相关的数据,历史数据,元数据,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,历史数据是指组织在长期的信息处理过程中所积累下来的数据。一般对业务系统的当前运行不起作用,元数据是关于数据的数据。它是数据仓库中数据综合的一种类型。元数据的存储包括了数据仓库的结构、数据存储信息、数据提取、清洗和转换的规则、数据存取和检索的索引和配置等数据信息,数据颗粒,数据粒度有两种形式。第一种形式的数据粒度是面向OLAP的。粒度的大小反映了数据仓库中数据的综合程度。粒度越小,数据越详细,数据量也就越大,第二种形式的数据粒度是面向数据挖掘的,它反映的是抽样率,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,数据集市(Data Mart),数据集市也叫数据市场,是企业级数据仓库中针对某一主题的数据库,它是企业数据库的一个子集 按照数据集市的数据来源可将数据集市分为独立的数据集市和依赖的数据集市(1)独立的数据集市的数据直接来源于各信息系统。(2)依赖的数据集市的数据直接来源于中央数据仓库,也就是说它是在数据仓库的基础上建立起来的。,解决各别部门比较迫切的决策问题,复杂、难于维护,成本大大增加,高操作的响应速度增强系统易维护性,会增加投资成本,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,操作数据存储(Operational Data Store,ODS),ODS 是用于支持企业日常的全局应用的数据集合。ODS解决的是“日常”性问题,因而具有引入数据是可变的、数据是当前或近期的两个特点 ODS 的应用一般体现在两个方面:,企业级的联机事务处理(OLTP)应用,近期的联机分析处理(OLAP),数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.3多维数据库与OLAP分析,多维数据库的基本概念,变量,企业要考察过去一段时间销售量的情况,销售量就是变量,维,在分析销售量的时候,可以从商品种类、时间、地区等几个角度考虑,这里面就包含了产品维、时间维和地理维,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,变量是分析数据时要考察的属性,用户分析问题的角度或决策分析的出发点构成了数据仓库中的维,维的层次性,图10-2地理维的层次性,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,数据仓库中的维是具有层次性的。对于不同的层次,由上到下,层次是逐步细化的,维成员,图10-2中“东北地区吉林省”和“东北地区辽宁省”都是维成员,事实,如1999年、上海、产品A的销售量为5643,这就是一个事实,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,维成员是维的一个取值,如果维分成了几个层次,那么维成员就是不同维层次取值的组合,每一个维都取一个维成员,则可得到唯一确定的一个变量值。由各维度的取值和变量值构成了事实,多维数据立方体,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,多维数据立方体对应的是一个多维数组,在多维数据立方体中可以用(维1、维2、维3维n、变量值)表示。用多维数据立方体的形式存储数据,可以节约存储空间,且可以更好地表示数据间的关系,多维数据模型上的OLAP操作,OLAP 技术的核心是多维分析。下面我们具体介绍OLAP 的分析动作(1)切片 对多维数据集(维 1、维 2 维 i 维 n、变量)在维度 i 上选定一个维成员,得到一个 n-1 维多维数据集,称得到的这个 n-1 维多维数据集为原数据集在第 i 维上的数据切片,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,(2)数据切块 在多维数据立方体中,确定某些维度的取值范围,得到一个原立方体的子立方体的过程称为数据切块(3)数据钻取 数据钻取也叫数据下钻,是由概括的数据到详细的数据的过程,比如由“年”数据下钻到“季度”数据,这无疑会得到更详细的数据,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,数据聚集又叫数据上卷,它是数据钻取的逆过程。数据聚集是将详细的数据聚集为较概括的数据,它是一个综合数据的动作,(4)数据聚集,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,(5)数据旋转 数据旋转即变换维度的位置,也就是转动数据的视角,给用户提供一个从不同的角度观察数据的方法,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,多维数据库模式,(1)星型模式 要了解星型模式首先要了解维表和事实表的概念,维表,事实表,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,将维度抽取出来定义主键,由维的主键和维的取值构成的表是维表,事实表包含了详细的数据信息,但除了变量外,其余的列记录的是各个维的主键而并非维的取值,图10-7星型模式,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,(2)雪花模式 雪花模式是星型模式的一种衍生,图10-8雪花模式,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,(3)星座模式 在复杂的数据应用时,多个事实表需要共享维表。这种模式可以看成是星型模式的集合,因此又叫星系模式。三种多维数据模式中,星型模式和雪花模式比较适合对单个主题建模,而其中星型模式又更为流行。在具体应用时,要根据维表的复杂程度选择合适的模式,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,多维数据的数据存储与可视化,多维数据,二维数据,二维表来储存,多维数组来储存,数据储存,可视化,一维数据可视化可以用折线图、散点图、饼图、条形图等多种方式表示,三维或三维以上的多维数据,将数据进行切片转化为一维或二维数据,然后用相应的平面图或立体图来表示,二维数据,可以用三维柱状图、等高线图、立体曲线图等立体方式表示,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,多维数据库与数据仓库,数据仓库中的细节数据为多维数据库提供数据源,数据仓库,多维数据库,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.4数据仓库模型设计,企业模型设计 企业模型是将企业中各个角度的数据需求综合并抽象得到的数据模型。建立企业模型首先要搜集企业内部各方面人员对数据需求情况的资料。当所有的数据收集好以后,用ER图或面向对象的方法将收集到的信息抽象成ER模型或对象模型,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,(1)ER 模型 ER 图是由实体和实体间关系构成的。实体间的关系分为一对一的关系、一对多的关系和多对多的关系。将有关系的实体用线连接,并标注实体间的关系类型及具体关系内容就形成了ER图 图10-9 ER图示例,比如客户和商品的关系是购买,关系类型是多对多的关系,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,(2)对象模型 对象模型采用的是面向对象的方法。面向对象的方法首先要确定模型中需要的类。由类和类之间的关系构成的模型称为对象模型,即面向对象方法的企业模型,类不只是一个实体名称,而是由类名称、类属性和类动作组成的,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,概念模型设计,概念模型设计包括了两个方面,确定主题及主题所涉及的对象,进行技术准备工作,主题的选取是模型设计中极为重要的一个工作。主题的选择是由数据仓库开发人员和企业用户共同完成的,技术准备工作则是指估计数据仓库中的数据量、根据结果选择适合的软件和硬件等基础的准备工作,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,逻辑模型设计,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,物理模型设计,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.5数据仓库的应用,数据仓库的分类 根据数据仓库的应用目标不同可将数据仓库分为三类:数据仓库作为企业核心业务数据仓库用于优化企业内部结构数据仓库用于为企业增加商业机会,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.5.2 数据仓库的用户,信息使用者使用数据仓库是经常性的、重复性的,他们知道他们要了解什么,而且只访问很少的一部分数据。知识挖掘者对数据仓库的应用就更为复杂了。他们不只是查询数据仓库目前能够提供的信息,而是通过数据分析找到其中的隐含信息,用以发现更深层的知识来指导决策。,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,数据仓库的应用,数据仓库在证券业的应用数据仓库在银行业的应用 数据仓库在保险业中的应用,处理客户分析、证券交易数据分析、账户分析,财务分析、业务管理、动态报表、金融资讯等管理分析应用,助于实现保险公司的经营目标、预测保险行业的发展趋势、设计新的保险项目等,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.5.4 客户关系管理中的数据仓库,在开放的商业环境下,商家的客户范围越来越庞大,商家拥有的客户数据也越来越多,商家更关心的是如何利用这些数据。数据仓库的应用解决了这个问题。在客户关系管理中,数据仓库主要有以下几方面作用,保留客户,降低管理成本,分析利润的增长,增强竞争优势,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.5.5 数据仓库应用的效益分析,于数据仓库的应用效益,一般有两种分析方法。一是计算数据仓库的 ROI(Return of Investment,投资回报率),这是一种定量的计算方法。ROI 的计算公式是:,ROI,=,收益现值,成本现值,ROI越大,说明数据仓库的应用效果越明显,为企业带来的效益增加越大,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,10.5.5 数据仓库应用的效益分析,一般来主,对数据仓库应用效果的定性分析需要考虑以下几个方面:(1)是否能够提高产品质量、降低产品的生产成本。(2)是否为客户提供了更好的服务。(3)是否建立了企业内部的合作关系。(4)是否能加快企业对市场的反应能力。(5)是否能够改善管理能力。(6)是否既能管理细节数据又能管理概括数据。,数据仓库的基本原理,多维数据库与OLAP分析,数据仓库模型设计,数据仓库的应用,数据仓库基本概念,