数据仓库的数据存储与处理.ppt
2023/9/11,数据仓库与数据挖掘,1,第2章 数据仓库的数据存储与处理,2023/9/11,数据仓库与数据挖掘,2,数据存储与数据处理是数据仓库系统实施的三个关键环节中的中心环节。数据存储结构设计和数据处理技术的研究在数据仓库理论中占有重要地位。,第2章 数据仓库的数据存储 与处理,2023/9/11,数据仓库与数据挖掘,3,2.1 数据仓库的数据结构,三层数据结构,2023/9/11,数据仓库与数据挖掘,4,2.1 数据仓库的数据结构,各个组成部分的含义:操作性数据:来源于业务系统中的数据。调和数据:存储在企业级数据仓库中的数据。导出数据:从数据仓库中导出并存储在各个数据集市中的数据。企业数据模型:企业组织所需数据的整体轮廓。元数据:有关数据的说明。,2023/9/11,数据仓库与数据挖掘,5,2.2 数据仓库的数据特征,状态数据与事件数据 当前数据与周期数据 数据仓库中的元数据,2023/9/11,数据仓库与数据挖掘,6,状态数据与事件数据:状态数据:描述对象状态的数据。事件数据:描述对象发生的事件的数据。数据库和数据仓库中存储的基本数据类型是状态数据。但是数据仓库中往往还存储事务或事件数据的汇总。,2023/9/11,数据仓库与数据挖掘,7,当前数据与周期数据:当前数据(业务系统):保留的最新数据。周期数据(数据仓库):保留的历史数据。,2023/9/11,数据仓库与数据挖掘,8,数据仓库中的元数据:数据仓库中的另一特征。,2023/9/11,数据仓库与数据挖掘,9,2.3 数据仓库的数据ETL过程,ETL概念ETL过程前后数据的特征 数据的ETL过程描述 抽取(Capture/Extract)清洗(Scrub/Cleanse)转换(Transform)加载和索引(Load/Index),2023/9/11,数据仓库与数据挖掘,10,ETL的概念:,数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、装载与索引(Load and Index)等数据调和工作。,2023/9/11,数据仓库与数据挖掘,11,数据的ETL过程描述:,2023/9/11,数据仓库与数据挖掘,12,数据抽取:,几点要求:数据源命名的透明度。源系统实施的业务规则的完整性和准确性。数据格式的一致性。SELECTINTO、存储过程等方法。,2023/9/11,数据仓库与数据挖掘,13,数据清洗:,原因:操作型业务系统中的数据质量很差。错误拼写的名字和地址。不可能的或错误的出生日期。不匹配的地址和电话区号。缺失的数据。重复的数据。,2023/9/11,数据仓库与数据挖掘,14,数据转换:,在ETL过程中处于中心位置,又很麻烦。将经过清洗后的数据(源系统)转换成装载对象(目标系统)的格式。,2023/9/11,数据仓库与数据挖掘,15,数据加载和索引:,将整理好的数据添加到数据仓库中。(方法?)建立索引。,2023/9/11,数据仓库与数据挖掘,16,数据ETL过程的实施要点:,ETL过程是一个数据流动的过程,中间的“T”(转换)是关键;ETL工具的选择非常重要,运用合适的工具会事半功倍;如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。,2023/9/11,数据仓库与数据挖掘,17,2.4 多维数据模型和星模式,多维数据模型及其相关概念 多维数据模型的物理实现 多维建模技术简介 一个星模式的例子,2023/9/11,数据仓库与数据挖掘,18,多维数据模型及其相关概念,有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等 关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级,2023/9/11,数据仓库与数据挖掘,19,有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等,2023/9/11,数据仓库与数据挖掘,20,维的类别即维的分层。可分为:简单层次复杂层次,维类别,2023/9/11,数据仓库与数据挖掘,21,复杂层次,2023/9/11,数据仓库与数据挖掘,22,维属性,维的一个取值。,2023/9/11,数据仓库与数据挖掘,23,度量即度量值,是多维数据空间中的单元格,用以存放数据,也叫事实。,度量,2023/9/11,数据仓库与数据挖掘,24,粒度与分割,数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节级)分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描。,2023/9/11,数据仓库与数据挖掘,25,关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级,2023/9/11,数据仓库与数据挖掘,26,一个典型的数据仓库的数据组织结构图:,数据仓库层,后备数据,后备数据,后备数据,高度综合级,轻度综合级,当前细节级,早期细节级,每“月”电话呼叫情况信息,每“天”电话呼叫情况信息,电话呼叫情况信息,电话呼叫明细情况信息,2023/9/11,数据仓库与数据挖掘,27,多维数据模型的物理实现,多维数据库(MDDB),其数据是存储在大量的多维数组中,而不是关系表中,与之相对应的是多维联机分析处理(MOLAP)关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP),2023/9/11,数据仓库与数据挖掘,28,多维数据库(MDDB),关系数据库存储方式,多维数据库存储方式,2023/9/11,数据仓库与数据挖掘,29,具有汇总数据项的关系数据库,具有汇总值的多维数据库,关系数据库中,将“多对多”的关系转化为多个“一对多”的关系,不直观,直观,2023/9/11,数据仓库与数据挖掘,30,二维数据容易理解,但维数扩展到三维或更高的维度时,多维数据库MDDB就成了一种“超立方”体的结构,理解就困难多了。在MDDB中,其数据的存储是由许多类似于数组的对象来完成,对象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许多存储数据的单元块联结在一起。实际组合中往往由于各种原因会导致某些组合没有具体的值,或值是空的或者为零。产生了多维数据库的稀疏矩阵问题。稀疏矩阵将导致存储空间的浪费,所以需要采用压缩技术。,2023/9/11,数据仓库与数据挖掘,31,将数据的多维结构划分为两类表:事实表维度表按照两种结构设计:星型模型雪花模型,关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP),2023/9/11,数据仓库与数据挖掘,32,1.星型模式在关系数据库中的表示,2023/9/11,数据仓库与数据挖掘,33,2.雪花模式在关系数据库中的表示,2023/9/11,数据仓库与数据挖掘,34,多维建模技术简介,两种主流建模技术:由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型;基于关系数据库的多维数据建模,如星型,雪花和事实星座模式;关于事实表、维表及键的设计,2023/9/11,数据仓库与数据挖掘,35,星型模型,2023/9/11,数据仓库与数据挖掘,36,雪花模型,2023/9/11,数据仓库与数据挖掘,37,一个星型模式的例子,