数据仓库的数据存储与处理.ppt
《数据仓库的数据存储与处理.ppt》由会员分享,可在线阅读,更多相关《数据仓库的数据存储与处理.ppt(37页珍藏版)》请在三一办公上搜索。
1、2023/9/11,数据仓库与数据挖掘,1,第2章 数据仓库的数据存储与处理,2023/9/11,数据仓库与数据挖掘,2,数据存储与数据处理是数据仓库系统实施的三个关键环节中的中心环节。数据存储结构设计和数据处理技术的研究在数据仓库理论中占有重要地位。,第2章 数据仓库的数据存储 与处理,2023/9/11,数据仓库与数据挖掘,3,2.1 数据仓库的数据结构,三层数据结构,2023/9/11,数据仓库与数据挖掘,4,2.1 数据仓库的数据结构,各个组成部分的含义:操作性数据:来源于业务系统中的数据。调和数据:存储在企业级数据仓库中的数据。导出数据:从数据仓库中导出并存储在各个数据集市中的数据。
2、企业数据模型:企业组织所需数据的整体轮廓。元数据:有关数据的说明。,2023/9/11,数据仓库与数据挖掘,5,2.2 数据仓库的数据特征,状态数据与事件数据 当前数据与周期数据 数据仓库中的元数据,2023/9/11,数据仓库与数据挖掘,6,状态数据与事件数据:状态数据:描述对象状态的数据。事件数据:描述对象发生的事件的数据。数据库和数据仓库中存储的基本数据类型是状态数据。但是数据仓库中往往还存储事务或事件数据的汇总。,2023/9/11,数据仓库与数据挖掘,7,当前数据与周期数据:当前数据(业务系统):保留的最新数据。周期数据(数据仓库):保留的历史数据。,2023/9/11,数据仓库与数
3、据挖掘,8,数据仓库中的元数据:数据仓库中的另一特征。,2023/9/11,数据仓库与数据挖掘,9,2.3 数据仓库的数据ETL过程,ETL概念ETL过程前后数据的特征 数据的ETL过程描述 抽取(Capture/Extract)清洗(Scrub/Cleanse)转换(Transform)加载和索引(Load/Index),2023/9/11,数据仓库与数据挖掘,10,ETL的概念:,数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、装载与索引(Load and
4、 Index)等数据调和工作。,2023/9/11,数据仓库与数据挖掘,11,数据的ETL过程描述:,2023/9/11,数据仓库与数据挖掘,12,数据抽取:,几点要求:数据源命名的透明度。源系统实施的业务规则的完整性和准确性。数据格式的一致性。SELECTINTO、存储过程等方法。,2023/9/11,数据仓库与数据挖掘,13,数据清洗:,原因:操作型业务系统中的数据质量很差。错误拼写的名字和地址。不可能的或错误的出生日期。不匹配的地址和电话区号。缺失的数据。重复的数据。,2023/9/11,数据仓库与数据挖掘,14,数据转换:,在ETL过程中处于中心位置,又很麻烦。将经过清洗后的数据(源系
5、统)转换成装载对象(目标系统)的格式。,2023/9/11,数据仓库与数据挖掘,15,数据加载和索引:,将整理好的数据添加到数据仓库中。(方法?)建立索引。,2023/9/11,数据仓库与数据挖掘,16,数据ETL过程的实施要点:,ETL过程是一个数据流动的过程,中间的“T”(转换)是关键;ETL工具的选择非常重要,运用合适的工具会事半功倍;如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。,2023/9/11,数据仓库与数据挖掘,17,2.4 多维数据模型和星模式,多维数据模型及其相关概念 多维数据模型的物理实现 多维建模技术简介 一个星模式的例子,2023/9/11,数据仓库与数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 存储 处理
链接地址:https://www.31ppt.com/p-5985376.html