数据仓库开发应用过程.ppt
《数据仓库开发应用过程.ppt》由会员分享,可在线阅读,更多相关《数据仓库开发应用过程.ppt(53页珍藏版)》请在三一办公上搜索。
1、第3章数据仓库开发应用过程,数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成:数据仓库规划分析阶段、数据仓库设计实施阶段以及数据仓库的使用维护三个阶段。这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高。本章学习目标:(1)了解数据仓库开发应用的特点。(2)掌握数据仓库的规划、数据仓库的概念模型设计、数据仓库的逻辑模型设计、数据仓库的物理模型设计 和数据仓库的实施。(3)了解数据仓库的应用、支持和增强。,数据仓库开发应用过程,3
2、.1数据仓库开发应用过程 3.2数据仓库的规划 3.3数据仓库的概念模型设计 3.4数据仓库的逻辑模型设计 3.5数据仓库的物理模型设计 3.6数据仓库的实施 3.7数据仓库的应用、支持和增强,3.1数据仓库开发应用的特点,3.1.1 数据仓库开发应用的阶段性 数据仓库的开发应用过程划分为:创始阶段成长阶段控制阶段成熟阶段,3.1.2 数据仓库的螺旋式开发方法,规划 分析阶段 数据仓库 开发过程 设计实施 使用维护阶段 阶段,数据仓库开发的特点,从数据出发需求不能在开发初期明确不断循环的启发式过程,3.2 数据仓库的规划,3.2.1 选择数据仓库实现策略,开发策略主要有:自顶向下:实际应用比较
3、困难。自底向上:用于一个数据集市或一个部门的数据仓库开发,容易获得成功。两种策略的联合使用:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作。,3.2.2 确定数据仓库的开发目标和实现范围,首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。另一个重要目标是确定利用哪些方法和工具访问和导航数据?其它目标是确定数据仓库内部数据的规模 使用范围确定从用户的角度分析 从技术的角度分析,3.2.3 数据仓库的结构,1.数据仓库的应用结构 基于业务处理系统的数据仓库 单纯数据仓库 单纯数据集市 数据仓库和数
4、据集市 2.数据仓库的技术平台结构单层结构 客户/服务器两层结构 三层客户/服务器 多层式结构,3.2.4 数据仓库使用方案和项目规划预算,实际使用方案是一个非常重要的需求原型,可以将最终用户的决策支持要求与数据仓库的技术要求联系起来 开发方案的预算进行估计 编制数据仓库开发说明书:说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。计划中需要阐明期望取得的有形和无形利益业务价值计划最好由目标业务主管来完成规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。,3.3 数据仓库的概念模
5、型设计,概念模型的设计可以分为以下几个阶段:用户需求调查、模型定义、模型分析和模型设计。3.3.1 概念模型的需求调查数据仓库开发的任务书 首先要明确用户的信息需求 了解管理人员在信息需求方面的内容 了解关于信息的来源 组织所使用的系统环境,3.3.2 概念模型的定义,1.数据仓库用户的决策分析2.支持决策的数据需求分析3.数据需求分析工具,3.3.2 概念模型的定义,4.企业业务处理系统数据存储表,3.3.3 概念模型的分析,3.3.4 概念模型的设计,3.3.5 概念模型文档与评审,1.概念模型设计文档数据仓库开发需求分析报告概念模型分析报告概念模型概念模型的评审报告。2.概念模型的评审
6、确定概念模型是否完整地、准确地描述了用户的决策分析环境。确认用户是否已经和项目开发成员之间建立了稳定的联系?3.概念模型的评审人员 数据仓库项目负责人、数据仓库分析人员、数据仓库设计人员和数据仓库用户 4.概念模型的评审内容 数据仓库开发任务书;用户决策分析信息需求调查表;数据仓库主题;E-R图、星型模型和雪花模型。,3.4 数据仓库的逻辑模型设计,数据仓库的逻辑模型设计任务:分析主题域,确定要装载到数据仓库的主题;确定粒度层次划分;确定数据分割策略;关系模式的定义和记录系统定义、确定数据抽取模型等。逻辑模型最终设计成果:每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中粒度划分数据分割
7、策略表划分和数据来源等。,3.4.1 分析主题域,3.4.2 粒度层次和聚集的确定 决定数据仓库采取的是单一粒度还是多重粒度,以及粒度划分的层次。通过聚集的设计为数据仓库的使用提供各种可能的聚集查询便利,3.4.3 确定数据分割策略,把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储。便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率 数据分割标准:1.数据量2.数据分析处理的对象3.粒度分割的策略,3.4.4 关系模型定义,3.4.5 数据仓库的实体定义,实体的逻辑分析实体所有列的具体特征,3.4.5 数据仓库的实体定义,3.4.6 数据仓库的数据抽取模型,F1 数据抽取
8、规则,P2清理数据记录,3.4.6 数据仓库的数据抽取模型,2.数据仓库的数据抽取、转换与加载计划(1)影响数据抽取、转换与加载的因素数据格式坏数据系统的兼容性数据源的变化数据抽取的时间(2)数据抽取、转换与加载对策 全库比较利用程序日志利用数据库日志利用时间戳或利用位图索引,3.4.6 数据仓库的数据抽取模型,3.数据仓库的数据清理转换方法(1)类型转换(2)串操作(3)数学函数(4)参照完整性(5)关键字翻译(6)聚集运算4.数据仓库的数据抽取、清理与转换模型,3.4.6 数据仓库的数据抽取模型,数据源抽取对象表,3.4.6 数据仓库的数据抽取模型,数据源抽取规则表,3.4.6 数据仓库的
9、数据抽取模型,数据抽取的目标列与源列对应关系表,3.4.6 数据仓库的数据抽取模型,数据抽取过程的排序、概括和导出情况表,3.4.6 数据仓库的数据抽取模型,数据概括表与事实表对应关系,数据转换与清理,建一个简单 ETL 包,该包可以从单个平面文件源提取数据,使用两个查找转换组件转换该数据,然后将该数据写入 AdventureWorksDW 中的FactCurrencyRate 事实数据表。了解包要求查看源查看目标将源数据映射为与目标兼容,平面文件数据转换与清理,创建新的 Integration Services 项目添加和配置平面文件连接管理器 添加和配置 OLE DB 连接管理器 添加一个
10、数据流任务 添加平面文件源组件 添加并配置 CurrencyKey 查找转换 添加和配置示例 OLE DB 目标 运行回顾,excel的导入过程,Excel数据源定义Excel数据输出类型的转换,3.4.7 数据仓库的元数据模型建立与应用,在数据仓库的模型建立过程中,可以使用某种建模工具创建数据仓库的模型,此时需要从现有的业务处理系统中提取元数据,并建立数据仓库的逻辑模型和物理模型,包括数据仓库的逻辑名称、业务名称、列名、物理列名、业务术语和描述、查询提示和样值等,并将这些元数据保存在元数据目录中。在数据仓库中添加关于数据加载的元数据,完成数据“来源定义”,主要是关于数据仓库源数据的一些描述信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 开发 应用 过程
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5270314.html