数据仓库及其案例介绍.ppt
《数据仓库及其案例介绍.ppt》由会员分享,可在线阅读,更多相关《数据仓库及其案例介绍.ppt(68页珍藏版)》请在三一办公上搜索。
1、数据仓库及其案例,张千福,目的,掌握数据仓库的基本概念和数据中心的体系架构。掌握有关商业智能和数据仓库的重要术语了解数据中心建设过程了解公司数据仓库项目重要案例,培训提纲,概念重要术语关键技术数据质量方法论典型案例,历史沿革,计算机数据管理的历史:1961年通用电气开发出网状数据库管理系统 集成数据存储(Integrated DataStore IDS)。1968 年IBM 公司开发出层次数据库的IMS(Information Management System)。1970年关系模型建立。IBM研发全功能关系DBMS System R。1973年加州大学伯克利分校开发出关系数据库系统Ingre
2、s。后来由Oracle公司、Ingres公司等厂商商品化。在20世纪70年代提出了决策支持系统概念。在1970年,联机分析处理工具Express诞生了。1980年明确了其部件结构(对话部件、数据部件、模型部件)。1988年,IBM公司的研究者Barry Devlin和Paul Murphy发明了一个新的术语信息仓库,之后,IT的厂商开始构建实验性的数据仓库。1991年,W.H.Bill Inmon出版如何构建数据仓库。把数据仓库、联机分析处理、数据挖掘、模型库、数据库、知识库结合起来形成综合决策支持系统(Synthetic Decision Support System,SDSS)是今后的发展
3、方向。,数据仓库的概念,William H.Inmon:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。,企业管理与决策,基层业务人员,中层管理人员,高层决策人员,操作型数据操作型应用,企业级操作型数据企业级操作型应用,分析型(战术)数据分析型(战术)应用,分析型(战略)数据分析型(战略)应用,管理信息(数据分析),决策信息(辅助决策),基础数据(统计查询),数据范围,数据汇总粒度,数据仓库的特点,1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业
4、务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、相对稳定的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各
5、个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,数据仓库面向主题,数据仓库系统结构,数据仓库主要包括数据的提取、转换与装载(ETL)、元数据、数据集市和操作数据存储等部分,常用的数据仓库结构如图所示。,IBM数据仓库解决方案,Oracle解决方案,粤电数据仓库,信息展现,源数据,环保数据,人力资源,抽取转化过滤加载,直接用户(开发人员),粤电用户,粤电用户,应用服务器,关型模型,转换,立方体,挖掘,Oracle 9i,数据管理,数据转换,中调实时接口,电厂KPI,电厂KPI,元数据,SAP BW解决方案,ODS,InfoCube,Non-SAP Data Sou
6、rces(Flat file,XMLor DBConnect),BEx,WebBasedBEx,明细数据,业务仓库,SAP R/3,SAP-BW,数据源,前端展现,培训提纲,概念重要术语关键技术数据质量方法论典型案例,数据集市,人们在早期开发企业级数据仓库时,一般是先建立一个全局的数据仓库,然后在此基础上建立各种应用,即“自顶向下”的方法。但在开发的过程中会出现以下问题。(1)如果按“自顶向下”的方法建立企业级数据仓库,建设规模往往较大,建设周期长,投资大。(2)在数据仓库建好后,随着使用数据仓库的部门增多,对数据仓库资源的竞争将成为企业面临的个难题。(3)各个部门希望能定制数据仓库中的数据,
7、但数据仓库是面向企业的。,数据集市,外部数据,构建数据仓库-自顶向下,数据集市,建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性,操作数据,问题投资效益的时间?建设中心数据模型的必要性和可能性?初始费用?,构建数据仓库-自底向上,数据集市,建立部门数据集市限制在一个主题区域快速投资收益 区域自治 设计的可伸缩性强对相关部门的应用容易复制 对每个数据集市需要数据重构存在一定的冗余及不一直性逐步扩展到企业数据仓库(EDW)把建造EDW作为一个长期的目标,存在的问题:数据集
8、市的数据都是可用的吗?能生成数据模型吗?如何解决不一致性?,操作数据(局部),数据集市,企业数据仓库,OLTP与OLAP,数据处理系统可以分成两大类:联机事务处理OLTP(on-line transaction processing):OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易、电力营销系统。联机分析处理OLAP(On-Line Analytical Processing):OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概
9、念,因此OLAP也可以说是多维数据分析工具的集合。数据仓库的核心是联机分析处理。,数据仓库与OLAP,数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。-概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。它本身包括三部分内容:数据层。实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。应用层。通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。表现层。通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。从应用角度来说,数据仓库系
10、统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。,ROLAP、MOLAP、HOLAP模式,ROLAP用关系数据库存储多维数据,对应用频率比较高、计算工作量比较大的查询作为实视图,并作为表存储。针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并
11、行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。,MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。,OLAP分类,重要术语,维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上
12、位置的描述)多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,维n,变量)。(时间,地区,产品,销售额)度量(数据单元,单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000),星型模式(Star Schema),事实表:用来存储事实的度量值和各个维的码值。维 表:用来存放维的元数据(维的层次、成员类别等描述信息)。,Budget,元数据-Metadata,在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。作用:元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据;元数据能支持系统对数据的管理和维护,如关于数据项存储方
13、法的元数据能支持系统以最有效的方式访问数据。元数据机制主要支持以下五类系统管理功能:描述哪些数据在数据仓库中;定义要进入数据仓库中的数据和从数据仓库中产生的数据;记录根据业务事件发生而随之进行的数据抽取工作时间安排;记录并检测系统数据一致性的要求和执行情况;衡量数据质量。,培训提纲,概念重要术语关键技术数据质量方法论典型案例,信息展现,数据模型,数据存储,数据ETL,四种关键技术,ETL,ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取
14、到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面:空值处理 可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。规范化数据格式 可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。拆分数据 依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。验证数据正确性 可利用Lookup及拆分功能进行数据验证。例如,主叫号861082585313-8148,进行区域码和
15、电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。数据替换 对于因业务因素,可实现无效数据、缺失数据的替换。Lookup 查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。建立ETL过程的主外键约束 对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explore
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 及其 案例 介绍
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6296226.html