全面认识数据仓库.docx
《全面认识数据仓库.docx》由会员分享,可在线阅读,更多相关《全面认识数据仓库.docx(51页珍藏版)》请在三一办公上搜索。
1、全面认识数据仓库1. 前言随着我行信息科技工作进入后蓝图时代,后线分析系统注1建设的需求会越来越高,将在快速响应、高效实施、灵活应变、信息统一、全局分析、深度挖掘、监管有力、报送及时、降低成本等方面提出更多新的挑战。面对蓝图成功投产后新的产品体系,如何统一规划全辖数据资源、整合后线产品架构、预备各项技术预研可能是今后信息科技工作的一个重心。数据仓库(DW)是各行业后线系统进展的一个重要方向,它在克服部门级应用的局限(数据分隔注2、重复存储、重复中间加工过程注3、维护工作繁琐、资源重复投入等)、满足全辖基础数据共享、提供全局分析视角和应用组件、支持快捷灵活和低成本的开发部署等方面有着不可替代的功
2、能和地位。数据仓库本身有着不同视角的概念解释,大可涵盖整个企业级应用架构,小可专注于单纯的数据建模与存储;数据仓库涉及重多相关技术,如ETL、数据模型设计、多维分析、数据挖掘等;数据仓库建设可能是一个复杂高难的全局性项目,正确的实施路径、策略、方法与有效的质量治理是项目成败的关键;另外,数据仓库系统实施后的治理与维护,也是保证各类后线应用系统长期顺利运行的重要因素。针对这些数据仓库相关的概念、技术、策略、方法等,可能并不是每个人都有比较全面的了解。因此有必要对这些做一个系统的介绍,使大伙儿对数据仓库有一个全面清晰的认识。2. 数据仓库入门介绍 应用需求背景随着联机事务处理(OLTP)业务系统的
3、深入应用,企业各类业务数据不断积存和丰富,越来越需要从大量数据中提取有价值的信息,以辅助决策和指导经营。治理信息系统(MIS)和早期的决策支持系统注4(DSS)要紧是基于传统的数据库技术和事务处理环境,这种系统结构随着业务系统建设规模的扩大、数据量的巨增和数据复杂度的提高,已无法满足综合分析型应用的需求,造成数据丰富而信息贫乏的困境。首先,人们逐渐认识到,分析处理和事务处理具有极不相同的性质,事务处理通常是对数据库进行联机的查询和修改操作,每笔交易的响应时刻和数据的安全完整是关键;而分析型处理往往是对大规模历史数据的批量加工计算,数据的规范统一和整体时刻窗口是重要关注点。因此直接采纳传统数据库
4、技术和使用事务处理环境来支持分析型系统是不合适和失败的。两类系统的特点比较见表-1:事务处理型应用分析处理型应用专门多用户少量用户小事务、频率高、时刻短大事务、频率低、时刻长一次数据操作量小,是小单元的随机数据操作一次数据操作量大,是大集合的批量数据操作更新与插入操作都专门频繁更新操作较少,插入操作较多需要当前的细节的业务数据需要历史的整合的综合数据响应时刻是关键总的处理时刻是关键面向应用、事务驱动,数据范围小面向分析、分析驱动,数据范围大表-1另一方面,企业的各类应用系统是在不同时期通常由各部门或分支机构面向特定应用建设的,存在着数据平台异构、数据结构和数据标准不统一等问题。传统的数据库技术
5、和事务处理环境关于实现基于个不业务系统的部门级MIS和初级DSS系统尚可支持,而对实现全局范围的离散数据整合和综合信息利用,建设跨部门的企业级分析应用已无能为力。 数据仓库的提出麻省理工学院在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采纳完全不同的架构和设计方法。1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范,但没有进行实际的设计。1991年,Bill Inmon提出了数据仓库概念,并对什么缘故建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。 Inmon对数据仓库的定义是“数据仓库是面向主题的、
6、集成的、稳定的、随时刻变化的数据集合,它用以支持经营治理中的决策制定过程”。那个定义要紧描述了数据仓库的四个最差不多特征。在数据仓库的整体概念中,这是对最核心部分的狭义定义。我们还应该明白,除了那个最核心的仓库体之外,广义的数据仓库概念,还包括来自各源业务系统的数据通过采集、下传和加载等步骤进行入仓库体的过程,包括仓库体的数据针对各类分析需求进行多维加工、挖掘、利用的过程,并包括全程数据流程设计和数据质量治理等过程。从狭义上讲,数据仓库是一个具有四个差不多特征的数据仓储体,从广义上讲,数据仓库是一种架设企业后线分析类应用的解决方案。伴随着数据仓库,同时期还出现了联机分析处理(OLAP)和数据挖
7、掘(DM)等新技术,从此,DW+OLAP+DM就逐渐形成新决策支持系统的概念。再后来的商务智能(BI)应用需求更是基于DW+OLAP+DM的支持。 两种数据仓库设计思路提出数据仓库的不至Inmon一个人。Bill Inmon和Ralph Kimball差不多上数据仓库的首创者,但对数据仓库设计的观点专门不相同。首先需要了解一个数据集市(DM)的概念。相关于数据仓库是一个企业级的高度综合数据集,数据集市确实是部门级的轻度综合数据集。Inmon主张建立数据仓库时采纳DWDM方式,即先建一个统一数据层(狭义DW,中央数据仓库),将不同的OLTP数据集中到面向主题、集成、稳定、随时刻变化的统一数据层中
8、,其中数据能够下钻到最细层,或者上卷到汇总层。再利用中间统一数据层,针对各部门的专门分析需要设计独立数据集市(数据仓库的子集)。见图2-1: 图2-1而Kimball主张DMDW方式,即直接将源数据抽取转换到面向各部门分析需要的数据集市中,然后将一系列维数相同的数据集市联合起来递增地构建数据仓库,通过一致的维(公共定义的元素)能够共同看到不同数据集市中的信息。也即数据集市的联合数据仓库。见图2-2: 图2-2两种设计思路产生两种不同的数据仓库建设模式,一种是先构建企业中央数据仓库,一次性的完成数据的重构工作,最小化数据冗余度和不一致性,再从中央数据仓库中建筑数据集市,数据集市从数据仓库中得到大
9、部分的集成数据,且直接依靠于数据仓库的可用性。这种建设模式的问题在于:投资回报时刻如何保证?建设中央数据模型的必要性和可能性?初始费用如何预算?。另一种建设模式是先建数据集市,即由各个部门在各自的主题区域内进行数据重构,快速得到投资收益,然后通过联合数据集市递增地构建数据仓库,把建筑数据仓库作为一个长期的目标。这种由数据集市汇成数据仓库的建设模式面临的要紧问题是:各个数据集市的数据不一致性难以解决,且存在一定的数据冗余。 这种方法更能满足近期目标的需求,但增加了以后转换为独立的数据仓库的数据体系结构的困难。从总的比较结果来看,Inmon的建设模式起步难度大,但假如走好了第一步,长远利好;Kim
10、bal的建设模式更能满足近期目标的需求,但当以后试图跨数据集市猎取联合视图时,可能面临严峻问题。数据仓库建设模式的选择要紧取决于商业驱动。假如企业正忍受糟糕的数据治理和不一致的数据,那么Inmon的方法就更好一些,能够带来全面革命和解放;假如企业迫切需要给用户提供信息,那么Kimbal的方法更能满足需求,能够通过逐步改革解决问题。大型项目一般会采纳Inmon的数据仓库建设策略,全球最资深的数据仓库服务商TERADATA确实是这种模式的忠实支持者。 数据仓库的四个特征Inmon的数据仓库思想被奉为经典,他在数据仓库定义中描述的四个差不多特征是数据仓库之路上的入门概念,是数据仓库区不于事务处理环境
11、和传统独立分析应用的最本质内容。面向主题OLTP应用或独立分析应用差不多上为满足个不应用需求而建设的,它们的数据是各取所需的、局部的,其数据定义标准和组织方式也各具特色。数据仓库的设计思想与此不同,它不是面向某个具体需求,而是对反映全辖业务经营情况的所有源数据进行分门不类、统一组织,从而为现有和潜在的各类分析需求提供一致范围和一致标准的基础数据支持。主题确实是对企业内结构各异的源数据依照可用性、及时性、前瞻性、方便性等需要在较高层次上进行综合、归类的抽象。例如对银行来讲,DW包括的主题域能够分为当事人、协议、产品等。通过按主题重构的数据模型,应当能够支持所有的分析应用。集成共享由于源数据的分散
12、独立、平台异构、标准不统一、模型差不大、冗余度高等状况,在将其提炼、抽取到数据仓库时要进行必要的转换与整合。如此集成后的数据,具有一致的结构和标准,才能为所有分析应用共享。随时刻变化除了可能有小部分的业务数据补录,数据仓库自身不产生源数据,而只需要对进入仓库的源数据进行加工和汇总。加载处理后的统一基础数据和汇总数据总是随时刻不断增量变化的。不可更新源自业务系统的数据差不多上差不多发生的数据,除了个不分析应用可能需要对错误发生的业务数据进行日后的在应用层的纠错处理外,数据仓库差不多可不能更新和删除从源系统中传过来的细节数据。3. 数据仓库架构 两类差不多数据仓库架构有两类差不多数据仓库架构,一类
13、是Inmon提出的CIF架构(Corporate Information Factory,即企业信息工厂),一类是Kimball提出的MD架构(Mutildimensional Architecture,即多维体系结构)。CIF架构要紧包括集成转换层(I&T)、操作数据存储(ODS)、数据仓库(EDW)、数据集市(DM)、探究仓库(EW)等部件。MD架构要紧包括数据预备区(Staging Area)和数据集市。MD的数据预备区在功能上相当于 CIF 的staging area+EDW,要紧负责数据预备工作,是一致性维表注5的产生、保存和分发的场所。数据集市要紧是采纳一致性维表来完成维度建模,多
14、个数据集市一起合并成“虚拟”数据仓库,这些数据集市能够是存在于一个数据库中,也能够是分布在不同机器的不同数据库中。两类数据仓库架构各有优缺点,CIF架构建设周期较长且初始设计复杂,但当建立起企业级数据模型并完成数据清洗整合工作,数据的完整性和一致性问题就能够得到全然解决,后续针对需求变化易于扩展,且成本较低。MD架构是先着眼于某些部门级应用创建快速见效的数据集市,而后以逐步创建和合并数据集市的方式实现企业级数据仓库,如此启动成本较低且初始设计较简单,然而全局数据的一致性和稳定性需要通过对一致性维表的持续维护来保证,后续扩展的工作量和代价较大。在实际的数据仓库项目解决方案中,往往是依照项目规模、
15、实施目标、成本预算等在这两类差不多架构上进行取舍调整和变形。多数是采纳CIF架构;也有采纳CIF架构和MD架构相结合的方法,例如,IBM提出的CDW(Corporate Data Warehouse)确实是把CIF架构的EDW与MD架构的DM进行结合的解决方案。 解析CIF数据仓库架构典型的CIF数据仓库架构见图3-1,大的层次上要紧包括源数据层、ETL层、数据服务层、数据展现层等部分。图3-1 源数据层源数据层是数据仓库的源头,包括采集反映企业经营状况的各类业务系统源数据、补录数据以及导入来自外部的数据。源数据能够采纳数据库直连方式由ETL抽取到数据服务层,但首选是先采集到接口数据文件,再传
16、给ETL层。 ETL层ETL的差不多设计任务是完成数据抽取、转换与加载。在各个项目设计中可依照具体环境进行调整,例如在我行已建立通用数据下传平台系统,因此能够不再需要数据抽取功能。ETL作为将整个数据仓库系统的数据处理过程串联起来的生命通道,还负责对整个过程中的批量任务进行调度、治理和监控。另外我们将元数据治理和数据质量管控也归为ETL层的任务。 数据服务层数据服务层也可称数据仓库层,其中包含多个层次。源数据缓存区:加载数据先进入源数据缓存区(也称staing area),在这一层(数据落地或不落地)通过进一步的清洗和转换之后进入全局统一基础数据区。加载过程中的临时表就属于这一层。ODS区:是
17、可选层,其数据结构跟源数据结构一致,相当于业务数据的快照,保存相关于数据仓库比较实时的数据,要紧是针对需要实时数据的操作型应用需求,也可服务于实时性需求不强但需要按照源数据结构访问数据的应用需求,如审计。ODS层的数据存储周期一般不长,例如一周,一般不超过一月。如需长时刻保留,能够采纳单库同步处理或保留数据文件的方式实现。依照顾用需要,有时可能需要建立多个ODS区或ODS库。全局统一基础数据区:即CIF架构的EDW,存储面向主题的、集成共享的、历史的、不易变的全局视角企业数据。采纳关系模型注6设计,不面向具体应用,而是要考虑整体使用的方便性和效率。所有分析类系统使用的数据(除了可能有使用ODS
18、数据的应用系统)都应通过本层提供,幸免出现数据孤岛。本层中能够存在面向一定逻辑视图的通用汇总数据,以方便数据集市加工或提供更好性能的数据直接访问,但理论上本层设计不用考虑最终用户的需求。应当减少最终用户对本层数据的过多直接访问,通常应该通过数据集市间接向最终用户提供数据,当数据仓库建设成熟之后,最终用户对本层直接访问的情况应该专门少,尽管有时也是必要且有益的。汇总数据缓存和DM区:由于EDW中存储的是关系模型的、统一标准的、最全面的基础数据,假如每个分析应用都直接访问EDW,应用的性能和EDW承受的压力都成问题,因此需要针对特定应用提早加工各类汇总数据。汇总数据在数据缓冲层(落地或不落地)完成
19、加工后,存储到各个数据集市中。DM层的数据直接被具体应用访问,通常是按维度建模,依照顾用需要也可建成关系模型。将DM与EDW放在同一数据库中是可能的,但假如将它们物理上分开,放在不同的机器上处理好处更多,包括:将数据集市分不放在小一点的机器上,处理过程的费用会下降;数据集市与数据仓库的工作相分离,整个处理过程将更容易治理,对容量的打算也更容易预测和治理;不同的部门拥有相应的数据集市,能够令各方中意。 数据展现层本层要紧是通过各种工具或应用开发实现对DM中数据的目标应用。数据展现工具要紧包括报表、灵活查询、OLAP分析、数据挖掘等各类;应用开发更加灵活自主,还能够直接使用EDW中的通用基础数据和
20、通用汇总数据。4. 数据仓库设计假如把数据仓库系统看作一个产品,那么这是一个涵盖了几乎所有后线分析子系统的巨型平台产品,同时还要轻松支持不断扩充的应用需求。如此的一个平台产品要能做到充满活力的按需运行,必须首先做好每一部分的规划设计工作,那个地点我们分ETL设计、数据模型设计和应用架构设计进行介绍。 ETL设计ETL操纵着整个数据仓库的生命线,其设计直接关系着仓库内的元数据质量、仓库结构的稳健和流畅运行。要紧包括差不多ETL、作业调度、元数据治理及其它方面的设计。ETL服务器能够独立一台机器,也能够与数据库服务器同机。 差不多ETL 差不多ETL功能要紧可分为两个,其一是把握着数据仓库的入口,
21、今后自不同架构、不同形式、不同标准、不同结构的各类业务数据,通过清洗、转换、加载、加工等步骤送入EDW;其二是将EDW中的数据加工转换到DM中去。这部分的分析设计工作至少要包括以下方面的内容。1,确定数据抽取范围,包括数据源系统范围的确定和每个源系统内采集数据范围的确定。这项工作一定需要对行业需求有相当了解、对企业内的软件架构和业务系统特不熟悉的人牵头,并由各类业务系统的骨干人员组成工作组,从全局角度选定数据范围。这不仅需要全面考虑当前分析类应用的数据需求,还要有一定的前瞻性,将反映企业重要经营信息今后可能使用的数据也划入采集范围。2, 制定数据接口文件格式、数据验证规范、错误数据处理方法和高
22、性能加载方法,保证进入仓库数据的及时、正确、有效。3,制定数据统一标准和转换合并规则。这项工作是进行数据标准化加工处理的前提,是仓库数据得以集成共享的保证。需要结合数据模型设计。4,梳理数据的加载、加工处理步骤和相互间的阻碍与依靠关系。保证数据依照依靠关系和时效需要、按照正确的次序各就各位。需要结合元数据设计。5,数据量和各时期处理时刻估算、时刻窗口评估等。采纳并行等方法满足时刻窗口需求。 作业调度整个数据仓库的批量作业流程依靠ETL的正确调度。首先要梳理清晰每个作业的触发机制、每个步骤的容错处理机制,以及各作业间的阻碍与依靠关系,才能正确配置ETL的调度表。要注意作业粒度的划分(不宜过小或过
23、大)、并行度的合适设置、中断重跑措施等。并考虑采纳动态调整作业优先级等方法以满足下游系统的时刻窗口。 元数据治理元数据是数据仓库中用来定义和描述业务和应用数据、数据映射和演进关系、处理流程及任务依靠等几乎所有内容的描述数据,从而将数据仓库的各个角落和各个环节有机的串联在一起,以不仅支持数据仓库各种功能实现,而且应该支持跟踪数据仓库的状况和变化,从而给数据仓库的生命运动提供一个整体概貌视图。相关于数据仓库裸层的数据与功能,元数据就相当于治理层的数据,起着保驾护航的支撑作用。关于一个大型数据仓库项目,假如没有元数据设计,就相当于建设一个大都市而没有规划图纸、没有考虑基础设施建设,是不可能成功的。元
24、数据自成一系,能够单独存储到元数据库,也能够与数据仓库共存在一个库中。元数据设计应力求全面、细致,能够参考业界的一些数据仓库元数据标准,如CWM(Common Warehouse Model)等,注意所有元数据要统一标准、统一设计和治理,保证各层、各类元数据的衔接,幸免出现数据断层。元数据设计适宜早做,关于一个复杂的数据仓库环境,事后维护比事先规划成本要大得多。元数据的质量在专门大程度上决定着数据仓库的健壮程度和可用程度。元数据设计应重点考虑描述清晰各层数据间的数据接口和转换关系,以直观的视图追踪哪些分析指标来自哪些业务数据、通过哪些处理步骤,支持数据血缘分析和阻碍分析,发挥对数据质量管控和系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 全面 认识 数据仓库
链接地址:https://www.31ppt.com/p-1629826.html