数据仓库技术简介.ppt
《数据仓库技术简介.ppt》由会员分享,可在线阅读,更多相关《数据仓库技术简介.ppt(72页珍藏版)》请在三一办公上搜索。
1、数据库原理与应用教程,第6章 数据仓库技术简介,6 数据仓库技术简介,6.1 数据仓库的概念及特点 6.2 数据仓库体系结构 6.3 数据仓库的相关技术 6.4 数据仓库的建立,数据仓库是近年来兴起的一种新的数据库应用。在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品时,业界掀起了数据仓库热。比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engin
2、eering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining,简记为DM)的论文。对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。,第6章 数据仓库技术简介,第6章 数据仓库技术简介,从数据库到数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型
3、处理和分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。,第6章 数据仓库技术简介,1 从数据库到数据仓库 近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data
4、 Warehousing,简称DW)以及数据仓库系统。数据仓库系统包括:数据仓库技术;联机分析处理技术(On-Line Analytical Processing,简称OLAP);数据挖掘技术(Data Mining,简称DM);,1、什么是数据仓库 业界公认的数据仓库概念创始人在建立数据仓库一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库是进行联机分析处理和数据挖掘的基础,它从数据分析的角度将联机事务中的数据经过清理、转换并加载到数据仓库中,这些数据在数据仓库中被合理的组织和维护,
5、以满足联机分析处理和数据挖掘的要求。,6.1 数据仓库的概念及特点,6.1 数据仓库的概念及特点,面向主题 集成的数据 数据不可更新 数据随时间不断变化 使用数据仓库是为了更好的支持制定决策,面向主题,数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域,是针对某一决策问题而设置的。面向主题的数据组织方式就是完整、统一地刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系。在关系数据库中,每个主题由一组相关的关系表或逻辑视图来具体实现。主题中的所有表都通过一个公共键联系起来,数据可以存储在不同的介质上,而且相同的数据
6、可以既有综合级又有细节级。,集成的数据,数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。数据仓库中存储的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合这样的过程。原因:源数据不适合分析处理,在进入数据仓库之前必须经过综合、清理等过程,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。数据仓库每个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方,因而必须对数据进行统一,消除不一致和错误的地方,以保证数据的质
7、量。,数据不可更新,数据仓库的稳定性是指数据仓库反映的是历史数据的内,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;从数据的使用方式上看,数据仓库的数据不可更新是指当数据被存放到数据仓库之后,最终用户只能进行查询、分析操作,而不能修改其中存储的数据。,数据随时间不断变化,数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。数据仓库的数据不可更新,但并不是说,数据从进入数据仓库以后就永远不变。从数据的内容上看,数据仓库存储的是企业当前的和历史的数据。因而每隔一段固定的时间间隔后,操
8、作型数据库系统产生的数据需要经过抽取、转换过程以后集成到数据仓库中。,数据仓库,数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。,数据仓库的产生,2、数据仓库的产生 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的数据管理形式主要是文件系统,少量的以数据片段之间增加一些
9、关联和语义而构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式是固定的、死板的。关系数据库的出现开创了数据管理的一个新时代。关系数据库在访问逻辑和应用上的方便,SQL的使用加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。,数据仓库的产生,联机分析处理就是从数据库中获取信息、利用信息。因此,著名的数据仓库专家Ralph Kimball写道:我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。获得有用的信息的困难:所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事
10、务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和查询。,数据仓库与数据库的关系,3、数据库与数据仓库的关系 90年代初提出数据仓概念。数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。数据仓库的兴起实际是数据管理的一种回归,是螺旋式的上升。数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要传统数据处理
11、密集型行业。国外许多大型的数据仓库在1996-1997年建立。什么样的行业最需要和可能建立数据仓库呢?有两个基本条件:第一,该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;第二,该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力。,数据仓库与数据库的关系,传统数据库系统承担了企业的日常事务处理工作,但难于实现对数据分析处理要求,数据仓库在企业的信息环境中承担实现对数据分析处理要求,两者在组织信息系统发挥着不同的作用。传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库,数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信
12、息之后,再供管理人员进行分析使用。,数据仓库与数据库的关系,据库与数据仓库的区别,操作型数据与分析型数据的区别,数据仓库的重要概念,数据仓库中的几个重要概念:1、元数据:数据仓库中还有一部分重要数据是元数据(Metadata)。元数据是“关于数据的数据”,如传统数据库中的数据字典就是一种元数据。在数据仓库环境中,主要有两种元数据:第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了所有源数据项名、属性及其在数据仓库中的转换;第二种元数据在数据仓库中是用来与终端用户的多维商业模型/前端工具之间建立映射,此种元数据称为DSS元数据,常用来开发更先进的决策支持工具。,数据仓库的重要概念
13、,数据仓库中的几个重要概念:2、ETL(Extract Transformation Load抽取、转换、装载):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。3、粒度:粒度是数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。4、分割:是指将数据分散到各自的物理单元中,存在某种相关性的数据组织在一起,以便能分别独立处理,以提高数据处理的效率。分割的标准可以根据实际情况来定,通常可选择按日期、地域或业务领域来进行分割。,6.2 数据仓库的体系结构,数据仓库内容按照功能分
14、为以下几部分:1、元数据 元(Meta)数据是数据仓库的核心,是关于数据的数据,是关于数据和信息资源的描述信息。它通过对数据的内容,质量,条件和其他特征进行描述和说明,帮助人们有效地定位、评论、比较、获取和使用相关数据。,6.2 数据仓库的体系结构,数据仓库内容按照功能分为以下几部分。2、源数据 源数据指分布在不同的应用系统中,存储在不同的平台和不同的数据库中的大量的数据信息,是数据仓库系统的基础,是整个系统的数据源泉。通常包括内部信息和外部信息。内部信息包括存放于数据库系统中的各种业务处理数据和各类文档数据,外部信息包括各类法律法规、市场信息和社会信息等。,6.2 数据仓库的体系结构,3、数
15、据变换工具 为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。变换主要包括提炼、转换。数据提炼主要指数据的抽取,并对抽取数据删去不需要的运行信息,检查数据的完整性和相容性等;数据转换指统一数据编码和数据结构、给数据加上时间标志、根据需要对数据集进行各种运算以及语义转换等。数据变换工具为数据库和数据仓库之间架起了一座桥梁,使源数据得到了增值和统一,最大限度地满足了数据仓库高层次决策分析的需要。,6.2 数据仓库的体系结构,4、数据仓库源数据经过变换进入数据仓库。数据仓库以多维方式来组织数据和显示数据。属性维和时间维是数据仓库反映现实世界动态变化的基础,他们的数据组织方式是
16、整个数据仓库技术的关键。,6.2 数据仓库的体系结构,5、数据分析工具 数据仓库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要功能强大的分析和挖掘工具,是数据仓库系统的重要组成部分。分析工具主要实现对数据仓库中的数据进行分析和综合。挖掘工具负责从大量的数据中发现数据的关系,找到可能忽略的信息,预测趋势和行为。数据仓库既是一种结构和富有哲理性的方法,也是一种技术。数据和信息从不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库中已有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好了,数据冲突、表达不一致等问题已经得到了解决。这使得决策查询更容易、更有效
17、。,6.3 数据仓库体系结构,数据仓库体系结构,1、数据源层:是整个数据仓库系统的基础,含数据源和数据获取系统两各内容。、数据源:为数据仓库提供源数据(sourcedata),他是数据仓库的基础,位于数据仓库构架的最底层,包括各个业务处理子系统的信息,如各种业务系统数据库,联机事物处理系统(OLTP)的操作型(operational)数据,外部数据源等都可以作为数据仓库的数据源。、数据获取:数据仓库如何高效管理数据是区别与面向操作数据库的主要标准。实用工具获取数据,完成按照主题管理数据,聚合数据存放于多维数据库中是数据仓库的核心。数据抽取(extraction)、转换(transformati
18、on)、装载(load)和刷新(refresh)工具的功能是从数据源中抽取数据对数据进行检验和整理,并根据数据仓库的设计要求,对数据进行重新组织和加工,装载到数据仓库的目标数据库中,并且可以周期性地刷新数据仓库以反映源的变化以及将数据仓库中的数据作转储。,数据仓库体系结构,2、数据存储与管理层:是整个数据仓库系统的核心,含数据仓库和数据监控与管理系统两个内容。、数据仓库或数据集市(datamarts),是数据仓库系统的目标数据库(targetdatabase),存储经检验、整理、加工和重新组织后的数据。它可以是关系数据库(ROLAP)或多维数据(MOLAP)。元数据库(metadatarepo
19、sitory)用于存储数据模型和元数据,元数据描述了数据仓库中的源数据和目标数据本身的信息,并定义了源数据到目标数据的转换过程。、数据仓库监控(monitoring)和管理(administration)系统:对数据仓库的运行提供监控和管理手段,包括系统资源的使用情况、用户操作的合法性、安全管理、存储管理等多方面的内容。,数据仓库体系结构,3、OLAP服务器 是功能强大的多用户的数据操纵引擎,对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型联机分析处理)、MOLAP(多维联机分析处理)和HOLAP(混合型联机分析
20、处理)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。,数据仓库体系结构,4、前端展示层 数据展示相当于数据仓库的门面,主要包括各种报表工具、查询工具、多维分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库,近几年来由于互联网的发展,使得分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据,数据仓库的分类,按照数据仓库的规模与应用层面来区分,数据
21、仓库大致可分为下列几种:标准数据仓库。数据集市。多层数据仓库。联合式数据仓库。,标准数据仓库,是企业最常使用的数据仓库,它依据管理决策的需求而将数据加以整理分析,再将其转换到数据仓库之中。这类数据仓库是以整个企业为着眼点而建构出来的,其数据都与整个企业的数据有关,用户可以从中得到整个组织运作的统计分析信息。,数据集市,针对某一主题或是某个部门而构建的数据仓库,规模会比标准数据仓库小,且只存储与部门或主题相关的数据,是数据体系结构中的部门级数据仓库。通常用于为单位的职能部门提供信息。例如,为是销售部门、库存和发货部门、财务部门、高级管理部门等提供有用信息。还可用于将数据仓库数据分段以反映按地理划
22、分的业务,其中每个地区都是相对自治的。,数据集市,数据集市除具有数据仓库的基本特征之外,还具有如下特点:(1)规模小,灵活,可以按照多种方式组织。(2)独立数据集市的构建比较快。(3)不同的数据集市可以分布在不同的物理平台上,也可以逻辑的分布在同一物理平台。(4)数据集市提供了分布式数据仓库的思想。,数据集市与数据仓库的不同,多层数据仓库,是标准数据仓库与数据集市的组合应用方式在整个架构之中,有一个最上层的数据仓库提供者,它将数据提供给下层的数据集市。,6.3 数据仓库相关技术,1 数据的抽取技术 数据仓库的数据来源复杂而多样,如有网络传输、文件传递、数据库表、网页等形式,由于数据最终要整合成
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 技术 简介
链接地址:https://www.31ppt.com/p-6296237.html