《数据仓库技术》PPT课件.ppt
第6章 数据仓库技术,6.1 数据仓库概述6.2 数据仓库的结构框架6.3 数据仓库系统及开发过程6.4 数据仓库管理系统中的关键技术6.5 可视数据仓库6.6 SAS数据仓库的结构与功能,6.1 数据仓库概述,数据仓库的定义,数据仓库就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。,数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息,从而作出策略性的决策。,也把数据仓库系统称为“决策支持系统”。,6.1 数据仓库概述,6.1.2 数据仓库查询系统的特点,数据仓库系统的查询通常都非常复杂,主要有两种查询方式:,一种以报表为主,从数据库中产生各种形式的业务报表,这种查询是预先规划好的(predefined query);,2.另一种则是随机的、动态的查询(ad hoc query),对查询的结果也是不能预料的。,因此,系统的可扩展能力是必须考虑的重要因素之一,6.1 数据仓库概述,6.1.3 OLTP与OLAP的特点,OLTP系统也称为生产系统,它是事件驱动、面向应用的。,OLTP的基本特点如下:(1)对响应时间要求非常高;用户数量非常庞大,主要是操作人员;(2)数据库的各种操作基于索引进行。,联机分析处理(online analytical processing,OLAP)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。OLAP系统是跨部门、面向主题的。,基本特点是:基础数据来源于生产系统中的操作数据(operation data);响应时间合理;用户数量相对较少,其用户主要是业务决策与管理人员;数据库的各种操作不能完全基于索引进行。,6.1 数据仓库概述,6.1.4 详细数据与小结数据,详细数据中包含了许多有价值的信息,经小结处理后,可能会丢失这些信息。,处理原因:(1)数据仓库的引擎(数据库系统)不适合处理大量的数据;(2)降低存储系统投资。在以前,存储介质是非常昂贵的;(3)降低MIPS投资;,6.1 数据仓库概述,6.1.5 数据仓库与数据集市,数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;,数据集市是部门级的,一般只能为某个局部范围内的管理人员服务。有些供应商也称为“部门级数据仓库”(departmental data warehouse)。,6.1 数据仓库概述,6.1.5 数据仓库与数据集市,数据集市分类:两种;独立的数据集市(independent data mart)从属的数据集市(dependent data mart)。,6.1 数据仓库概述,6.1.6 数据仓库引擎的选择,所谓数据仓库引擎,就是数据库管理系统。从前面的分析可以看到,作为数据仓库引擎的数据库管理系统,其性能的优劣对整个数据仓库解决方案的成功实施起着举足轻重的作用。,衡量其数据库性能的主要指标是TPC-D;主要有3方面的数据需要考虑。,(1)QppD。,(2)QthD。,(3)QppD。,6.2 数据仓库的结构框架,6.2.1 框架的概念和重要性,所谓框架就是利用简化类比的集合,把复杂事物分为若干细小的易于理解的构件的方法。,2.能够把数据仓库方案的各组成部分进行分离的框架称通用框架,有的也称参照结构,如图,6.2 数据仓库的结构框架,6.2.1 框架的重要性,(1)提出一种通用的“蓝图”框架。,(2)为实现企业的目标创建一个持久的基础,框架是实现一个目标的持久有效的方法。,(3)实现可以提供可供选择的替换。,(4)在参照结构框架内提供制售商的情况。,(5)突出方案中有生产价值的解题成分。,6.2 数据仓库的结构框架,6.2.2 通用框架结构,数据仓库参照结构把数据仓库的组成部分划分成许多块和层,块主要有数据源、数据站场、数据仓库、存取与使用;层主要有数据管理、元数据管理、传输和基础结构。块与特定的数据仓库相关,而层则表示用于实现块的环境。,6.2 数据仓库的结构框架,6.2.3 数据源块,产品数据2.遗留数据3.内部办公系统4.外部系统5.数据源元数据,6.2 数据仓库的结构框架,6.2.4 数据仓库结构块,(1)“求精”:元数据被映射为标准数据名称和定义,为被抽取数据的时间戳及其来源以及已增加的新域再创建和捕获一些元数据;,(2)重构工程部分负责检验数据是否满足商业用户分析的需求;,(3)数据仓库成分负责数据建模等;,6.2 数据仓库的结构框架,6.2.5 数据站场结构块,数据站场中的求精与重构工程构件主要完成以下工作:(1)过滤与匹配从数据仓库中抽取的数据;将数据仓库集成到新的或重新定义的主题域;(2)创建新的概括或聚集;(3)将数据仓库中初步概括的数据求精为高度概括的数据;(4)对所有时间和来源戳的数据预测和导出新的数据。,6.2 数据仓库的结构框架,6.2.6 数据仓库的存取和使用模块,由两部分组成:一是存取与检索;二是分析与报表。该块为整个数据仓库的实现提供决策性的和有价值的东西,6.2 数据仓库的结构框架,6.2.7 数据管理层模块,(1)从所选的数据源中抽取并挑选数据,为进一步求精和重构工程以及存储到数据仓库中做准备。(2)从新的或当前的数据源中按需求追踪和充实新数据。(3)捕获运作数据源中数据的变化,然后刷新或更新数据仓库。,从数据仓库的观点来看,主要完成的功能:,6.2 数据仓库的结构框架,6.2.8 运输层模块,该模块使用了刷新与复制技术、数据传输、传送网络,以及中间件等构件,它也为传输请求提供了安全保障。,运输层在硬件/软件平台之间建起了必要的信息通道,这些通道在参照结构中被不同的模块分割成一个个平台。,6.2 数据仓库的结构框架,6.2.9 基础结构层模块,由系统管理,工作流程管理,存储系统和处理系统组成。,提供诸如执行、管理、终止工具和应用程序等功能,维护和系统管理任务,多维存储系统和本地存储系统,主要模块的基本操作环境,6.3 数据仓库系统及其开发过程,6.3.1 数据仓库系统(data warehouse system,DWS),由数据仓库、仓库管理和分析工具3部分组成,6.3 数据仓库系统及其开发过程,6.3.2 开发过程,(1)启动工程。,(2)建立技术环境。,(3)设计主题进行数据建模。,(4)设计数据仓库中的数据库。,(5)数据转换程序。,(6)管理元数据。,(7)开发用户决策的数据分析工具。,(8)管理数据仓库环境。,6.4 数据仓库管理系统中的关键技术,6.4.1 引言,DSS,OLAP,数据开采,多库系统,数据仓库技术,所谓数据仓库就是一个专门的数据仓储(repository),用来保存从多个数据库或其他信息源选取的已有数据,并为上层应用提供统一的用户接口,用以完成数据查询和分析。,6.4 数据仓库管理系统中的关键技术,6.4.2 系统结构,数据仓库系统的基础仍是一个数据库管理系统,通过利用一个专门的数据库管理系统,对数据仓库中数据进行存储和维护。数据仓库可以是集中的,也可以是分布的,不同之处在于采用集中式DBMS还是分布式DBMS。,6.4 数据仓库管理系统中的关键技术,6.4.2 系统结构,数据仓库系统多级视图机制。具体过程分为两级映射:,第一级,数据将从局部数据库中,经过数据翻译、转换并具体化成符合公共模型格式的中间视图,这些具体化模型是临时性的,在生成上层模式后不必保留;,第二级,经过消除语义冲突、数据集成和数据导出处理,将有关的实体化中间视图集成为满足专门应用的集成视图。,6.4 数据仓库管理系统中的关键技术,6.4.3 系统主要模块,6.4 数据仓库管理系统中的关键技术,6.4.3 关键技术,优化处理:为了提高数据仓库的效率,需要采用一些专门的优化措施,以节省存储空间、加快响应速度、减少维护费用等。可采用的技术主要有以下3种:,(1)过滤源场地上无关的修改操作。,(2)可自维护性。,(3)多视图的优化。,其他问题,(1)数据仓库的维护管理。,(2)数据源的演变。,(3)老化数据。,6.5 可视数据仓库,6.5.1 引言,可视数据仓库是数据仓库解决方案的重要组成部分,主要由以下几部分组成:,数据访问,数据转换,数据分布,数据存储,靠描述性数据查找和理解数据,显示,分析和发掘数据,数据转换过程的自动化及其管理,6.5 可视数据仓库,可视数据仓库的功能,1.描述性数据的存储,2.小型数据仓库的规模化扩展,3.开发系统环境,6.5.3 数据仓库规模化的体系结构,1.管理员,2.控制数据库,3.客户端管理员,4.代理,Visual Warehouse提供一个完整的分布式客户机服务器系统环境,它使得用户可以充分享受到“网络计算”带来的便利,而且适用于多种平台。,6.5 可视数据仓库,6.5.4 可视数据仓库管理,Visual Warehouse的管理是由其客户端管理员实现的,它使管理得以集中于一点。它包括以下6点:,1.商业视图3.编辑版2.监控数据转换过程4.定期执行5.级联式商业视图(cascaded business view)6.版本,6.5 可视数据仓库,6.5.5 IBM可视数据仓库解决方案,IBM的Visual Warehouse提供了强有力的工具,以定义、建立、管理、监控和维护一个商用信息系统环境数据仓库。但是,IBM并不满足于此,为了更好地满足用户的要求,IBM设计了一个完整的解决方案。,1.信息分类表,Data Guide将数据仓库中的所有信息分类展示给商业用户。,2.查询和报表工具,(1)分阶段机制。,(2)容错机制。,(3)异步机制。,6.6 SAS数据仓库的结构与功能,6.6.1 SAS数据仓库的体系结构,数据仓库是一个适用于对企业级数据、信息的多维、快速查询、进行OLAP操作和决策支持的数据、信息的采集、管理、处理和展现的架构体系。,环境(environment)是属于数据仓库的体系结构的一部分,它由两大部分组成:一部分是分别含有不同主题内容的若干个数据仓库;另一部分是对数据源的定义。这构成了从数据采集到直接应用的完整的支持体系。,数据仓库(data warehouse)可以由不同层次的多个数据仓库组成,主题(detail)表系统放置的是从各个数据源取出、经过清理、整合的原始数据。,6.6 SAS数据仓库的结构与功能,6.6.1 SAS数据仓库的体系结构,在汇总表组(summary group)中定义进行数据汇总处理时的层次维数和所分析的变量。,信息市场(information marts)是信息市场的分组,在一项主题中可以有若干组信息市场。,信息市场项目(information mart items)是信息市场中一项具体的信息,它是对数据仓库中的数据处理后产生的结果。,数据市场组(data mart group)是对市场项目的分组,在一个数据库中可以有多组数据市场,这也是按内容不同进行数据分组的。,运行数据定义组(operational data definition group)是对要从数据源取出的数据进行定义的分组。,6.6.1 SAS数据仓库的体系结构,SAS数据仓库有一个十分完善的体系结构,不仅为建立决策支持系统提供了完整的解决方案,而且为今后的发展留下了广阔的天地。,6.6 SAS数据仓库的结构与功能,6.6.2 SAS数据仓库的功能,数据仓库是适应决策支持系统的需要而产生的,所以人们希望所采用的软件产品能支持决策过程的全部工作内容,SAS的数据仓库技术就可以支持决策全过程。,(1)从任何业务处理系统或数据源中取出决策所需数据。(2)对源数据进行清理和整合。(3)按计划或规则进行数据仓库的装载和更新。(4)按决策的需要,以多种形式进行数据和信息的组织。(5)最丰富的决策数据处理能力。(6)灵活多样的数据展现方式。,6.6 SAS数据仓库的结构与功能,SAS的功能,1.SAS系统的数据存取能力,2.数据的清理和整合,3.数据仓库的加载和更新,4.按决策需要重组数据和信息,5.丰富的决策数据处理能力,6.灵活多样的结果展现方式,6.6 SAS数据仓库的结构与功能,6.6.3 SAS数据仓库有助于数据开采,早期:数据处理、数值计算,大量繁杂事务的在线处理、生成设备的实时控制等,数据处理、数据开采,SAS的丰富数据采集、数据管理、数据分析和信息展现的能力,又使之成为决策支持的最好工具。,SAS又推出了套装的SAS Enterprise Miner这一企业级的数据处理分析和决策支持软件包。,SAS通过改变支持数据开采,