《数据仓库简介》PPT课件.ppt
数据仓库技术,谭义红:;QQ:2647724,2,课程介绍,性质是信科专业的主要专业课程、是决策支持系统方向的重要课程目的理解数据仓库及OLAP的相关概念了解数据仓库及OLAP的发展趋势和应用领域掌握数据仓库的设计、构建,数据的准备、转换、装载,数据的浏览、分析等方法和技术。相关课程数据库、数据挖掘、决策支持系统设计与开发,3,为什么学本课程(Why),信息技术在商业中发展管理信息系统(MIS)企业资源计划系统(ERP)、客户关系管理(CRM)商业智能系统(BI)发展过程中存在的问题数据可信性生产率问题无法将数据转化为信息,4,为什么学本课程(Why),BI定义(IBM):商业智能是一系列由系统和 技术支持的以简化信息收集和分析的策略集合,它应该包括企业需要收集什么信息、谁需要去访问这些数据、如何把原始数据转化为最终战略性决策的智能、客户服务和供应链管理。包括:数据仓库(DW)、联机分析(OLAP)、数据挖掘(DM)工具:IBM、Oracle、Microsoft、SAS、CA等,5,为什么学本课程(Why),市场需求(岗位)数据仓库工程师岗位要求1、岗位要求2、岗位要求3数据仓库开发工程师岗位要求1数据仓库BI架构师岗位要求数据仓库高级开发工程师岗位要求数据仓库测试工程师岗位要求数据仓库咨询师岗位要求,6,本课程的主要内容(What),数据仓库与OLAP的相关理论知识数据仓库设计数据准备、转换、装载(SSIS)多维数据集操作及分析(SSAS)多维数据分析报表(SSRS),7,如何学好本课程(How),重视相关概念和原理的理解从全局把握上把握数据仓库创建、管理及OLAP分析技术框架从微观角度掌握具体技术细节主动、认真做好实验及课程设计,8,教材:数据仓库设计:现代原理与方法(美)Matteo Golfareli著,9,1)(美)JOY MUNDY.数据仓库工具箱-面向SQL SERVER 2005和MICROSOFT商业智能工具集.北京:清华大学出版社,20072)于宗民,刘义宁,祁国辉.数据仓库项目管理实践.北京:人民邮电出版社2006 朱德利.SQL Server 2005数据挖掘与商业智能完全解决方案.北京:电子工业出版社,2007.http:/,参考教材:,10,第1章 数据仓库与OLAP概述,1.1 决策支持系统1.2数据仓库1.3数据仓库的体系结构1.4 数据准备与ETL1.5 多维模型1.6 元数据1.7 访问数据仓库1.8 多维数据的存储方式1.9 小结,11,1.1 决策支持系统,决策支持系统DSS(decision support system)是可扩展交互式IT技术和工具的集合,这些技术和工具用于处理和分析数据以及辅助管理人员制定决策。为此,这种系统匹配管理人员的个人资源和计算机资源,以提高决策质量。,12,1.2 数据仓库,数据仓库的引入,了解格力空调在长沙的月销售情况,了解各品牌空调在各城市的月销售情况,了解各销售员的月销售情况,13,1.2 数据仓库,数据仓库的引入,14,1.2 数据仓库,数据仓库的引入,15,1.2 数据仓库,数据仓库的概念和特点概念:数据仓库(DataWarehouse,DW)是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。特点:面向主题主题是在较高层次上将企业信息系统中的数据综合、归类和分析利用的抽象概念。每个主题对应一个分析领域。典型主题:客户、产品、销售、利润、保险等每个主题域都是以一组相关的表来具体实现,通过公共关键字建立联系,16,1.2 数据仓库,17,1.2 数据仓库,18,各子系统建立数据库情况,1.2 数据仓库,19,面向主题的数据组织,1.2 数据仓库,20,1.2 数据仓库,数据仓库的概念和特点(续)特点数据的集成性数据仓库中存储的数据是从原来分散在各个子系统中的数据提取出来的,经过处理后得到的。,21,1.2 数据仓库,数据的集成性,22,1.2 数据仓库,数据仓库的概念和特点(续)特点数据不可修改性数据仓库中的数据是不可更新的,只能通过分析工具进行查询、分析。,23,1.2 数据仓库,数据仓库的概念和特点(续)特点数据与时间相关 数据随时间变化而定期地被更新,24,1.2 数据仓库,数据仓库与传统数据库的比较,1.2数据仓库,数据仓库带来的好处提供决策支持。应用于证券、银行、保险、移动通讯、商品销售、其它等行业。,25,26,1.3数据仓库体系结构,数据仓库系统的特点分离性可扩展性安全性可管理性体系结构分类面向结构的类型单层体系结构,两层体系结构,三层体系结构面向应用层次的类型独立数据集市,星型结构,联盟体系结构,27,1.3数据仓库体系结构,面向结构的类型单层体系结构,28,1.3 数据仓库的体系结构,数据仓库体系结构示意图,两层体系结构,29,1.3数据仓库体系结构,数据流数据源层关系数据库、或其它系统数据库数据准备提取、转换、加载(ETL)数据仓库层数据仓库、数据集市分析报表、信息分析、OLAP、数据挖掘,30,1.3数据仓库体系结构,层次数据(企业信息源),31,1.3数据仓库体系结构,层次数据(企业信息源),32,1.3数据仓库体系结构,数据集市(Data Marts)定义为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也称部门数据或主题数据。如:财务部门的数据集市与数据仓库的关系数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。,33,1.3数据仓库体系结构,数据集市(Data Marts)(续)特性规模小特定的应用面向部门由业务部门定义,设计和开发由业务部门管理和维护快速实现购买较便宜投资快速回收更详细的、预先存在的数据仓库的摘要子集可升级到完整的数据仓库,34,1.3数据仓库体系结构,数据集市(Data Marts)(续),35,1.4 数据准备和ETL,数据集成(抽取、转换、装载-ETL),36,1.4数据准备和ETL,数据集成(抽取、转换、装载-ETL),37,1.5 多维模型,多维模型概念是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。特性多维,也称作立方体(或超立方体)提供一种便于使用的查询数据的机制。,38,1.5 多维模型,39,1.5 多维模型,度量值(Measure)度量值是一组值,是客户发生事件或动作的事实记录。如:客户打电话,记录次数和费用等;超市客户销售,记录销售数量、金额等等。度量值所在的表称为事实数据表,常规多维数据集的结构中只能有一个事实数据表。,40,1.5 多维模型,维度(Dimension)维度(也简称为维)是人们观察数据的角度。例如,时间维,地区维等。包含维度信息的表是维度表,维度表包含描述事实数据表中的事实记录的特性。描述维度的字段称为维度属性,41,1.5 多维模型,维度成员(Dimension Member)维的一个取值称为该维的一个维度成员(简称维成员)。例如,考虑时间维具有日、月、年这3个级别,分别在日、月、年上各取一个值组合起来,就得到了时间维的一个维成员,即“某年某月某日”。,42,1.5 多维模型,维度的层次结构定义层次结构是维度中成员的集合以及这些成员之间的相对位置。如,地址维:洲、国家、城市、区、街道、门牌号类型均衡层次结构层次结构的所有分支都降至同一级别,每个成员的逻辑父代就是其上级成员。不均衡层次结构层次结构的所有分支都降至不同级别,每个成员的逻辑父代就是其上级成员。如CEO/部门经理(/员工)、执行秘书不规则层次结构,43,1.5 多维模型,维的级别(Dimension Level)人们观察数据的某个特定角度(即某个维)还可以存在不同的细节程度,我们称这些维度的不同的细节程度为维的级别。一个维往往具有多个级别.例如描述时间维时(“月、季度、年”为层次结构),则月、季度、年为3个级别,可从不同级别来描述。,44,1.5 多维模型,45,1.5 多维模型,限制限制数据:从立方体分离部分数据来选出分析字段。在关系代数中称为选择、投影切片、切块操作聚合将多个子多维数据集合并成更大的多维数据集。,46,1.6 元数据,元数据定义描述数据仓库内数据的结构和建立方法的数据,即:定义数据的数据。作用对DW中的每个数据进行说明,以及数据间关系,为决策支持分析提供便利,也为操作型数据向分析型数据间转换提供支持。,47,1.7 访问数据仓库,报表OLAP数据挖掘,48,1.7 访问数据仓库,OLAP(Online Analytical Processing,OLAP)1993年,提出OLAP定义OLAP称联机分析处理,也称在线分析处理。是一种数据动态分析模型,以多维数据集的多维结构表示由来自商业数据源(如数据仓库),并经过聚合和组织整理的数据。使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP通过创建多维数据集,并对其进行切片、切块、钻取和旋转等数据操作,并进一步支持决策支持系统。,49,1.7 访问数据仓库,特点快速性:系统应能在秒级内对用户的大部分分析要求做出反应。可分析性:OLAP系统能处理与应用有关的任何逻辑分析和统计分析。多维性 系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性 OLAP系统应能及时获得并管理海量信息,50,1.7 访问数据仓库,多维分析方法方法上卷下钻切片切块旋转目的从多个角度、多个侧面观察数据库中的数据。,51,1.7 访问数据仓库,上卷(Roll-Up)在数据立方体中执行聚集操作,通过在维级别中上升来观察更概括的数据。,沿着时间维上卷,由“季度”上升到半年,52,1.7 访问数据仓库,上卷通过消除一个或多个维来观察更加概况的数据。,消除“经济性质”维度,53,1.7 访问数据仓库,下钻(drill-down)通过在维级别中下降或通过引入某个或某些维来更细致的观察数据。,沿时间维下钻,54,1.7 访问数据仓库,切片(slice)在给定的数据立方体的一个维上进行的选择操作。切片的结果是得到了一个二维的平面数据。,“时间1季度”,55,1.7 访问数据仓库,切块(dice)在给定的数据立方体的两个或多个维上进行的选择操作。切块的结果是得到了一个子立方体。,(度量值“正常”or“次级”)And(时间“1季度”or“2季度”),56,1.7 访问数据仓库,转轴(pivot or rotate)转轴就是改变维的方向。,交换“时间”和“经济性质”轴,57,1.7 访问数据仓库,OLAP与OLTP的区别,58,1.7 访问数据仓库,OLAP的好处市场和销售分析 点击流分析 基于历史数据的营销 预算 利益率分析,59,1.7 访问数据仓库,数据仓库与OLAP联系数据仓库和联机分析处理一般适用于决策支持系统或业务智能系统的不同组件。区别数据仓库是一个过程,包含那些通常表示某个企业的历史数据和一些应用程序。对数据仓库中的数据进行组织是为了支持分析。OLAP 技术使数据仓库能够快速响应重复而复杂的分析查询。,60,1.7 访问数据仓库,数据仓库与OLAPOLAP为数据仓库数据提供了一种多维表现方式,而数据仓库结构的设计又会影响多维数据集设计和建立的难易程度。,61,1.7 访问数据仓库,关系数据库、OLTP、数据仓库与OLAP,62,1.8 多维数据的存储方式,SQL Server 的Analysis 三种多维数据存储方式:MOLAP(多维OLAP,Multidimensional OLAP)ROLAP(关系OLAP,Relational OLAP)HOLAP(混合OLAP,Hybrid OLAP),63,1.8 多维数据的存储方式,ROLAP ROLAP的数据与计算结果直接由原来的关系数据库取得。ROLAP将支撑多维数据的原始数据、多维数据集数据、汇总数据和维度数据都存储在现有的关系数据库中,并用独立的关系表来存放聚集数据。不存储源数据副本,占用的磁盘空间最少,但存取速度也比较低。,64,1.8 多维数据的存储方式,MOLAP MOLAP使用多维数组存储数据,它是一种高性能的多维数据存储格式。多维数据在存储中将形成“立方体”的结构。MOLAP存储模式将数据与计算结果都存储在立方体结构中,并存储在分析服务器上。该结构在处理维度时创建。存取速度最快,查询性能最好,但占用磁盘空间较多。,65,1.8 多维数据的存储方式,HOLAP ROLAP与MOLAP存储方式的结合。原始数据和ROLAP一样存储在原来的关系数据库中,而聚合数据则以多维的形式存储分析服务器。优点:既能与关系数据库建立连接,同时又利用了多维数据库的性能优势。缺点是在ROLAP和MOLAP系统之间的切换会影响它的效率。,66,1.8 多维数据的存储方式,三种存储方式的比较,作业,从Internet网搜索至少5个数据仓库系统,并简单介绍其中一个系统的作用和功能。(要求写出系统名称和网页地址),67,68,小结,数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合,这些也正是其区别于传统操作型数据库的特性所在。OLAP又称为多维数据分析,它的多维性、分析性、快速性和信息性成为分析海量历史数据的有力工具。数据仓库的体系结构:数据库、数据抽取、转换、加载、元数据、访问工具、数据集市、管理平台、信息发布系统。,