数据仓库与OLAP介绍.docx
《数据仓库与OLAP介绍.docx》由会员分享,可在线阅读,更多相关《数据仓库与OLAP介绍.docx(16页珍藏版)》请在三一办公上搜索。
1、第一章 数据仓库与OLAP介绍1.1数据仓库基本概念数据仓库为商务运作提供结构与工具,以便系统的组织、理解和使用数据进 行战略决策。大量组织机构已经发现,在当今这个充满竞争和快速发展的世界, 数据仓库是一个有价值的工具。什么是数据仓库呢?按照W .H .Inmon这位数据仓库系统构造方面的领头设 计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集 合,支持管理部门的决策过程”。这个简短而又全面的定义指出了数据仓库的主 要特征。四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与 其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。让 我们进一步看看
2、这些关键特征。 面向主题的(subject-oriented):数据仓库围绕一些主题,如顾客、供 应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不 是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对于决 策无用的数据,提供特定主题的简明视图。集成的(integrated):通常,构造数据仓库时将多个异种数据源,如关 系数据库、一般文件和联机分析处理记录,集成在一起。使用数据清理 和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。 时变的(time-variant):数据存储从历史的角度(例如过去5-10年)提 供信息。数据仓库中的关键结构,隐式或显式的包含时间元
3、素。 非易失的(nonvolatile):数据仓库总是物理的分离存放数据;这些数据 源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、 恢复和并发控制机制。通常,它只需要两种数据访问:数据的初始化装 入和数据访问。概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型 的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体系, 通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分 析报告和决策制定。数据仓库与传统的数据库系统不同,它不仅仅是为了满足日常操作性系统的 应用要求,而是在操作型系统的大量数据之上,发展一种成功的策略和计划,为 企
4、业的决策支持所用制定相关的市场策略和发展策略,发现企业历史数据后面的 隐含规律,例如顾客的消费模式、消费预测、不同产品和服务的相互影响关系等。 总之,数据仓库可用于管理,包括对过去的理解和对未来的规划。利用数据仓库, 用户可以在适当了解商业环境的基础上来看待生成的信息和事实,接着就可以利 用商业技巧及对该事实的经验来提取知识,最后利用所提取的知识做出判断或决 策。数据仓库主要有三方面的作用:首先,数据仓库提供了企业级标准的报表和图表功能。数据仓库其中的数据 来源于不同的多个事务处理系统,并对数据进行汇总归纳,因此,数据仓库的报 表和图表反映的是整个企业的一致信息、是关于整个企业集成信息的报表和
5、图 表。这项功能是对传统的联机事务处理系统(0LTP )的扩充。其次,数据仓库支持多维分析(Multi_dimenslonal analysis) o多维分析是通 过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据 集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则 表示了对信息的不同理解角度,例如,时间和地理区域是经常采用的维度。应用 多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过 程中非常有用。第三,数据仓库是实现数据挖掘(Data Mining )技术的关键基础。数据挖掘技 术要在已有数据中识别数据的模式,以帮助用户理解现有的
6、信息,并在已有信息 的基础上,对未来的状况做出预测。由于数据仓库提供了关于整个企业全局的、 一致的信息,因此,在数据仓库的基础上进行数据挖掘,就可以针对整个企业的 状况和未来发展做出比较完整、合理、准确的分析和预测。1. 2联机分析处理(OLAP)基本概念OLAP是针对特定问题的联机数据分析,是数据仓库上的分析展示工具。它 建立在数据多维视图的基础上,可以提供给用户强大的统计、分析、报表处理功 能及进行趋势预测能力。主要有两个特点:一是在线性(OnLine),体现为对用 户请求的快速响应和交互式操作;另一特点是多维分析( Multi Dimension Analysis)o数据的多维视图使用户
7、能从多角度、多侧面、多层次的查看包含在数 据中的信息。联机分析处理于联机事务处理是有区别的。联机操作数据库系统的主要任务 是执行联机事务和查询处理,这种系统称为联机事务处理(OLTP)系统。它们 涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、 记账等。另一方面,数据仓库系统在数据分析和决策方面为用户或“知识工人” 提供服务。这种系统用不同的格式组织和提供数据,以便满足不同用户的形形色 色需求,这种系统统称为联机分析处理(OLAP)系统。OLTP与OLAP的主要区别概述如下:用户和系统的面向性:OLTP是面向顾客的,用于办事员、客户和信息 技术专业人员的事务和查询处理。O
8、LAP是面向市场的,用于知识工人 (包括经理、主观和分析人员)的数据分析。数据内容:OLTP系统管理当前数据。通常,这种数据太琐碎,难以用 于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不 同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广 的决策。数据库设计:通常,OLTP系统采用实体-关系(ER)模型和面向应用的 数据库设计。而OLAP系统通常采用星型或雪花模型和面向主体的数据 库设计。 视图:OLTP系统主要关注一个企业的或部门内部的当前数据,而不涉 及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP系 统常常跨越数据库模式的多个版本。OLAP系统
9、也处理来自不同组织的 信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存 放在多个存储介质上。访问模式:OLTP系统的访问主要有短的原子事务组成。这种系统需要 并行控制和恢复机制。然而,对OLAP系统的访问大部分是只读操作(由 于大部分数据仓库存放历史数据而不是当前数据),尽管许多可能是复 杂的查询。OLTP和OLAP的其他区别包括数据库大小、操作的频繁程度、性能度量等。 这些都概括在表1-1中。特征OLTPOLAP特征操作处理信息处理面向事务分析用户办事员、DBA、数据库专业人员知识工人(如经理、主管、分析员)功能日常操作长期信息需求、决策支持DB设计基于E-R,面向应用星型/
10、雪花,面向主题数据当前的,确保最新历史的,跨时间维护汇总原始的,高度详细汇总的,统一的视图详细,一般关系复杂查询存取读/写大多为读关注数据进入信息输出操作主关键字上索引/散列大量扫描访问记录数量数十个数百万用户数数千数百DB规模100MB 到 GB100GB 到 TB优先高性能,高可靠性高灵活性,端点用户自治度量事务吞吐量查询吞吐量,响应时间表1-1 OLTP系统和OLAP系统的比较1. 3数据仓库与OLAP虽然数据仓库和联机分析处理(OLAP)这两个术语有时可互换使用,但它 们却适用于通常称为决策支持系统或业务智能系统的不同组件。这些类型的系统 的组件包括一些数据库和应用程序,用于为分析人员
11、提供支持组织机构决策制定 所需的工具。数据仓库是一个数据库解决方案,包含那些通常表示某个组织机构业务历史 的数据。通过分析这些历史数据,可以支持对分散的组织单元进行从策略计划到 性能评估的多级业务决策。对数据仓库中的数据进行组织是为了支持分析,而不 象在联机事务处理系统(OLTP)中那样是为处理实时事务。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓 库能有效地用于联机分析。OLAP的多维数据模型和数据聚合技术可以组织并汇 总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析 人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行 进一步
12、查询。OLAP系统可以快速灵活地为分析人员提供实时支持。第二章DWR的数据库结构设计3.1数据仓库数据库的结构设计3.1.1主题的确定数据仓库的数据是面向主题的。数据以数据模型中所定义的各个主题域为基 础,与应用相独立。主题域又可分为表示企业中一系列基本实体的主题,以及表 示实体间联系的主题。正是由于数据仓库中的数据是面向主题的,从而决定了其设计由数据驱动。 传统的操作型环境则是面向应用、由需求驱动的。考虑零售业的行业特点,我们 分别以商品、员工以及顾客为主线,确定了如下主题。销售库存订货 顾客员工每个主题都对应一个事实表及一些维表,事实表中除了连接各个维表的键值 信息之外,还有一些度量值。例
13、如,销售事实表中有商品编号、时间编号、顾客 编号等键值,还有分店销售额、分店销售量、分店成本等度量值;员工事实表中 有员工编号、部门编号、职务编号等键值,还有月工资等度量值。销售主题主要面向销售情况分析。通过该主题的确定,我们可以分析某一时 间段某商品的销售情况,某分店的整体销售情况等等。订货主题使得我们能够从 时间、商品、供应商等多个角度来查看订货产品的订货、交货、退货付款等情况。 通过员工主题,我们可以查询某年某部门职员总人数、支付工资总数、平均年龄; 也可以查询某时期年龄在20至30之间的经理人数等等,从而更深入的了解企业 职员的现况。3.1.2粒度设计粒度可以定义为数据仓库所维护的概念
14、级别。然而,数据仓库通常包含有不 同层次的粒度。在创建数据仓库或数据集市时,必须将数据的粒度定义为数据仓 库定义的一部分。粒度还可定义为数据仓库的数据单位中保存数据的细化或综合程度的级别。 细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越大。在数据仓库中定义粒度时,应考虑下列因素:要进行的分析类型计划在数据仓库中进行的分析类型直接影响数据仓库的粒度。如果打算使用 数据仓库对每天的信息进行分析,就不能将粒度的层次定义为周。如果定义的粒 度层次过高,就不能在该数据仓库中进行更细致的操作。可接受的集合的最低层次数据仓库通常可在同一模式中采用多个层次的粒度。如当年的数据可采用天 为粒度,
15、而2-5年的数据可能以月或周为单位进行了汇总。这是以数据仓库中所 需的最低集合级别为基础的。能存储的数据量数据仓库可用的磁盘空间量,也限制粒度的定义。但是,如果是基于硬件限 制来设计数据仓库,就会在数据仓库中加入人为的限制,从而大大缩短了系统的 寿命。目前,磁盘的价格非常便宜,所以应尽可能根据信息需求定义粒度的层次。在DWR中,由于每天要处理的数据能达到几百兆字节,处理的数据量十分 庞大,所以采取双重级别定义粒度。粒度的双重级别分为轻度综合级和“真实档 案”细节数据级。细节数据级存放销售明细等具体信息;轻度综合级存放经过汇 总的数据,主要用于决策分析。通过在数据仓库的细节级上创建两种粒度级,可
16、以一举两得。大部分决策处 理是针对被压缩的、存取效率高的轻度综合级数据进行的,如果需要分析更低的 细节级,可以到数据的真实档案层。这样即保证了大部分分析需求的响应时间, 又保证了当用户查询细节时,能提供有效数据。3.1.3多维数据模型实体-关系数据模型广泛用于关系数据库设计。在那里,数据库的模式由实 体的集合和它们之间联系组成。这种数据模型适用于联机事务处理。然而,数据 仓库需要简明的、面向主题的模式,便于联机数据分析。下面介绍两种用于数据 仓库的多维数据模型:星型模型和雪花模型。星型模型(Star Schema):最常见的模型范例是星型模型,其中数据仓库包 括:1. 一个大的包含大批数据和不
17、含冗余的中心表(事实表)2. 一组小的附属表(维表)这种模式图很象星星爆发,维表围绕中心表显示在射线上.如图3-1所示,是某公司的数据立方体“销售”,它采用星型模型。该模型 中包含一个中心事实表“销售”,它包含四个维的关键字和两个度量销售额、销 售量。在星型模式中,每维只用一个表表示,每个表包含一组属性。这一限制可 能造成某些冗余。例如,“地点”维表包含属性集地点关键字,省、市、街道。 而长春、吉林都是吉林省的城市。“地点”维表中这些城市实体的属性“省”中 会有冗余。维表图3-1面向销售的星型模型雪花模型(Snowflake Schema):雪花模型是星型模型的变种,当维度需要 向外延伸至更详
18、细的类别时,星型模型就被扩展成雪花模型。其中某些维表是规 范化的,因而把数据进一步分解到附加的表中。结果,如图3-2所示,模型图形 成类似雪花的形状。时间销售商品际关号蠢.目季度J一额重 间品店占童&】 商分地销崩建字涟j 神方:商品关窿字 海品名称 类别.fife供应商供应商关禳字 供应商类型维表字字 Hi 二-二 键 走*- 占ffi.道 地城衡.维表分店分店关裸字 分店名称 3半理、 11I _, ,- I ,1维表图3-2面向销售的雪花模型雪花模型是对星型模型的进一步标准化,它的优点是最大限度的减少数据存 储量以及把最小的标准化表联合在一起来改善性能。雪花模型和星型模型的主要不同在于,
19、雪花模型的维表可能是规范化形式, 这种表易于维护,并节省存储空间,因为当维结构作为列包含在内是,大维表可 能非常大。然而,与巨大的事实表相比较,这种空间的节省可以忽略。此外,由 于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。这样,系统的 性能可能相对受到影响。因此,在数据仓库设计中,雪花模型不如星型模型流行。DWR主要面对零售业用户,而且DWR有一个重要的功能就是支持数据挖 掘。考虑零售业的行业及其操作型数据库的特点,再加上数据挖掘其它功能模块 的需求,DWR中的多维数据结构将有针对性地采用合适的模型。例如,为了满 足商品类别间关联规则发现,DWR在销售模型中使用了雪花模型,扩展了
20、商品 类别等等。数据仓库数据库DBR的物理层实体关系图(ERD)清楚地展示了数据库中 所有的对象,它描述了所有表格(实体)以及它们之间的关联方式。如图3-3是 涉及销售部分的ERD仓库类别*长应_卖用_那 描坯盘点事实*商品一梅号时间-始号升患-帽号1落1弁店一支F商品尊飞商品-类异iq号,SKUSM3毛里S明史收包岐舌诋脂尽舌是整体ERD的一部分。商品玉别,促销*二Z促饷-褊号促饷-区险够1号 壤止日朗ZJ分店*升度一煽号升店一类受血区一树号赫-瞄市掘-壁wCK箸事实*时间-帕号防密_邮 促解L输号 升店一输号 升店_饷售赫 升虑_cl客*城市省国莪胁容一一曲1电曲出生年月Gear区*时间*
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 OLAP 介绍
链接地址:https://www.31ppt.com/p-5306154.html