数据仓库与OLAP技术.ppt
《数据仓库与OLAP技术.ppt》由会员分享,可在线阅读,更多相关《数据仓库与OLAP技术.ppt(215页珍藏版)》请在三一办公上搜索。
1、数据挖掘,第2章 数据仓库与OLAP,本章学习目标:掌握数据仓库的定义,四个基本特征理解数据集市的概念,与数据仓库区分了解数据仓库的体系结构掌握数据仓库中数据组织方式掌握数据处理过程熟悉元数据的概念、元数据管理的原理掌握OLAP的定义和特点熟悉OLAP的数据模型掌握OALP的多维数据分析熟悉数据仓库的设计,包括数据模型的设计、粒度、维度设计,数据挖掘,第2章 数据仓库与OLAP,2.1 数据仓库定义2.2 数据仓库体系结构2.3 数据组织结构和形式2.4 数据抽取E、转换T和装载L(ETL)2.5 元数据管理2.6 OLAP的定义和特点2.7 OLAP的数据模型2.8 OALP的多维数据分析2
2、.9 数据仓库与OLAP范例,数据挖掘,2.1 数据仓库定义,William H.Inmon:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理人员的决策。,数据仓库之父-Bill Inmon,数据挖掘,四个基本特征,数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是非易失的数据仓库的数据是随时间不断变化的,数据挖掘,面向主题,主题(Subject):特定的数据分析领域与目标。面向主题:为特定的数据分析领域提供数据支持。主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它对应企业中某一宏观分析领域所
3、涉及的分析对象。,数据挖掘,面向主题,为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。,数据挖掘,面向主题示例,例:一个面向事务处理的“商场”数据库系统,其数据模式如下采购子系统:订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:顾客(顾
4、客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期),数据挖掘,面向事务,库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话),数据挖掘,面向主题示例,上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。如果按照面向主题的方式进行数据
5、组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。,数据挖掘,主题一:商品,商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品销售信息:商品号,顾客号,售价,销售日期,销售量等商品库存信息:商品号,库房号,库存量,日期等,数据挖掘,主题二:供应商,供应商固有信息:供应商号,供应商名,地址,电话等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等,数据挖掘,主题三:顾客,顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等顾客购物信息:顾客号,商品号,售
6、价,购买日期,购买量等,数据挖掘,面向主题,在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;是部分细节的重叠,而不是完全的重叠。,数据挖掘,面向主题,每个主题所需数据的物理存储:多维数据库(MDDBMulti-Dimensional DataBase)用多维数组形式存储数据。关系数据库。用一组关系来组织数据的存储,同一主题的一组
7、关系都有一个公共的关键字,存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。,数据挖掘,集成的,集成性是指数据仓库中数据必须是一致的。数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据。数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。,数据挖掘,集成的,集成的方法:统一:消除不一致的现象综合:对原有数据进行综合和计算需要考虑的问题:数
8、据格式计量单位数据代码含义混乱数据名称混乱,数据挖掘,非易失的,数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是查询操作,一般情况下不执行更新操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。面向应用的事务数据库需要对数据进行频繁的插入、更新操作,而对于数据仓库中数据的操作仅限于数据的初始导入和记录查询。,数据挖掘,随时间不断变化,数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据。数据仓库中的数据必须以一定时间段为单位进行统一更新。不断增加新的数据
9、内容不断删去旧的数据内容更新与时间有关的综合数据,数据挖掘,数据集市(Data Mart),建立数据集市的原因数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。例:在有关商品销售的数据仓库中可以建立多个不同主题的数据集市:商品采购数据集市库房使用数据集市商品销售数据集市,数据挖掘,数据集市类型,按照数据获取来源:独立型:直接从操作型环境获取数据。从属型:从企业级数据仓库获取数据。,数据挖掘,建设途径,从 全局数据仓库 到 数据集市从 数据集市 到 全局
10、数据仓库,数据挖掘,数据仓库 VS 数据集市,数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。数据集市的数据来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程。,数据挖掘,2.2 数据仓库体系结构,数据仓库系统:对进入数据仓库的原始数据完成抽取、转换、过滤、清洗等处理,最终进入数据仓库,以及对数据仓库中存储的数据进行更新、管理、使用、表现等的相关软件/工具进行集合,用以支持数据仓库应用或管理决策。,数据挖掘,2.2 数据仓库体系结构,数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成,ORACLE,SYBASE,SQL Server
11、,文 件,数 据 建 模,数据仓库,元数据管理,抽 取,数据仓库系统示意图,分析工具(OLAP、数据挖掘),数据挖掘,过程模型,数据仓库管理系统,元数据,多维关系数据库,多维数据库,外部操作型数据,数据抽取数据清洁数据装载,管理平台,报表查询工具,数据挖掘工具,OLAP工具,数据挖掘,数据仓库管理层,数据仓库管理层的功能就是完成数据仓库的定义,数据抽取、转换、装载,数据归档、备份、维护、恢复及元数据管理等。数据仓库的管理部分由数据仓库定义部件、数据获取部件、数据管理部件和元数据管理部件四部分组成,数据挖掘,仓库管理数据建模,数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据
12、模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库的增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻辑数据模型。,数据挖掘,仓库管理元数据管理,最基本的元数据相当于数据库系统中的数据字典。元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。数据源的元数据数据模型的元数据数据仓库映射的元数据数据仓库使用的元数据,数据挖掘,仓库管理数据处理,异构数据源:企业内部数据存档的历史数据企业的外部数据。软硬件平台不一致ETL过程抽取(E
13、xtraction)转换(Transform)装载(Load),数据挖掘,分析工具查询工具,数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。,数据挖掘,分析工具多维分析工具,通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。,数据挖掘,分析工具数据挖掘工具,从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。,数据挖掘,数据仓库的运行结构,两层数据仓
14、库结构,数据仓库数据,元数据,数据仓库服务器,数据逻辑数据服务元数据文件服务,客户端,图形用户接口/表示逻辑查询规范数据分析报表格式总结数据访问,数据挖掘,数据仓库的运行结构,多层数据仓库结构,多维数据服务器,数据仓库数据,元数据,数据逻辑数据服务元数据文件服务,数据仓库服务器,应用服务器,图形用户接口查询规范数据分析报表格式数据访问,客户端,过滤总结元数据多维视图数据访问,数据挖掘,2.3 数据组织结构和形式,典型的数据仓库的数据组织结构高度综合级:数据十分精炼,是一种准决策数据轻度综合级:从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多当前细节
15、级:存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分早期细节级:存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数据量很大,使用频率低,一般存储在转换介质(如磁带)中,数据挖掘,2.3 数据组织结构和形式,数据挖掘,数据粒度,粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度,是设计数据仓库的一个最重要方面。粒度可以分为两种形式:按时问段综合数据的粒度按采样率高低划分的样本数据库。,数据挖掘,粒度的一个例子,能回答,但需要一定量的检索,不能回答,缺少细节信
16、息,数据挖掘,粒度权衡,数据挖掘,数据分割,分割是指将数据分散到各自的物理单元中去,以便能分别独立处理,以提高数据处理效率。数据分割后的数据单元称为分片。分割之后,小单元内的数据相对独立,处理起来更快、更容易。分割是数据仓库中数据的第二个主要的设计问题分割问题的焦点不是该不该分割而是如何去分割的问题。,数据挖掘,数据分割,一般在进行实际的分析处理时,对于存在某种相关性的数据集合的分析是最常见的,如对某时间或某时段的数据的分析,对某一地区的数据的分析;对特定业务领域的数据的分析等,将其有这种相关性的数据组织在一起,就会提高效率。,数据挖掘,数据分割的好处,对当前细节数据进行分割的总体目的就是把数
17、据划分成小的物理单元,为操作者和设计者在管理数据时提供更大的灵活性。小物理单元具有容易重构、自由索引、顺序扫描、容易重组、容易恢复和容易监控等优点。数据仓库的本质之一就是灵活的访问数据,大块数据达不到这个目的。,数据挖掘,分割的标准,数据分割的标准可以根据实际情况来确定,通常可选择:按日期、地域、业务领域或组织单位等来进行分割,按多个分割标准的组合来进行,一般情况分割标准总应包括日期项。,数据挖掘,数据分割例子,处理集A,处理集B,数据挖掘,分割的层次,分割的层次一般分为系统层和应用层两层。系统层的分割由数据库管理系统和操作系统完成;应用层的分割由应用系统完成,在应用层上分割更有意义。,数据挖
18、掘,数据组织形式(选学),数据仓库中有多种数据组织形式:简单堆积数据结构轮转综合数据结构简单直接文件连续文件,数据挖掘,简单堆积数据结构,每日从数据库中提取并加工数据逐天积累。最简单最常用的数据组织形式,数据挖掘,轮转综合数据结构,简单逐日堆积数据的一种变种。数据用与前面相同的处理方法从操作型环境输入到数据仓库环境中,只是在轮转综合文件中的数据才被输入到不同的结构形式中。,每日事物处理,每日综合,天,周,月,年,数据挖掘,简单堆积 VS 轮转综合,轮转综合数据结构与数据的简单堆积结构相比,仅处理非常少的数据单元。,数据挖掘,简单直接文件,数据仅仅是从操作型环境拖入数据仓库环境中,并没有任何累积
19、。是间隔一定时间的操作型数据的一个快照。不是在每天的基础上组织的,而是以较长时间为单位的,比如一个星期或一个月。,数据挖掘,连续文件,通过两个连续的简单直接文件,可以生成另一个连续文件连续文件也可以通过把一个快照追加到一个以前生成的连续文件上来创建,数据挖掘,连续文件,连续文件也可以通过把一个快照追加到一个以前生成的连续文件上来创建,数据挖掘,数据存储,虚拟存储方式基于关系表的存储方式多维数据库组织,数据挖掘,虚拟存储方式,没有专门的数据仓库数据存储,数据仓库中的数据仍然在源数据库中。只是根据用户的多维需求及形成的多维视图临时在源数据库中找出所需要的数据,完成多维分析。优点:组织方式简单、花费
20、少、使用灵活;缺点:只有当源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义才容易定义。而在一般的数据库应用中,这很难做到。,数据挖掘,基于关系表的存储方式,将数据仓库的数据存储在关系数据库的表结构中,在元数据的管理下完成数据仓库的功能。实体关系(ER)模型一般用于关系型数据库设计,而数据仓库采用星型雪花型事实星座,数据挖掘,基于关系表的存储方式,关系数据库一般采用二维数据表的形式来表示数据,一个维是行,另一个维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。数据仓库是多维数据库,它扩展了关系
21、数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但不管是哪一种架构,维度表、事实表和事实表中的量度都是必不可少的组成要素。,数据挖掘,星型模式,数据仓库中包含(1)一个大的包含大批数据和不冗余的事实表(中心表);(2)一组小的附属表,称为维表。每维一个。事实表中每条元组都含有指向各个维表的外键和一些相应的测量数据,事实表的记录数量很多,维表中记录的是有关这一维的属性。,数据挖掘,星型模式,星形模型可以采用关系型数据库结构,模型的核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。维度表中的对象通过
22、事实表与另一维度表中的对象相关联,这样就能建立各个维度表对象之间的联系。,数据挖掘,星型模式,事实表主要包含了描述特定商业事件的数据,即某些特定商业事件的度量值。一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中,维度表主要包含了存储在事实表中数据的特征数据。每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要求事实表中的外键不能为空,这与一般数据库中外键允许为空是不同的。这种结构使用户能够很容易地从维度表中的数据分析开始,获得维度关键字,以便连接到中心的事实表,进行查询。,数据挖掘,星型模式示例,数据挖掘,雪花模式,雪花模型是对星
23、形模型的扩展,每一个维度都可以向外连接多个详细类别表。在这种模式中,维度表除了具有星形模型中维度表的功能外,还连接对事实表进行详细描述的详细类别表,详细类别表通过对事实表在有关维上的详细描述达到了缩小事实表和提高查询效率的目的。,数据挖掘,雪花模式示例,数据挖掘,星型模式 VS 雪花模式,雪花模式的维表可能是规范化的,以便减少冗余。这种表易于维护,并节省存储空间。实际上,与巨大的事实表相比,这种空间的节省可以忽略。由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。在数据仓库设计中,雪花模式不如星型模式流行。,数据挖掘,事实星座模式,一个复杂的商业智能应用往往会在数据仓库中存放多个事实
24、表,这时就会出现多个事实表共享某一个或多个维表的情况,这就是事实星座,也称为星系模型(galaxy schema)。,数据挖掘,事实星座模式示例,time,时间键,年,季度,月,星期,天,产品键,产品类,产品名,型号,item,时间键,产品键,地区键,sales(事实表),销售量,销售价,ship(事实表),产品键,时间键,起运点,终止点,运价,数据挖掘,数据仓库的数据追加(选学),时标法前后映像文件方法DELTA文件日志文件,数据挖掘,时标法,基本思想:为记录数据增加一个时间标记。如果数据含有时标,对新插入或更新的数据记录,在其上添加更新时的时标,那么只需根据时标判断即可。但并非所有数据库中
25、的数据都含有时标。,数据挖掘,前后映像文件方法,在抽取数据前后对数据库各做一次快照,然后比较两幅快照从而确定新数据。它占用大量资源,对性能影响极大,因此无实际意义。,数据挖掘,DELTA文件,DELTA文件视图从能够感知数据变化的应用程序来生成追加文件利用DELTA文件效率很高,它避免扫描整个数据库。但因应用系统常由不同的软件开发商开发,生成DELTA文件的应用并不普遍。,数据挖掘,日志文件,日志是DMBS的固有机制系统日志能把数据库服务器所执行的所有操作详细记录下来,通过分析日志获取数据变化情况。它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。固有机制,不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 OLAP 技术

链接地址:https://www.31ppt.com/p-6296216.html