数据仓库与数据挖掘第二章B.ppt
《数据仓库与数据挖掘第二章B.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘第二章B.ppt(57页珍藏版)》请在三一办公上搜索。
1、0,第二章 数据仓库原理,1,第二章 数据仓库原理,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓构造模式 2.5 数据仓库概念结构 2.6 数据仓库中的数据组织 小节,2,数据仓库中的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,3,数据仓库中的数据组织 粒度 分割 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,4,2.6 数据仓库中的数据组织,为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数
2、据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分析处理环境。数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。,5,2.6 数据仓库中的数据组织,数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度,6,数据仓库的数据组织结构,元数据,高度综合级,轻度综合级,当前细节级,早期细节级,
3、2.6 数据仓库中的数据组织,7,数据仓库中的数据存在着不同的综合级别早期细节级一般而言,当前细节级的数据对于决策的支持程度随数据发生时间的久远而降低。为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,并以合适的方式进行存储。,2.6 数据仓库中的数据组织,8,数据仓库中的数据存在着不同的综合级别当前细节级来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进行存储。这些数据规模较大,实时性强,是数据仓库用户感兴趣的部分。当前细
4、节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数据。,2.6 数据仓库中的数据组织,9,数据仓库中的数据存在着不同的综合级别轻度综合级为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的时间段为单位进行综合。这一设定的时间段参数又称为“粒度”。以较小的粒度生成的综合数据,称为“轻度综合级数据”,其规模要远远小于当前细节级数据,因此,可以明显提高决策运算的效率。,2.6 数据仓库中的数据组织,10,数据仓库中的数据存在着不同的综合级别高度综合级以较长的时间段,即较大的粒度,对当前细节
5、级的数据进行综合而形成的结果,称为“高度综合级数据”。高度综合级的数据内容十分精练,可以认为是一种“准决策数据”。这里,“高度”和“轻度”只是一种相对的概念没有绝对的界限。,2.6 数据仓库中的数据组织,11,数据仓库的数据组织结构的一个例子,高度综合级,轻度综合级,当前细节级,早期细节级,1990-2004年 每月销售表,1996-2004年每周销售表,1996-2004年销售情况表,1990-1995年销售明细表,数据仓库中的数据组织,2.6 数据仓库中的数据组织,12,数据仓库中的数据组织 粒度 分割 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织
6、,13,粒度 对数据仓库中的数据综合程度高低的一个度量。例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。,2.6 数据仓库中的数据组织,14,粒度,一个顾客一个月中每次通话的细节,一个顾客一个月中通话的综合,Cass Squire上星期给他在波士顿的女友打过电话没有?,能回答,尽管需要一定数量的检索,根本不能回答,细节已经丢失,“上个月,华盛顿人平均打出多少个电话?”,由此可见,粒度级别对于能回答什么问题和问答问题所需资源多少
7、有深刻的影响。,2.6 数据仓库中的数据组织,15,粒度,粒度的权衡是固有的,所以大多数企业的最佳解决方法是采用多重粒度的形式,低粒度,高粒度,能回答任何问题效率低数据量大,能回答所有问题效率高数据量小,2.6 数据仓库中的数据组织,16,粒度分为两种形式:对数据仓库中的数据的综合程度高低的一个度量粒度越小,细节程度越高,综合程度越低粒度大小影响数据仓库效率、能回答询问的种类“张三在某时某地是否给李四打过电话?”“张三去年共打了几次长途电话”“某地区今年长途与普通电话费用之比”“今年长途普通电话费用增长率”“预测未来长途普通电话费用变化趋势”数据仓库是多粒度的,不同的粒度回答不同的查询,2.6
8、 数据仓库中的数据组织,17,粒度分为两种形式:样本数据库在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。,2.6 数据仓库中的数据组织,18,样本数据库根据采样率的高低来划分粒度:以一定的采样率从细节数据或轻度综合数据中抽取的一个子
9、集用处:代替源数据进行模拟分析,适用于趋势分析和预测分析抽样的方法:随机抽取,必要时可采用“判断样本”优点:高效率,在启发式分析中,源数据量很大的情况下,抽样数据可以大大下降,分析结果误差极小有助于抓住主要因素和主要矛盾,2.6 数据仓库中的数据组织,19,数据仓库中的数据组织 粒度 分区 维度 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,20,分区 数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管理小的物理单元时比管理大的享有更大的
10、灵活性。恰当进行分区的好处:数据装载、数据访问、数据存档、数据删除、数据监控、数据存储、当结构相似的数据被分到多个数据的物理单元时,数据便被分区了。任何给定的数据单元属于且仅属于一个分区。,2.6 数据仓库中的数据组织,21,分区,数据分区,小的数据单元易于:重构索引顺序扫描重组恢复监控,1989,1990,1987,1991,1988,独立管理的数据单元可以有不同的定义,处理设备A,处理设备B,2.6 数据仓库中的数据组织,22,分区 有多种数据分区的标准:时间 业务范围 地理位置 组织单位 所有上述标准数据分区的标准是完全由开发人员来决定的。然而,在数据仓库环境中,日期几乎总是分区标准中的
11、一个必然组成部分。,2.6 数据仓库中的数据组织,23,分区 人寿保险公司选择时间和保险种类,将数据分区为以下物理单元:2000年健康索赔2001年健康索赔2002年健康索赔1999年人寿保险索赔2000年人寿保险索赔2001年人寿保险索赔2002年人寿保险索赔2000年意外伤亡索赔2001年意外伤亡索赔2002年意外伤亡索赔,2.6 数据仓库中的数据组织,24,分区数据分区优点:提高系统性能“1996年家电类商品销售的季节分布如何?”“每年的第一季度商品销售在各类商品上的分布情况是怎样的?”提高灵活性 修改数据定义容易 不同年份的险种的定义描述是相互独立,2.6 数据仓库中的数据组织,25,
12、数据仓库中的数据组织 粒度 分区 分割 维度 数据仓库的数据组织形式 数据仓库的数据追加,2.6 数据仓库中的数据组织,26,维度管理人员可以从客户的角度、产品的角度或者从供应商、地点、渠道、时间发生的时间等角度来分析决策问题。用户的这些决策分析角度或决策分析出发点就是数据仓库中的维。数据仓库中的数据就按照这些维来组织,维也就成了数据仓库中识别数据的索引。同时,数据仓库中的维还可以作为数据仓库操作过程的路经,这些路径通常位于维的不同层次结构中。,2.6 数据仓库中的数据组织,27,维度是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 第二

链接地址:https://www.31ppt.com/p-6296221.html