LAP的三大实现.ppt
OLAP的三大实现技术,周红庆1100214019计算机应用技术,目录,OLAP的实现技术OLAP实例分析,OLAP的实现技术,关系型联机分析处理(ROLAP,Relational OLAP)多维联机分析处理(MOLAP,Multi-Dimensional OLAP)混合型联机分析处理(HOLAP,Hybrid OLAP),关系数据存储与多维数据存储,关系型OLAP数据存储 在关系数据库中,没有数组的概念,因此多维数据必须被映像成平面型的关系表中的行。具有代表性的是非标准化的星型模式的设计,它将基本信息存储在一个单独的事实表中,而有关维的支持信息则被存储在其他表中。预处理的结果一般被存放在大量的综合汇总表中,这些综合汇总表分别有不同的聚集及组合。他们每个都需要关键字来标识,并且通过索引来获得高效的访问。,多维数据存储与关系数据存储,多维数据库中的数据存储 多维数据库是由许多经压缩的,类似于数组的对象构成,这种对象通常带有高度压缩的索引及指针结构。每个对象由聚集成组的单元块组成,每个单元块都类似于多维数组的结构存储,并通过直接偏移计算进行存取。由于索引只需一个较小的数来标识单元块,因此多维数据库的索引一般较小,只占数据空间的一小部分,正因为它们如此之小,以至于可以很容易地将整个索引装进内存,这将极大地提高性能。在实际分析过程中,可能需要把任一维与其他维进行组合,因而需要能够旋转数据立方体及切片的视图,即以多维方式显示数据。在多维数据库中,并非维间的每种组合都会产生具体的值,实际上,许多组合没有具体值,是空的或者值为0。另外,许多值重复,如一年中的价格可能不变。因此多维数据库必须具有高效的稀疏数据处理能力,能略过零元、缺失和重复数据。,多维数据存储与关系数据存储,关系数据存储与多维数据存储的比较 关系数据库按表中存放的关键字记录来存放数据,数据可用通用语言SQL来访问;而多维数据存储在逻辑上按数组保存数据,它既没有通用或一致的多维模型,也没有标准的或通用的数据访问方法。利用关系数据存储,数据仓库的尺寸可以非常大。通过使用索引和一些特殊的技术,可以增大存储的尺寸,以便在多维查询时获得可接受的性能。在多维存储中,数据存储的大小通常是有限的,但数据存储可利用压缩技术,例如稀疏矩阵压缩,可以在较少空间存放更多数据。存储在多维数据库中的信息具有更详尽的索引,可以常驻内存。且在逻辑上按数组保存数据,所以它可以在不影响索引的情况下更新数据。,关系型联机分析处理(ROLAP),ROLAP ROLAP将分析用的多维数据存储在关系数据库中,并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(Virtual OLAP)。尽管数据按关系型格式存储,但对用户来说,数据却是按多维方式给出。为了隐藏存储格式,应创建元数据的语义层,此层将映射到关系表。为改善响应时间,还应为概括数据或聚集数据生成元数据。所有元数据存放于可被维护和管理的关系数据库中。,关系型联机分析处理(ROLAP),设计基本步骤:(1)利用星型模式、雪花模式、混合模式等技术来构造维模型。(2)添加适当的聚集和概括数据。(3)把大的数据库分解成可管理的部分来提高效率。(4)添加生成的索引或位模式索引来增强功能。(5)生成并存储元数据。元数据包括对维的定义、维到关系表格的映射、维间的层次关系、概括和聚集的定义和描述、公式和计算及其他数据等。,关系型联机分析处理(ROLAP),执行查询的步骤:(1)利用数据的应用视图或维视图来构造客户工具。(2)从客户工具查询OLAP并实时检查元数据。(3)创建多种SELECT语句和/或相关子查询,并把它们提交给关系数据库。(4)在数据库查询结果上完成多维功能,例如公式和计算,从字节到应用描述的转换。(5)将结果返回给客户工具以便进一步处理和显示,或者立即进行显示。,关系型联机分析处理(ROLAP),提供给用户和管理员的主要功能有:(1)关系数据库的商业视图。(2)维层次支持。(3)计算、统计和财会功能,它们都可由用户扩充。(4)细剖细节层次。(5)选择前后端工具。(6)数据库管理员可以增强已有的备份和恢复功能,并可提供数据库的子集来进行个例分析。(7)利用元数据导航。(8)具有使用权限的多级安全性控制。,关系型联机分析处理(ROLAP),可能会遇到的问题:(1)此方法允许使用星型和雪花模式分解数据并进行特殊处理。这增强了功能,但代价却为关系数据库的灵活性和可扩充性带来了负面影响。这使得修改数据库会产生更多困难,而且可能需要批量修改。(2)除非是批量装载,所用的星型模式及其变形,以及所用的聚集和概括数据都假定数据是静态的。(3)进行行一级的计算,例如,当利润等于收入减成本时,需要置换行和列。即使采用多个SELECT语句,此种计算仍会受到限制。(4)管理并维护元数据是一个长期的问题,并且长期消耗成本。,关系型联机分析处理(ROLAP),ROLAP的实现 将数据的多维结构划分为两类表:事实表(用来存储事实的度量值及各个维的码值)维度表(维的描述信息,包括维的层次及成员类别等)按照两种结构设计:星型模型雪花模型,关系型联机分析处理(ROLAP),财政周序号,产品代码,销售商代码,邮政编码,产品维表,时间维表,销售渠道维表,地理维表,关系型联机分析处理(ROLAP),财政周序号,产品代码,销售商代码,邮政编码,商标代码公司代码产品类代码产品小类代码产品代码,当前时间财政周序号财政年度序号,销售店代码零售商代码,城市名称国家地区邮政编码,商标代码商标名称,产品代码产品名称,产品小类代码产品小类名称,公司代码公司名称,零售商代码零售商名称,销售店代码零售店名称,财政周序号财政周名称,财政年度序号财政年度名称,产品类代码产品类名称,商标表,产品表,产品类表,产品小类表,公司表,产品维表,地理维表,销售渠道维表,零售商表,销售商店表,时间维表,财政年度表,财政周表,关系型联机分析处理(ROLAP),注:在ROLAP中,多维数据立方体并没有真正存在,通常需要在接受客户OLAP请求后,ROLAP服务器需要将SQL语句转化为多维存取语句,并利用连接运算拼合出多维数据立方体,因此ROLAP的响应时间较长。,关系型联机分析处理(ROLAP),销售事物表,产品维表,时间维表,销售渠道维表,地理维表,JOIN,产品代码,产品维,地区维,销售商代码,财政周序号,邮政编码,时间维,通过联接提取事实,多维联机分析处理(MOLAP),MOLAP MLOAP是基于多维数据库的OLAP技术,在多维数据存储的方式,OLAP的服务设施包含OLAP服务软件和多维数据库,数据在逻辑上按数组存储,一般可选用超立方体或多立方体方式。在超立方体方式中,大于三位的对象用平面来描述,每一维都把它看成与其他维成直角。维的属性值被映射为多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(Physical OLAP)。,多维联机分析处理(MOLAP),基于多维数据库(MDDB)的OLAPMOLAPOLAP服务器:存储OLAP服务软件和多维数据库MDDB存储:采用“超立方体”形式MDDB存取:多维操作,多维联机分析处理(MOLAP),设计基本步骤:(1)选择功能,例如,销售收入分析和财经分析报表。(2)指明数字信息,例如存储类似销售收入和顾客的度量信息。(3)确定维(时间,地区和产品等)以及每一维的粒度,例如,时间是按月和季度,地区按市、县或地区等。(4)定义逻辑模型并装载多维数据存储,这可以直接从数据源中获得,也可以过滤并匹配数据仓库所选内容。,多维联机分析处理(MOLAP),提供给用户的主要功能:(1)对内涵查询的快速响应,只有快速响应才能保证分析和思考的过程。(2)与多位数据库进行交互,使其支持预测、预先计划、进行预算等应用。(3)发掘各维元素或信息间丰富的联系,以便发现微妙的关系。(4)强大的计算引擎和比较分析,包括分级、比较、按百分比分类、最大值、最小值、平均值、平均转手率、按时期比较等。(5)交叉维计算,或对基于电子表格的应用按行计算。(6)综合统计和财务功能,如现金转账、趋势分析、时间序列分析等。(7)灵巧计时,日期中的年、当前时刻、财务或内部的日历等。(8)具有查询数据仓库底层细节数据的能力。(9)沿单维或多维处理的基准点、表格、细剖和统览以及其他强有力的导航功能。,多维联机分析处理(MOLAP),可能会遇到的问题:(1)所支持的多维数据库的尺寸小于关系数据库的尺寸。这时可利用稀疏矩阵技术来节省空间,其副作用是增加操作、因为,存储的是概括和聚集信息,所以存储的需求要比原来的小。(2)按粒度的级别(概括的、聚集的、预计算和派生的数据)来存储数据会带来副作用,如细剖无法达到细节数据级。(3)高层次级别的数据具有访问和安全性控制,但没有基于使用的权限和子集级的访问控制。(4)维结构的改变需要重组多维数据库,常用的备份和恢复功能会受限。(5)因需要特定的前后端,会限制选择。但在扩充多维数据库的前后端后,又会导致它不能移植至另一多维数据库。,多维联机分析处理(MOLAP),MOLAP首先对事实表中的所有外键进行排序,并将排序后的具体指标数值一一写进虚拟的多维立方体中。当然,虚拟的多维立方体只是为了便于理解而构想的,MOLAP实际的数据存储放在数据文件(Data File)中,其数据放置的顺序与虚拟的多维立方体按x,y,z坐标展开的顺序是一致的(如上图)。同时,为了数据查找的方便,MOLAP需要预先建立维度的索引,这个索引被放置在MOLAP的概要文件(Outline)中。,图中左边是ROLAP方式,右边是MOLAP方式,两者对应的是同一个三维模型。,概要文件是MOLAP的核心,相当于ROLAP的数据模型设计。概要文件包括所有维的定义(包括复杂的维度结构)以及各个层次的数据汇总关系(例如在时间维,日汇总至月,月汇总至季,季汇总至年),这些定义往往从关系型维表中直接引入即可。概要文件也包括分析指标的定义,因此可以在概要文件中包含丰富的衍生指标,这些衍生指标由基础指标计算推导出来。一旦概要文件定义好,MOLAP系统可以自动安排数据存储的方式和进行数据查询。从MOLAP的数据文件与ROLAP的事实表的对比可以看出,MOLAP的数据文件完全不需要纪录维度的外键,在维度比较多的情况下,这种数据存储方式大量地节省了空间。,多维联机分析处理(MOLAP),但是,如果数据相当稀疏,虚拟的多维立方体中很多数值为空时,MOLAP的数据文件需要对相关的位置留空,而ROLAP的事实表却不会存储这些纪录。为了有效地解决这种情况,MOLAP采用了稀疏维和密集维相结合的处理方式。,多维联机分析处理(MOLAP),多维联机分析处理(MOLAP),在实际应用中,不可能所有分析的维度都是密集的,也绝少存在所有分析的维度都是稀疏的,因此稀疏维和密集维并用的模式几乎主导了所有的MOLAP应用。而稀疏维和密集维的定义全部集中在概要文件中,因此,只要预先定义好概要文件,所有的数据分布就自动确定了。在这种模式中,密集维的组合组成了的数据块(Data Block),每个数据块是I/O读写的基础单位(如上图),所有的数据块组成了数据文件。稀疏维的组合组成了索引文件,索引文件的每一个数据纪录的末尾都带有一个指针,指向要读写的数据块。因此,进行数据查询时,系统先搜索索引文件纪录,然后直接调用指针指向的数据块进行I/O读写(如果该数据块尚未驻留内存),将相应数据块调入内存后,根据密集维的数据放置顺序直接计算出要查询的数据距离数据块头的偏移量,直接提取数据下传到客户端。因此,MOLAP 方式基本上是索引搜索与直接寻址的查询方式相结合,比起ROLAP的表/索引搜索和表连接方式,速度要快得多。,ROLAP和MOLAP的优缺点比较,混合型联机分析处理(HOLAP),HOLAP:迄今为止,对HOLAP还没有一个正式的定义。但很明显,HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。,混合型联机分析处理(HOLAP),对于常用的维度和维层次,在HOLAP中使用多维数据表来记录。对于不常用的维度和数据,采用类似于ROLAP星型结构来存储。允许将大量详细数据存放在关系数据库中,而聚集保持在分离的MOLAP存储中。HOLAP在主要性能上都介于 MOLAP和 ROLAP之间,其技术复杂度高于MOLAP和 ROLAP。HOLAP得益于ROLAP的可伸缩性,和MOLAP的快速计算。(如MS SQL SERVER)在HOLAP的多维数据表中的数据维度少于MOLAP中的维度表,数据存储容量也少于MOLAP方式。HOLAP在数据存取速度上又低于MOLAP。,OLAP实例分析,混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),混合型联机分析处理(HOLAP),