《BI技术白皮书.doc》由会员分享,可在线阅读,更多相关《BI技术白皮书.doc(20页珍藏版)》请在三一办公上搜索。
1、商业智能技术白皮书第一章、数据仓库技术1一、数据仓库的背景和历史1二、什么是数据仓库1三、数据仓库的组织结构23.1、数据仓库的逻辑及物理结构23.2、数据仓库系统2四、数据仓库的物理存储形式34.1、基于关系数据库的存储形式34.2、多维数据库存储形式44.3、虚拟存储方式54.4、几种存储形式的比较5五、数据集市55.1、 数据集市的产生55.2、 数据集市的概念55.3、 数据集市的特征5六、数据抽取、转换、清洗(ETL)66.1、ETL的重要性及概念66.2 ETL阶段的问题6第二章、联机分析技术(OLAP)8一、什么是OLAP81.1 、OLAP的起源81.2 、OLAP的概念81.
2、3、OLAP的分类8二、OLAP的多维数据结构92.1、OLAP的多维数据数据概念92.2、OLAP的多维数据结构9三、OLAP的特点11四、OLAP的功能11第三章、数据挖掘技术12一、什么是数据挖掘12二、数据挖掘的步骤13三、数据挖掘的模式13四、数据挖掘的方法14第四章、各种技术的结合16第一章、 数据仓库技术一、 数据仓库的背景和历史随着计算机技术的迅速发展,信息处理技术也得到了长足的发展。计算机系统的功能从数值计算扩展到信息管理距今已有三十多年了,从70年代中期的MIS系统发展到现代的数据仓库(Data Warehouse)技术,用辩证的眼光来看,实际上是信息管理的一种回归,是螺旋
3、式的上升。二十多年来,大量新技术、新思路涌现出来并被用于关系数据库系统的开发和实现,使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统, SQL的使用更使这一切成为不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。整个80年代直到90年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进
4、行分析才能得到。在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析我们把它称之为联机分析处理比以往任何时候都显得更为重要。其实,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非如想像的那么容易:第一,所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第 三,业务数据的模式针对事务处理系统而设计,数据的格式和
5、描述方式并不适合非计算机专业人员进行业务上的分析和统计。因此有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来。这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。二、什么是数据仓库数据仓库的概念在90年代初被提出来,以Prism Solutions公司副总裁W.H.Inmon在1990年出版的建立数据仓库(Building th
6、e Data Warehouse)一书为标志。W. H. Inmon对数据仓库的定义为:数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。这也就是说:数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。主题是数据仓库中数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,首先要统一原始数据中的矛盾之处
7、,还要将原始数据结构做一个从面向应用向面向主题的转变。数据仓库的稳定性是指数据经加工和集成进入数据仓库后是极少或根本不修改的。数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要。从数据组织的角度来说,数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又可分为轻度综合层和高度综合层)。其最根本的特点是物理地存放数据,但这些数据并不是最新的、专有的,而是来源于其它数据库。数据仓库内的数据时限为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大,一般为10GB左右。它
8、是一般数据库(100MB)数据量的100倍,大型数据仓库达到TB级。三、 数据仓库的组织结构3.1、数据仓库的逻辑及物理结构数据仓库作为存储数据的一种组织形式,随着时间的推移,数据仓库的时间控制机制将当前基本数据层转为历史数据层。可见数据仓库中逻辑结构数据由3层到4层数据组成,它们均由元数据(Meta Data)组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和基于关系数据库组织形式(由关系型事实表和维表组成)。以下是数据仓库的技术体系结构图源数据外部数据外部元数据管理模块设计模块数据访问模块中间件模块数据传递模块数据获取模块数据管理员模块数据仓库之数据信息目录模
9、块数据仓库之元数据3.2、数据仓库系统数据仓库系统(DWS)由源数据、仓库管理和分析工具三部分组成。如下图:源数据仓库管理 分析工具源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类的外部数据。 仓库管理:在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息等。仓库管理包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统(DBMS)的功能。 分析工具:用于完成实际
10、决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据开采DM工具等,以实现决策支持系统的各种要求。四、 数据仓库的物理存储形式数据仓库中数据的物理存储形式分为:基于关系数据库存储形式(由关系型事实表和维表组成)、多维数据库存储形式(空间超立方体形式)和虚拟存储形式。4.1、基于关系数据库的存储形式基于关系数据库的存储形式就是将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成“星型模式”。对于层次复杂的维,为避免冗余数据占用过大的存储
11、空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。星型模式(StarSchema)存在数据冗余、多维操作速度慢的缺点。但这种方式是主流方案,大多数数据仓库集成方案都采用这种形式。如下图:星型模式雪花模式(Snowflake Schema)的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性。如下图: 雪花模型4.2、多维数据库存储形式多维数据库(MultiDimesional Database,MDDB)存储形式就是以多维的方式存储数据,以多维的方式来显示数据,即将数据存放在一个n维数组中,而不是像关系
12、数据库那样以记录的形式存放。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系。多维数据在存储中将形成“超立方块(Hypercube)”的结构。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。当使用多维数据库作为数据仓库的基本数据存储形式时,其最主要的特点是:大大减少了以维为基本框架的存储空间,针对多维数据组织的操作算法,极大地提高了多维分析操作的效率。 4.3、虚拟存储方式虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库来存储数据,只是把指针存储于中心位置,而数据仍然在源数据库中,只是根据用户的
13、多维需求及形成的多维视图,临时在源数据库中找出所需要的数据,完成多维分析,数据源可以被实时地组合、传输和显示,而不必进行数据移动和复制,对于数据源也无须做任何改变。它让用户既能实时地看到历史数据,同时也能实时地看到当前数据,而不是像过去那样只看到历史数据。4.4、几种存储形式的比较多维数据库对多维概念表达清楚,占用的存储空间较小,而且数据的综合速度高,这些方面具有关系数据库无法比拟的优势,它也存在一些缺点:一是多维数据库管理系统缺乏标准;另一个问题是多维数据库管理大规模数据库的能力不够强大。基于关系数据库的存储形式,在灵活性和处理大规模数据的能力上完全可以满足数据仓库的需要。其不足在于数据库中
14、存放了大量的细节数据和相对较少的综合数据,需要以牺牲效率为代价动态地综合数据。虚拟存储形式虽然较简单、花费少、使用灵活,但同时它也存在一个致命的缺点,即只有当源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义层才容易定义,在实际中这种方式很难建立起有效的决策服务数据支持。由于多维数据库管理系统及虚拟数据仓库技术的相对不成熟,关系数据库系统的广泛应用 ,目前在数据仓库市场上基于关系数据库的存储形式占据着主流地位。五、数据集市5.1、 数据集市的产生 数据仓库的工作范围和成本常常是巨大的。信息技术部门必须针对所有的用户并以整个企业的眼光对待任何一
15、次决策分析。这样就形成了代价很高、时间较长的大项目。因此更紧凑集成的、拥有完整图形接口且价格更具吸引力的工具即数据集市(Data Marts)应运而生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 5.2、 数据集市的概念 数据集市是一种更小、更集中的数据仓库,是为企业提供分析商业数据的一条廉价途径。它是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,它支持客户利用已有的数据获得重要的竞争优势或找到进入新市场的解决方案。 5.3、 数据集市的特征 数据集市的特征包括:规模小;有特定的应用;面向部门;由业务部门定义、设计和开发;业务部门管理和维护;能快速实
16、现;购买较便宜;投资快速回收;工具集的紧密集成;提供更详细的、预先存在的、数据仓库的摘要子集;可升级到完整的数据仓库。六、数据抽取、转换、清洗(ETL)6.1、ETL的重要性及概念我们可以这样给ETL下个定义,即ETL是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。它关系到数据仓库的持续发展问题,因为当数据仓库进一步发展时,如果完善、精确、可预见的数据来源得不到保障的话,就将成为阻碍数据仓库发展的最大的障碍
17、。6.2 ETL阶段的问题整个数据仓库的建设如果按照其不同性质,可奖它分为三个截然不同的部分,分别是:源数据、数据准备、以及数据呈现,而ETL横跨数据源和数据准备,而我们常说的的OLAP分析和决策支持等,都是属于数据呈现的部分。在ETL阶段,需要经过许多步骤,如下图所示:在ETL阶段,有几个重要的问题:数据的有效性检查为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。如果没有进行数据的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知识的人士。清除和转换数据有效性检查
18、是决定是否符合给定标准的过程。标准是依赖于制订的,为某个站点开发和执行的标准可能在其他地方毫无意义。如果数据不在给定的界限之内,它就成为我们称作scrubbing(清除)过程的对象。清除数据包括对那些在给定范围之外的数据采取纠正措施。数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。如何向数据仓库中加载这些数量大、种类多的数据,已成为建立数据仓库所面临的一个关键问题。 在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。同步结构应当把重点放在转换语言的标准化、数据移动平台、通信策略
19、和支持策略方面。数据仓库与操作数据存储器之间的同步过程能够采取不同的结构。 除寻找自动化转换操作的工具之外,还应估计数据转换的复杂性。大多数传统的数据存储方法缺乏标准,常常有些不规则的东西让开发员摸不着头脑。工具正在不断改进以有助于转换过程的自动化,包括复杂问题,如掩匿的数据、传统标准的缺乏及不统一的关键数据。我们可以定义数据变换的几个基本类型,每一类都有自己的特点和表现形式:简单变换顾名思义,它是数据变换中最简单的形式,这些变换一次改变一个数据属性而不考虑该属性的背景或与它相关的其他信息。包括数据类型转换,日期/时间格式的转换,字段解码。清洁和刷洗清洁和刷洗是两个可互换的术语,指的是比简单变
20、换更复杂的一种数据变换。在这种变换中,要检查的是字段或字段组的实际内容而不仅是存储格式。一种清洁是检查数据字段中的有效值。这可以通过范围检验、枚举清单和相关检验来完成,重新格式化也是一个主要方法。集成要把从全然不同的数据源中得到的业务数据结合在一起,真正的困难在于将它们集成为一个紧密结合的数据模型。这是因为数据必须从多个数据源中提取出来,并结合成为一个新的实体。这些数据来源往往遵守的不是同一套业务规则,在生成新数据时,必须考虑到这一差异。聚集和概括大多数数据仓库都要用到数据的某种聚集和概括。这通常有助于将某一实体的实例数目减少到易于驾驭的水平,也有助于预先计算出广泛应用的概括数字,以使每个查询
21、不必计算它们。概括是指按照一个或几个业务维将相近的数值加在一起。聚集指将不同业务元素加在一起或为一个公共总数。在数据仓库中它们是以相同的方式进行的。数据仓库中存放的最具体的数据不与业务系统中存放的细节数据一样聚集。这时,就有必要在变换业务数据的过程中加入一些数据聚集功能。这可以减少存储在数据仓库中的行数。聚集还可以去除数据仓库中的过时细节。在许多情况下,数据在一定时期内要以很具体的水平存放着,一旦数据到了某一时限,对所有这些细节的需求就大大减弱了。此时,这些非常具体的数据应该传送到离线存储器或近线存储器中,而数据的概括形式则可以存放在数据仓库中。目前可以得到的数据刷洗工具中,许多都已内置了概括
22、功能,尤其是在时间维上进行聚集的功能。当然,不管如何做到这一点,重要的是用户能够轻松地访问元数据,了解生成总和数据所用的标准。移动数据将数据移出操作系统一般包括:在数据最终复制到数据仓库之前,将它们拷贝到一个中间位置。理想状况下,拷贝数据的过程应该在操作系统不忙时进行。确保了解自己的商务及其支持系统。如果还未完成大量的更新,就不应该移动数据。如果数据仓库中的数据来自多个相互关联的操作系统,就应该保证在这些系统同步工作时移动数据。第二章、 联机分析技术(OLAP)一、什么是OLAP 1.1 、OLAP的起源联机分析处理(On-Line Analytical Process OLAP)的概念最早是
23、由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库和多维分析的概念,即OLAP。到90年代中期,数据仓库已经形成潮流。在美国,数据仓库已成为紧次于Internet之后的又一技术热点。随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据;而OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策
24、信息。OLAP的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。OLAP技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据。OLAP技术还能够利用分析过程对数据进行深入分析和加工。例如,关键指标数据常常用代数方程进行处理,更复杂的分析则需要建立模型进行计算1.2 、OLAP的概念根据OLAP委员会的定义,OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP技术
25、是对由语义动态对象建立的、以动态微立方结构形式存储的表进行向下钻取、向上钻取、跨越钻取、切片和切块等操作。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合,是数据仓库中大容量数据得以有效利用的重要保障。其基本思想是:企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。1.3、OLAP的分类可以在两个层面上对OLAP进行分类,按照存储方式的不同,可将OLAP分成ROLAP、MOLAP和HOLAP;按照处理地点的不同,可将OLAP分成Server OLAP和Clie
26、nt OLAP。ROLAP基于Codd的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(starschema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP称为Relational OLAP,简称ROLAP。代表产品有Informix Metacube、Microsoft SQL Server OLAP Services.。ROLAP采用 星型模式来组织关系数据库数据很好地解决多维分析的问题。星型模式只不过是数据库设计中数据表之间的一种关联形式,它的巧妙之处在于能够 找到一
27、个固定的算法将用户的多维查询请求转换成针对该数据模式的标准SQL语句,而且该语句是最优化的。星型模式的应用为关系数据库在数据仓库领域大开绿灯。是数据仓库处理大规模的数据提供了极大的伸缩性。ROLAP的优势:没有大小限制;现有的关系数据库的技术可以沿用;可以通过SQL实现详细数据与概要数据的储存;现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQl 的OLAP扩展等大大提高了ROALP的速度;可以针对SMP或MPP的结构进行查询优化。ROLAP的缺点:一般比MDD响应速度慢;只读、不支持有关预算的读写操作;SQL无法完成部分计算,
28、主要是无法完成多行的计算,无法完成维之间的计算。MOLAP 严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据。Arbor Software,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为MuiltDimension OLAP,简称MOLAP,代表产品有Hyperion(原Arbor software) Essbase、Showcase STRATEGY等。MOLAP在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。MOLAP的优势:性能好、响应速度快;专为OLAP所设计;
29、支持高性能的决策支持计算;复杂的跨维计算;多用户的读写操作;行级的计算。MOLAP的缺点:增加系统复杂度,增加系统培训与维护费用;受操作系统平台中文件大小的限制,难以达到TB 级;需要进行预计算,可能导致数据爆炸;无法支持维的动态变化;缺乏数据模型和数据访问的标准。HOLAP 鉴于ROLAP和MOLAP都有这样那样的缺点,于是产生了HOLAP这种OLAP模型,它综合了ROLAP和MOLAP的优点。它将常用的数据存储为MOLAP,不常用或临时的数据存储为ROLAP,这样就兼顾了ROLAP的伸缩性和MOLAP的灵活、纯粹的特点。ClientOLAP 又称DiskOLAP相对于Server OLAP
30、而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有Brio Designer, Business Object.ClientOLAP提供了有别以传统OLAP的实时性和极大的灵活.二、OLAP的多维数据结构2.1、OLAP的多维数据数据概念多维结构是OLAP的核心。OLAP展现在用户面前的是一幅幅多维视图。 1、维 假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具体一点,如品牌、月份、地区等。对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售情况。对某一商店,也许他想知道哪个商品在哪段时间的销售情况。在某一时间
31、,也许他想知道哪个商店哪种产品的销售情况。因此,他需要决策支持来帮助制定销售政策。 这里,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。维就是相同类数据的集合,也可以理解为变量。而每个商店、每段时间、每种商品都是某一维的一个成员。每个销售事实由一个特定的商店、特定的时间和特定的商品组成。 维有自己固有的属性,如层次结构(对数据进行聚合分析时要用到)、排序(定义变量时要用到)、计算逻辑(是基于矩阵的算法,可有效地指定规则)。这些属性对进行决策支持是非常有用的。 2、多维性 人们很容易理解一个二维表(如通常的电子表格),对于三维立方体同样也容易理解。OLAP通常
32、将三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。但是要加一维(如加入商店维),则图形很难想象,也不容易在屏幕上画出来。要突破三维的障碍,就必须理解逻辑维和物理维的差异。OLAP的多维分析视图就是冲破了物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持。2.2、OLAP的多维数据结构数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此,OLAP系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问
33、题。事实上,有许多方法可以构造多维数据。 1超立方结构 超立方结构(Hypercube)指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。 这种结构可应用在多维数据库和面向关系数据库的OLAP系统中,其主要特点是简化终端用户的操作。 超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。 2多立方结构 在多立方结构(Multicube)中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活
34、性,提高了数据(特别是稀疏数据)的分析效率。 一般来说,多立方结构灵活性较大,但超立方结构更易于理解。终端用户更容易接近超立方结构,它可以提供高水平的报告和多维视图。但具有多维分析经验的MIS专家更喜欢多立方结构,因为它具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。 许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。 3 活动数据的存储 用户对某个应用所提
35、取的数据称为活动数据,它的存储有以下三种形式: (1)关系数据库 如果数据来源于关系数据库,则活动数据被存储在关系数据库中。在大部分情况下,数据以星型结构或雪花结构进行存储。如下图: (2)多维数据库 在这种情况下,活动数据被存储在服务器上的多维数据库中,包括来自关系数据库和终端用户的数据。通常,数据库存储在硬盘上,但为了获得更高的性能,某些产品允许多维数据结构存储在RAM上。有些数据被提前计算,计算结果以数组形式进行存储。如下图: (3)基于客户的文件 在这种情况下,可以提取相对少的数据放在客户机的文件上。这些数据可预先建立,如Web文件。与服务器上的多维数据库一样,活动数据可放在磁盘或RA
36、M上。 这三种存储形式有不同的性能,其中关系数据库的处理速度大大低于其他两种。 4OLAP数据的处理方式 OLAP有三种数据处理方法。事实上,多维数据计算不需要在数据存储位置上进行。 (1)关系数据库 即使活动的OLAP数据存储在关系数据库中,采用在关系数据库上完成复杂的多维计算也不是较好的选择。因为SQL的单语句并不具备完成多维计算的能力,要获得哪怕是最普通的多维计算功能也需要多重SQL。在许多情况下,一些OLAP工具用SQL做一些计算,然后将计算结果作为多维引擎输入。多维引擎在客户机或中层服务器上做大部分的计算工作,这样就可以利用RAM来存储数据,提高响应速度。 (2)多维服务引擎 大部分
37、OLAP应用在多维服务引擎上完成多维计算,并且具有良好的性能。因为这种方式可以同时优化引擎和数据库,而服务器上充分的内存为有效地计算大量数组提供了保证。 (3)客户机 在客户机上进行计算,要求用户具备性能良好的PC机,以此完成部分或大部分的多维计算。对于日益增多的瘦型客户机,OLAP产品将把基于客户机的处理移到新的Web应用服务器上三、OLAP的特点3.1快速性 用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。如果终端用户在30秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速度并不容,因此就更需要
38、一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。 3.2可分析性 OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。 3.3 多维性 多维性是OLAP的关键属性。系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵
39、魂。 3.4信息性 不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、OLAP产品的性能及与数据仓库的结合度等。 四、OLAP的功能4.1、 对数据的多维分析多维观察是实际业务模型固有的要求,OLAP应用能够从一种自然的、合乎人的思维心理的角度来灵活地观察、访问多维数据,为对事情的分析处理提供良好的基础。产生多维数据报表的主要技术就是“旋转”、“切块”、“切片”、“上钻”和“下钻”等。旋转(Pivoting): 即将表格的横、纵坐标交换(x,y)(y,x),通过旋转可以得到不同视角的数据。切片和
40、切块(Slice and Dice): 主要根据维的限定做投影、选择等数据库操作从而获取数据。上钻和下钻(Roll up or Drill down):钻取是用户获得详细数据的手段。它一般能回答为什么的问题。一层一层的钻取使我们能快速而准确的定位到问题所在。钻取的深度与维所划分的层次相对应。4.2、复杂的计算能力对分析过程来说,常需要对数据进行深入的加工,把数据简单陈列给管理人员是不够的。OLAP系统能够提供丰富多样、功能强大的计算工具,但同时方法又简单明了,并且是非过程(non-procedural)的,从而可以及时完成系统的改变访问到即时信息。4.3、时间智能对任何分析应用程序来说,时间都
41、是不可缺少的一个因素。时间只有一维,因为它只能从前往后延伸。OLAP系统能够很好的理解时间的这种序列特性。由于OLAP系统中对时间的智能管理,从而使得不同年份的同期比较和同一年份的期间比较等,成为很容易定义的事情。第三章、数据挖掘技术一、什么是数据挖掘1.1、数据挖掘的历史近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使
42、数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对人们被数据淹没,人们却饥饿于知识的挑战。另一方面计算机技术的另一领域人工智能自1956年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究 热点是机器学习。机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(KDD:Knowledge Discovery in Databases)的产生,
43、因此,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘又称从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持。KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随后在1991年、1993年和1994年都举行KDD 专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算 法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD国际会议发展成为年会。1998 年在美国纽约举行的第四届知识发现与数据 挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司
44、展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。2.2 数据挖掘的概念从1989年到现在,KDD的定义随着人们研究的不断深入也在不断完善,目前比较公认的定义是Fayyad 等给出的:KDD是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。从定义可以看出,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图
45、像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。一般
46、来说在科研领域中称为KDD,而在工程领域则称为数据挖掘。二、数据挖掘的步骤KDD包括以下步骤: 2.1、数据准备 KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上面进行知识挖 掘,需要做数据准备工作,一般包括数据的选择(选择相关的数据)、净化(消除噪音、冗余数据)、推测(推算缺失数据)、转换(离散值 数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等)、数据缩减(减少数据量)。如果KDD的对象是数据仓 库,那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是KDD 的第一个步骤,也是比较重要的一个步骤。数据准
47、备是否做好将影 响到数据挖掘的效率和准确度以及最终模式的有效性。 2.2、数据挖掘 数据挖掘是KDD最关键的步骤,也是技术难点所在。研究KDD的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、 聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式 模型。 2.3、评估、解释模式模型 上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事 实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。 这个步骤还包括把模式以易于理解的方式呈现给用户。 2.4、巩固知识 用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意对知识做一致性检查,解决与以前得到的知识互相冲 突、矛盾的地方,使知识得到巩固。 2.5、运用知识 发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用
链接地址:https://www.31ppt.com/p-2396048.html