基于数据仓库的数据挖掘技术.ppt
第 二 章数据仓库原理,本章内容提要:1、介绍数据仓库的结构和技术要求2、介绍数据仓库的数据组织和模型3、介绍元数据,第一节 数据仓库的结构和技术要求一、数据仓库的总体结构(一)数据仓库的概念结构数据仓库的概念结构包含数据源、数据准备区、数据仓库、数据集市以及各种管理工具和应用工具等等。,数据准备区,数据仓库,数据集市,应用工具,用 户,内部数据源,外部数据源,管 理 工 具,(二)数据仓库的层次结构(1)功能层完成数据仓库和数据集市的结构、数据的存取和使用等功能(2)管理层数据管理和元数据管理(3)环境支持层数据传输和数据仓库基础结构,(三)数据仓库的结构模式(1)数据仓库的自顶向下结构(2)数据仓库的自底向上结构比较:指导思想集成的力度数据集市中的数据粒度,(3)企业级数据集市结构(EDMA)通过创建一个共享的结构,EDMA支持由数据集市到数据仓库的开发。EDMA框架包括企业主题域、通用维、度量、业务规则和数据源,所有这些都在逻辑上统一的全局元数据中心库中表示出来。这种框架不是固定不变的,它随数据仓库的开发而不断调整。,数据源,数据源,数据源,数据驻留单元,数据集市,数据集市,数据集市,数据仓库,应用服务器,全局元数据中心库,企业级数据集市结构(EDMA),二、数据集市(一)数据集市(Data Mart)的定义数据集市是针对某个具有战略意义的应用或者具体部门级的应用的数据仓库,它支持用户利用已有的数据进行管理决策。,(二)数据集市的特点规模小,可采用多种方式灵活组织。工作由业务部门主持定义、设计、实施、管理和维护。快速实现,代价较低,投资回收快,风 险小。紧密集成。可升级到数据仓库。,(三)数据集市的类型从属数据集市独立数据集市注:可以从数据仓库的结构模式来理解。,三、数据仓库的技术要求(一)数据管理技术大批量数据管理技术、数据仓库索引和数据监视技术、元数据管理技术、数据压缩技术和复合键码技术等等。,(二)数据存储技术多介质存储设备管理技术、数据存储控制技术、数据并行存储技术、可变长技术、锁切换技术等等。(三)数据仓库接口技术多技术接口技术、多语言接口技术、数据的高效装载技术等等。,第二节 数据仓库的数据组织和模型一、数据仓库的数据组织数据仓库系统通常由数据仓库、管理部分和分析工具三个部分组成。,数据库,数据文件,其它,数据仓库管理工具,抽取/转换/装载,元数据管理,数据建模工具,元数据,综合数据,当前数据,历史数据,用户查询工具,C/S工具,OLAP工具,数据挖掘工具,管理部分,存储部分,应用部分,数据仓库系统,(一)数据仓库管理部分(1)建模工具,主要用于完成定义数据源、数据仓库以及两者相互转换、清理的规则等工作。(2)抽取/转换/装载,主要用于完成获取数据、消除不一致现象和集成数据等工作。,(3)管理工具,主要用于完成数据仓库中数据的维护、安全、备份、恢复、日志等工作。(4)元数据管理,主要用于完成元数据的管理、存储以及对整个数据仓库的检测等工作。,(二)数据仓库存储部分数据仓库中数据的组织通常采用分级的方式来进行的,一般包括早期细节数据、当前细节数据、轻度综合数据、高度综合数据以及元数据等五部分组成。,(三)数据仓库应用部分数据仓库应用部分主要由一些分析工具组成,主要包括检索查询工具、联机分析处理工具和数据挖掘工具等等组成。,数据仓库系统采用典型的客户机/服务器结构形式,其客户端的工作主要包括客户交互、格式化查询、可视化以及报表生成等内容,服务器端完成各种复杂的计算以及其它综合功能。这种方式有助于提高性能和可靠性、降低数据传输量以及保证数据的安全性等方面具有很大的好处。,二、数据仓库的数据模型(一)数据模型设计过程与方法数据模型是对现实世界进行抽象的工具,需要将现实世界的事物及其有关特征转换为信息世界的数据,才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换经历了现实世界、概念世界、逻辑世界和计算机世界等环节。,身 高,张 三,客 户,客户与产品,特 性,个 体,整 体,整体间联系,属 性,实 体,同质总体,异质总体,字 段,记 录,表文件,数据库,现实世界,概念世界,逻辑世界,计算机世界,信息包图法,物理数据模型法,星型图法,概念模型,逻辑模型,物理模型,面向用户的需求,具体的技术细节,细化,作为数据仓库设计的模型,除了要有描述概念世界的概念模型、描述逻辑世界的逻辑模型和描述计算机世界的物理模型以外,还有元数据模型和数据粒度模型。,现实世界,概念模型,逻辑模型,物理模型,数据仓库,元数据模型,数据粒度模型,(二)概念模型设计(信息包图)在需求分析阶段,通过与用户的交流,明确用户的需求,并将这些需求抽象为信息结构(即概念模型)的过程被称为概念模型设计。,因为数据仓库具有多维性,即其维度多在三维或者三维以上,数据呈现难以直观化,所以在此可以采用一种称为信息包图的方法在平面上将多维空间展开,即用二维表格来传递决策者分析处理的需求,来反映数据仓库的多维性。信息包图是一种公共的、一致的和紧凑的概念模型设计工具,可以反映用户需求的集中范围,能在适当的时间内将有效的信息传递给希望获取它们的人。,信息包图由名称、维度、类别、层次和度量等五部分组成。1、名称:名称表达了信息包图所描述的主要内容。它书写在信息包图的二维表格的上方。2、维度:维度是一个物理特性,也是一个访问和表达数据的基本途径,还是一个观察和浏览数据的角度。它书写在信息包图的二维表格的第一行的每栏目中。,3、类别:类别是指按照一定的标准(称之为类属性)对维度全集的划分。一个维度的各个类别在信息包图中用二维表格中的某列来表示。4、层次:层次是指在一个维度内为表达细节程度不同的数据而按照次序划分的多个描 述方面。一个维度的所有层次组成在信息包图中用二维表格中的某列来表示。,5、度量:度量是多维空间中衡量决策人员最为关心的信息的一种尺度,是用户访问数据仓库的关键所在。它填在信息包图里的二维表格的最下面的一框中。,信息包图的设计目标是要满足决策者的信息需求,因此利用信息包图法来设计数据仓库的概念模型的时候,除了要确定信息包图的各个组成部分的内容之外,还需要重视决策者的信息需求,以便使得最终所设计出的数据仓库的概念模型具有很大的适用性。,(三)逻辑模型设计(星型图)数据仓库的逻辑模型设计是指对主题的多维模式进行描述,它是数据仓库的数据模型设计中的重要一环。最便于转换信息包图和执行分析处理的逻辑模型设计工具是星型图。原因有二:1、一一对应。2、简明易懂。,与信息包图相对应,星型图由五类逻辑实体组成:度量逻辑实体、维度逻辑实体、层次逻辑实体、详细信息逻辑实体和类别逻辑实体。下面具体叙述组成星型图的各个逻辑实体的含义:1、度量逻辑实体:它是信息包图中的度量对象在星型图中的实现形式。度量逻辑实体包含了一系列相关的事实,是用户最关心的逻辑实体和分析处理活动的中心。用矩形框来表示。,2、维度逻辑实体:它是信息包图中的维度对象在星型图中的实现形式。维度逻辑实体的作用是对度量逻辑实体的数据进行过滤和聚合,使得返回的信息简单明了,从而帮助数据仓库的用户轻松地得到分析处理的结果。用菱形框来表示。3、层次逻辑实体和详细信息逻辑实体:将信息包图中的层次对象转换为星型图中的层次逻辑实体,特别的是,对于一个维度中最底层次的对象,可以转化成详细信息,逻辑实体。用六边形框来表示层次逻辑实体,用八边形框来表示详细信息逻辑实体。4、类别逻辑实体:它是信息包图中的类别对象在星型图中的实现形式。类别逻辑实体的作用是在对维全集进行分类的基础上,归纳总结出类内的共同点和类间的差异点。用椭圆形框来表示。,(四)物理模型设计(物理数据模型)与星型图相对应,物理数据模型由五类表组成:事实表、维表、层次表、详细信息表和类别表,它们分别对应于度量逻辑实体、维度逻辑实体、层次逻辑实体、详细信息逻辑实体和类别逻辑实体。1、事实表:事实表由两部分组成,一部分为维表的外键所共同组成的主键,另一部分为反映度量逻辑实体内容的数据列。它存储的数据量相对较大,并且增加的速度也较快。,2、维表:维表由维度逻辑实体代码、名称和其它信息组成。它存储的数据量相对较小,并且增加的速度也较慢。3、层次表和详细信息表:层次表和详细信息表分别存储有层次逻辑实体和详细信息逻辑实体的代码、名称和其它信息。它们存储的数据量和增加的速度介于事实表和维表之间。,4、类别表:类别表存放着类别逻辑实体的代码、名称和其它描述信息。它存储的数据量和增加的速度基本上与层次表类似。因为数据仓库中的数据是几乎不更新的,并且设计的最终目标是用来访问的,所以可做非规范化处理,从而提高数据分析处理的效率,改善数据仓库的性能。,友情提示:因为事实表数据量巨大,而大数据量的表在备份、恢复、处理以及用户查询等方面需要很多的时间,所以在实践中,可以利用减少列的数量,降低每列的大小,把历史数据归档到单独的事实表中等多种方法来降低事实表的大小。另外,在事实表中还要解决数据的精度和粒度的问题。,设计维度表的主要目的是把参考事实表的数据放置在一个单独的表中。最常用的维度表数据应该参考事实表,而不应该是通过其它维度表间接参考事实表。这种方法可以实现最小化的连接数量,提高系统的性能。,三、数据仓库的性能优化因为数据仓库的数据量比较大,分析处理时涉及的数据范围比较广,所以要求优化数据仓库的性能,在此,输入/输出是关键。,依据数据仓库的数据量大并且操作单一的特点,可以采取如下技术来优化:(1)合并表(2)建立数据序列(3)引入冗余(4)分割表(5)生成导出数据(6)建立广义索引,第三节 元数据 一、元数据的定义与作用(一)元数据的定义元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目的是提供数据资源的全面指南,其范围是从现实世界的概念上的一般概括到详细的物理说明。,元数据在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各个对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。,(二)元数据的作用元数据的主要目的是为了计算机系统的结构、开发过程和使用方法提供一致的文档,帮助理解系统,并且为开发和利用系统的所有“角色”提供更加有效的支持,如终端用户、系统管理者、应用程序开发人员等等。,在数据仓库中,生成和管理元数据主要有两个目的:1、减轻数据仓库的管理工作量(1)实现管理工作的自动化。(2)支持系统的集成。(3)实施复杂的安全机制。(4)支持新的应用和业务过程建模分析与 设计。(5)改善系统的灵活性和软件模块的可重 用性。,2、改善信息抽取(1)提高数据质量。(2)提高查询、检索以及结果的质量。(3)改善数据分析。上述目标一般可以通过两种方式来支持:(1)被动的方式。(2)主动的方式。,二、元数据的分类(一)按照作用对象来划分1、关于基本数据的元数据2、关于数据处理的元数据3、关于企业组织结构的元数据(二)按照抽象级别来划分1、概念级元数据2、逻辑级元数据3、物理级元数据,(三)按照服务对象来划分1、业务元数据企业概念模型;多维数据模型;依赖关系描述;导航帮助;基于业务术语的查询;语义关联和概念层次等等。2、技术元数据关于数据仓库系统的体系结构和方案的描述信息;关于数据仓库系统的实现级上的映射关系的描述信息;抽取调度的,元数据;时间同步的元数据;用户权限的信息等等。(四)按照来源来划分1、工具产生的元数据2、源提供的元数据3、企业模型4、系统导入的元数据5、特定的用户产生的元数据,(五)从目的来划分1、用于信息的元数据2、用于控制的元数据(六)从产生/使用的时间来划分1、根据获取或者生成的时间来划分:设计时收集的元数据构建时获取的元数据运行时生成的元数据,2、根据使用的时间来划分设计时使用的元数据构建时使用的元数据运行时使用的元数据三、元数据的标准化形势所迫,元数据联盟(MDC)提出了开放信息模型(OIM),它提供了一个表示性的软件工程标准。,四、数据粒度数据粒度是指数据仓库中小数据单元的详细程度和级别。数据粒度的划分和确定将直接影响数据仓库中数据的质和量,因此需要综合考虑。(1)数据粒度的划分数据仓库中将来使用的数据行数直接存取存储设备数,(2)数据粒度的确定要接受的分析类型可接受的数据最低粒度能够存储的数据量,