元数据管理与CWM标准解析课件.ppt
元数据管理与CWM标准,中国移动业务支撑系统部2008-04,提纲,元数据管理基本概念元数据定义元数据管理CWM元数据标准CWM标准概述对象模型层基础层资源层分析层管理层,元数据定义,“关于数据的数据”比一般意义的数据范畴更加广泛不仅表示数据的类型、名称、值等信息提供数据的上下文描述信息(比如数据的所属区域、取值范围、数据间的关系、业务规则、数据来源等等),元数据定义,经营分析系统关心的元数据,业务元数据业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,直接供业务分析人员使用 业务元数据使经营分析系统使用人员能够更好理解、使用数据仓库,成为经营分析系统使用人员在数据仓库中的业务向导,经营分析系统关心的元数据,技术元数据包含关于经营分析系统数据技术层面的信息数据源元数据ETL元数据数据仓库元数据数据集市元数据OLAP SERVER元数据前端展现元数据其它类型元数据(挖掘模型,数据质量分析结果等),经营分析系统关心的元数据,管理元数据主要是指经营分析日常建设过程中,涉及开发、运维等管理流程的基本信息。,提纲,元数据管理基本概念元数据定义元数据管理CWM元数据标准CWM标准概述对象模型层基础层资源层分析层管理层,元数据管理,管理商业智能系统的元数据贯穿商业智能系统的各个环节系统的各个处理单元由元数据驱动,管理元数据的意义,有哪些数据?它们在哪里用?它的业务定义是什么?这个数据还叫什么?它与其他数据有什么关系?谁用这个数据?为什么我们要用它?最近修改是什么时候?这些数据准确、可靠吗?,管理元数据的意义,理解企业内部的信息资源动态的数据字典数据的浏览和归纳数据在企业内部横向与纵向传递保持整个企业的标准(保证企业内部统一的商业定义和商业规则)数据生命周期的管理,元数据管理的几个概念,元模型(meta model)元数据库(metadata repository)元数据管理工具,元模型,关于元数据的“元数据”MDIS(Meta Data Interchange Specification)元数据联盟发布的元数据交换规范OIM(Open Information Model)CA和微软的元数据标准OIM组织已经解散CWM(Common Warehouse Metamodel)OMG组织制定的标准得到IBM,NCR,SAS,Hyperion等公司支持利用XMI文件进行交换,元数据库,元数据库就是一个逻辑上的统一存储元数据的地点元数据存储常见的形式分散存储统一存储,提供不同接口统一存储,统一接口,不同系统各自提供元数据接口,实现复杂元数据不统一易成为”蜘蛛网”,中央元数据存储,所有存取必须通过中央存储元数据交换不方便中央元数据存储必须对每一个系统有转换接口,基于标准的中央元数据管理,有利于元数据的交换屏蔽系统内部变化中央元数据只需要统一接口,元数据管理工具,元数据浏览、展示和管理的平台知名的元数据管理工具包括:Meta CenterMeta MatrixMeta IntegrationDB2,Teradata,Oracle等数据仓库中的元数据管理模块,提纲,元数据管理基本概念元数据定义元数据管理CWM元数据标准CWM标准概述对象模型层基础层资源层分析层管理层,CWM标准背景,OMG是一个拥有500多会员的国际标准化组织,著名的CORBA标准即出自该组织。公共仓库元模型(Common Warehouse Metamodel)的主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。,CWM标准的意义,在形成标准以前,要进行集成的情况如下图所示:,CWM标准的意义,在形成标准以后的情况如下图所示:,CWM的发展状况,成为OMG提出的基于模型驱动的体系结构(MDA)的核心之一(其它是MOF和UML),CWM标准概述,CWM标准是基于以下工业标准制定的:UML:它对CWM模型进行建模。MOF(元对象设施):为CWM提供元模型的体系结构和元模型语言的语义;MOF反射接口为存取CWM元数据提供通用的API接口;MOF到IDL的映射为存储CWM元数据提供了一种产生CWM IDL 接口的机制。XMI(XML元数据交换):它可以使元数据以XML文件流的方式进行交换。CORBA IDL(CORBA 接口定义语言),OMG元数据体系结构,OMG元数据体系结构实例,PRODUCT表和它的记录,M0层,OMG元数据体系结构实例,M1层,Product表元数据,OMG元数据体系结构实例,M2层,简单关系型表元模型,CWM元数据存储和接口实现,CWM的发展状况,绝大多数数据仓库和元数据管理工具已经支持CWM,或已经宣布在下一版本的产品中支持CWM。已经被JAVA标准化组织着手扩展到J2EE体系结构当中,形成JMI(JAVA Metadata Interchange)规范、用于OLAP分析的JOLAP规范和用于数据挖掘的JDMAPI规范。,CWM的合作伙伴,IBMUnisysNCRHyperionOracleUBSGenesisDimension EDI,CWM的支持者,DeereSUNHPData AccessInlineAonixHitachiSASMeta IntegrationAdaptive,ETL产品,OLAP产品,数据仓库元数据管理产品,提纲,元数据管理基本概念元数据定义元数据管理CWM元数据标准CWM标准概述对象模型层基础层资源层分析层管理层,CWM标准包及其分层,对象模型层(Object Model),CWM对象模型提供了描述其他所有包中元数据模型的类的基本结构和相应的类型属性定义基本元模型的概念,关系和约束包括4个基本包:核心包(Core)行为包(Behavioral)关系包(Relationship)实例包(Instance),核心包(Core),包含所有的其他CWM包使用的基本类和关联不依赖于其他任何包,行为包(Behavioral),描述其他CWM包中类的行为特征,提供一个记录特定行为请求的基础 包括操作,方法,接口,事件等,关系包(Relationship),描述CWM对象之间如何互相联系定义了两种类型的关系泛化(Generalization)关联(Association)泛化是具有普遍性的对象和特定对象的关联,层次化的结构关联定义两个或多个类元之间的特定关系,实例包(Instance),提供了在CWM交换中包含带值元数据的基础结构,提纲,元数据管理基本概念元数据定义元数据管理CWM元数据标准CWM标准概述对象模型层基础层资源层分析层管理层,基础层(Foundation),基础层(Foundation),提供为驻留在更高层次的其他包提供CWM特定的服务的包包括6个包业务信息包(Business Information)数据类型包(Data Types)表达式包(Expression)键和索引包(keys and indexes)软件部署包(Software Deployment)类型映射包(Type Mapping),业务信息包(Business Information),业务信息元模型给所有CWM包提供了面向业务的信息这里面向业务指的是支持数据仓库和商业智能负责单位如何联络离线文档,数据类型包(Data Types),提供了支持定义基本数据类型和构造数据类型所需的基本结构CWM模型本身没有定义很多的现有类型,但是通过数据类型包可以建立目前现有的大多数系统的数据类型,表达式包(Expression),表达式包提供了统一的表达式树的格式,可以为转换包等进行服务。统一的表达式格式给ETL流程分析或其他的元数据分析提供了基础,键和索引包(keys and indexes),键和索引包提供了统一的对元素进行标识、排序和检索所需的方法,可以为其它包所共享索引是按顺序安排的元素列表键是一个或多个值的集合,用来确定数据库中的某项记录,类型映射包(Type Mapping),定义了作为数据类型集合的类型系统的概念,还支持类型系统间数据类型的转换主要是为满足不同系统之间数据类型差异进行的映射可以进行多对多映射,软件部署包(Software Deployment),为了管理和记录各个软件系统的分布和连接情况,用于记录如何使用数据仓库中的软件和硬件捕捉尽可能多的、其他CWM包需要的可操作的配置信息,而不是完全的通用模型,提纲,元数据管理基本概念元数据定义元数据管理CWM元数据标准CWM标准概述对象模型层基础层资源层分析层管理层,资源层,资源层(Resource),描述以CWM为中介的交换中既可作为源又可作为目标的数据资源的结构包括5个包:对象包(Object Model)关系型包(Relational)记录包(Record)多维包(Multidimensional)XML包(XML),对象包(Object Model),CWM已经在对象模型层包含了一个非常好的对象模型对象模型层的核心包,行为包,关系包和实例包都可以直接建立面向对象的数据资源描述也用于描述面向对象数据库的结构和面向对象应用组件的结构如果遇到不能处理的特征和功能时,可以定义扩展包来增加处理能力,关系型包(Relational),描述关系数据库的模式支持遵从SQL99标准及其面向对象扩展的关系数据库描述CWM中最大的包,涉及的类总共68个ContainersTables,Columns,and Data TypesStructured Types and Object ExtensionsKeysIndexTriggersProceduresInstances,列及数据类型应用举例,记录包(Record),提供了用于描述各种面向记录的数据结构的基础结构包括记录的结构、记录的实例、记录文件等,多维包(Multidimensional),提供关于多维数据库的通用描述包括多维模型中的维、维的层次,维属性、维成员和维度量等数据结构,以及钻取等操作。,XML包(XML),定义了 如何在CWM中使用XML文档描述数据仓库中的数据源XML包 包含用于描述XML数据源的通用类和关联基于XML 1.0,提纲,元数据管理基本概念元数据定义元数据管理CWM元数据标准CWM标准概述对象模型层基础层资源层分析层管理层,分析层,转换包,转换包包括了所有BI中涉及到ETL过程的元模型object-orientedRelational record multidimensionalXML OLAP data mining.,转换包,转换包提供了描述ETL工具和ETL行为的通用的元数据,尤其是:将ETL过程与数据源和数据目标进行关联。数据源和数据目标可以是任何类型(基于关系或面向对象),任何粒度(类、属性、表、列),并且可以是永久的或易失的。允许将ETL过程进行分组,并行执行以提高执行效率。包括ETL过程的加载情况,行为和步骤等等。,OLAP包,定义了描述OLAP系统通用概念的元数据,提供了将OLAP中的元数据内容映射到具体的物理数据源中的方法 将OLAP模型映射到CWM数据源的包中,如 CWM 关系型包(ROLAP)或 多维包(MOLAP).,数据挖掘包,为数据挖掘模型构建较为通用的表示方法除数据挖掘计划和模型之外其他一些跨挖掘模型或者挖掘工具的实体(例如分类矩阵)以及它们之间的关系和对技术元数据的映射都包括在数据挖掘元数据的范围之内 经营分析系统中有关数据挖掘的元数据分为七个领域:核心挖掘元数据、和聚类相关的元数据,关联规则元数据,和监督相关元数据,和分类相关元数据,和近似估计相关的元数据与属性重要性的元数据,信息可视化包,信息可视化元模型定义了支持信息发布和信息可视化的元数据CWM信息可视化元模型定义了通用的容器,为实现更加复杂的可视化机制提供支持,业务术语包,数据仓库的用户需要很好的理解仓库中包含的信息,以及仓库提供的工具。比如信息的意义,信息来自于哪个数据源,有哪些工具可以管理及展示这些信息。业务术语包提供了能表达业务元数据的实体和关系。,提纲,元数据管理基本概念元数据定义元数据管理CWM元数据标准CWM标准概述对象模型层基础层资源层分析层管理层,管理层,仓库过程,数据仓库过程主题描述了数据仓库的信息流。信息流被用来表示转换包中描述的ETL过程。一个仓库过程对象将一个ETL转换过程与一个事件集联系起来,事件集被用来触发转换的执行。,仓库操作(1),仓库操作主题包含了描述数据仓库处理中的日常操作的实体和关系,记录了数据仓库处理中的三类重要事件转换执行事件度量事件请求更改事件,仓库操作(2),转换执行(Transformation Executions)记录了最近的ETL过程执行的细节信息,标识了ETL过程开始和结束的时间等。这些信息可以用来确定数据仓库中一些与过程执行状态相关的特定信息。,仓库操作(3),度量(Measurements)度量事件能够为模型元素维护一些度量的标准。比如它们可以用于保存一个表的真实大小、估计大小和计划的大小。可以协助预测系统的规模并作出决策。,仓库操作(4),请求更改(Change Requests)请求更改事件使得影响模型元素的改变能够被详细记录,也可以被用于维护更改的历史记录。一般会记录哪些请求被执行或拒绝,小结,元数据,经营分析系统关心的元数据元数据管理的意义CWM标准对象模型层,基础层,资源层,分析层,管理层,小结,推荐书籍:公共仓库元模型开发指南公共仓库元模型数据仓库集成标准导论元数据仓储的构建与管理,谢 谢!,