数据仓库建模.ppt
《数据仓库建模.ppt》由会员分享,可在线阅读,更多相关《数据仓库建模.ppt(103页珍藏版)》请在三一办公上搜索。
1、数据仓库建模,Confidential 内部资料,注意保密,税务行业服务部高级顾问 于鹏报告日期:2008年4月24日,数据仓库建模概述数据仓库建模类型数据仓库建模过程数据仓库建模工具,内容,数据仓库建模概述,引言数据模型、数据仓库模型数据建模及模型架构数据仓库建模特点数据模型作用,数据仓库解决方案,数据仓库数据处理流程,税务逻辑数据模型面向关键主题域3NF,数据模型(Data Model),数据是所有业务活动、资源以及企业结果的记录。数据模型是一种运用一般业务知识来表现业务需求的一种数据结构规则数据模型通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。,数据仓库模
2、型(Data Warehouse Model),数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型数据仓库模型起到了指导或计划数据仓库实现的作用。在真正的实现开始之前,联合每个业务领域的数据模型可以帮助确保其结果是有效的数据仓库,并且可以帮助减少实现的成本。,不同层次模型间的关系,数据建模(Data Modeling),建模是将实际问题简化、抽象为合理的数学结构的过程建模是一个系统工程,不是几天或者是几周就能够完成的,任何一个模块都可能需要几个月的时间来建设建模的方法和技巧很多,都是为业务需求服务的业务+技术才能完成建模过程,数据仓库数据模型架构,业务数据存储区,数据模型在
3、这里保证了数据的一致性,内部管理的元数据,数据模型帮助进行统一的元数据的管理,系统记录域的汇总,数据模型保证了分析域的主题分析的性能,满足了部分的报表查询。,具体的主题业务分析,数据模型可以单独存储在相应的数据集市中。,可选项,这部分数据模型主要用于相应前端的反馈数据,数据仓库可以视业务的需要设置这一区域,数据仓库建模特点,数据仓库是面向终端用户的在数据库操作中,用户不直接与数据库进行交互。他们使用应用程序,这些应用程序具有预先定义的或固定的查询。数据仓库的数据库特别是数据集市与终端用户非常接近,它通常不具有固定的查询。因此,它必须更易于理解。数据仓库是为数据分析而设计的终端用户几乎直接处理数
4、据,而且没有固定的工作流。终端用户对在仓库中记录数据不感兴趣,但他们需要从中获得信息。他们向仓库提出问题,通过所提取的信息测试并验证假设,重新构造事件链,分析那些事件以检测可能的模式或季节性的趋势,以及为将来做出推断和设计终端用户的需求可能是模糊或不完整的这些不完整的需求需要灵活的建模过程和适合于进化开发的技术。灵活的进化软件开发的风险是不连贯和不一致的终端结果。在开发数据模型时,肯定需要注意这些问题。,数据仓库建模特点(续),数据仓库是集成的数据库集合,而非单个数据库应将它构想为单个信息源,用于整个企业中所有的决策支持处理和所有的信息应用程序。数据仓库是一个“有机”物,如果在开始时还不够大,
5、就还会趋于变大。数据仓库包含属于不同信息主题领域的数据这些主题领域可以是将数据仓库逻辑划分成几个不同(概念的,甚至或者是物理的)数据库的基础。数据仓库还可以包含不同类别的数据。数据仓库通常包含历史数据,而不是日常操作数据的快照必要的遗留数据库可能不可用,或者可能无法在足够细的层次上捕获,除非花费金钱并付出努力来改变遗留输入环境。因此,数据仓库启用项目通常涉及业务过程和源应用程序的重组,数据模型的作用,进行全面的业务梳理,改进业务流程在业务模型建设的阶段,能够帮助我们对本单位的业务进行全面的梳理。同时,帮助进一步的改进业务流程,提高业务效率。建立全方位的数据视角,消灭信息孤岛和数据差异能够为企业
6、提供一个整体的数据视角,不再是各个部门只是关注自己的数据,而且通过模型的建设,勾勒出了部门之间内在的联系,帮助消灭各个部门之间的信息孤岛的问题,更为重要的是,通过数据模型的建设,能够保证整个企业的数据的一致性,各个部门之间数据的差异将会得到有效解决。解决业务的变动和数据仓库的灵活性能够很好的分离出底层技术的实现和上层业务的展现。当上层业务发生变化时,通过数据模型,底层的技术实现可以非常轻松的完成业务的变动。帮助数据仓库系统本身的建设开发人员和业务人员能够很容易的达成系统建设范围的界定,以及长期目标的规划,从而能够使整个项目组明确当前的任务,加快整个系统建设的速度。,数据模型的必要性与重要性,数
7、据仓库的基础,建设的导航图,数据整合的依据,消除数据的差异及冗余,支撑业务及数据的扩展,数据模型是数据仓库建设的基础,一个完整、灵活、稳定的数据模型对于数据仓库项目的成功起着重要的作用。,数据模型是整个系统建设过程的导航图。通过数据模型可以清楚地表达企业内部各种业务主体之间的相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于系统的统一完整的视图。,数据模型是整合各种数据源的重要手段,通过数据模型,可以建立起各个业务系统与数据仓库之间的映射关系,实现源数据的有效采集,通过数据模型的建立,可以排除数据描述的不一致性。如:同名异义、同物异名,等等。可以消除数据仓库中的冗余数据。数据模型
8、的建立可以使开发人员清楚地了解数据之间的关系,以及数据的作用。,由于数据模型对现有的信息以及信息之间的关系从逻辑层进行了全面的描述,当未来业务发生变化或系统需求发生变化时,可以很容易地实现系统的扩展。数据结构的变化不会偏离原有的设计思想。,总结,什么是数据模型、数据仓库模型数据建模的定义和数据模型架构数据仓库建模的特点数据模型的作用,数据仓库建模概述数据仓库建模类型数据仓库建模过程数据仓库建模工具,内容,数据仓库建模类型,常用的数据仓库架构类型基于不同数据仓库架构下的数据仓库建模数据仓库模型分类,常用的数据仓库架构类型,三范式的原子层数据集市(Bill Inmon)星型结构的原子层HOLAP(
9、Kimball)三范式的原子层ROLAP,三范式的原子层数据集市,三范式原子层数据集市特点,通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,例如客户、供应商、产品等等。每个主题区域仅仅包含该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。换言之,某个特定数据集市中的所有数据都应该来自于面向主题的数据存储。集中式的体系结构持续下去将提供更强的一致性和灵活性,并且从长远来看将真正节省资源和工作。三范式的原子层给建立OLAP带来一定的复杂性,但是对于建立更复杂的应用,如挖掘仓库、探索仓库提供了更好的支持。这类架构的建设周期比较
10、长,相应的成本也比较高。,星型结构的原子层HOLAP,星型结构的原子层HOLAP特点,实现方式:首先在数据准备区中建立一致性维度、建立一致性事实的计算方法;其次在一致性维度、一致性事实的基础上逐步建立数据集市。每次增加数据集市,都会在数据准备区整合一致性维度,并将整合好的一致性维度同步更新到所有的数据集市。这样,建立的所有数据集市合在一起就是一个整合好的数据仓库因为该架构可以逐步建立的特点,它的开发周期比其他架构方式的开发周期要短,相应的成本也要低在星型结构的原子层上可以直接建立聚集,也可以建立HOLAP,三范式原子层ROLAP,该数据仓库架构也称为集中式架构(Centralized Arch
11、itecture),思路是在三范式的原子层上直接建立ROLAP。在三范式的原子层上定义ROLAP比在星型结构的原子层上定义ROLAP要复杂很多。采用这种架构需要在定义ROLAP是多下些功夫,而且ROLAP的元数据不一定是通用的格式,所以对ROLAP做展现很可能会受到工具的局限。这类架构和第一类很相似,只是少了原子层上的数据集市,选择合适的数据仓库架构,实际上,方法的选择取决于项目的主要商业驱动。如果某个企业或者组织数据管理不理想,或者希望为今后打下良好的基础,那么第一种或者第三种方法就更好一些。如果迫切需要给用户提供信息,那么第二种方法将满足该需求。而一旦满足了迫切的信息需求后,就应该考虑包含
12、独立数据仓库的数据体系结构的转换计划。,总结,三种常用的数据仓库架构各自的特点及优缺点,基于不同数据仓库架构下的数据仓库建模,三范式建模(Inmon)星型结构建模(Kimball)数据准备区建模,三范式建模(Inmon),高层建模(ERD,实体关系层)中间层建模(DIS,数据项集)底层模型(物理模型),高层建模,实体和关系实体:人,地点,物,事件以及任何包含业务活动数据的概念。关系:两实体间关联性的表示集成范围决定哪些实体属于模型的范围,由系统的建模者、管理人员和最终用户共同决定集成范围企业ERD由很多反映了整个企业不同人员的不同观点的单个的ERD合成的,中间层建模,高层模型中的每个实体,都要
13、建一个中间层模型四个基本构造初始数据组二次数据组连接件,表明主要主题域间的数据关系数据“类型”,中间层建模示例金融机构账户,底层模型,根据中间层模型创建考虑性能特性数据粒度与分割归并表选择冗余进一步分离数据导出数据预格式化,预分配人工关系预连接表,三范式建模优缺点,优点,从关系型数据库的角度出发,结合了业务系统的数据模型,能够比较方便的实现数据仓库的建模。,缺点,建模方法限定在关系型数据库之上,在某些时候反而限制了整个数据仓库模型的灵活性,性能等,特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时,需要进行一定的变通才能满足相应的需求。,星型结构建模(Kimball),核心:所分析的内容
14、以及用于分析内容的评估标准测度、维和事实测度,即评估标准,是事实的数字属性维,即所分析的内容,是事实的描述属性事实,一组维度及其相关的测度共同组成,星型结构示例,星型结构建模优缺点,优点,性能优势维度建模非常直观,紧紧围绕着业务模型,可以直观的反映出业务模型中的业务问题。,缺点,数据处理工作较大较多的数据冗余不能保证数据来源的一致性和准确性,数据准备区建模,建模的方式不拘一格,以能满足需要为目的,建好的表不对用户提供接口,多为临时表。主要使用人员为ETL工程师,数据仓库模型分类,OLAP模型(多维建模)星型/雪花结构模型(分析模型)底层模型(原子模型),总结,三种常用的建模方法实现过程和优缺点
15、数据仓库模型分类,数据仓库建模概述数据仓库建模类型数据仓库建模过程数据仓库建模工具,内容,数据仓库建模过程,底层模型设计分析模型设计OLAP模型设计,底层模型设计,数据仓库建模方法论底层模型设计过程,数据仓库建模方法论,数据仓库三级数据模型数据仓库建模方法论数据仓库概念模型建模方法数据仓库数据模型生命周期,数据仓库三级数据模型,将高级的业务概念以数据实体/属性的形态在逻辑层面上更详细的表达出来,逻辑模型对每个概念模型中所包含的具体实体和实体的属性进行定义,逻辑模型通过主题域中的实体和属性来反映,即业务模型,可以清晰的描述业务逻辑及其之间的关系,为逻辑模型的设计奠定基础,概念模型应该能够涵盖项目
16、所定义的目标范围内的所有数据,概念模型通过主题域的形式反映。,在逻辑模型的基础上,根据具体项目的软硬件环境、数据状况等进行优化和设置后的模型,是最终定型的物理模型。,概念模型,逻辑模型,物理模型,数据仓库概念模型建模方法,数据源分析,了解每个数据源的建设目标和定位,关键的业务流程及包含的数据元素;数据实体之间的关联关系;分析样本数据,验证业务规则;对数据内容和业务概念模型进行映射,验证概念模型。,了解企业经营管理中的主要活动,建立其活动列表,描述业务规则;寻找活动中的重要元素并定义;访谈业务部门,与相关人员验证这些活动;归纳初步的业务概念,产生业务概念的清单;定义概念并将他们关联在一起;分析业
17、务需求,验证业务概念模型。,自顶向下,自底向上,数据仓库数据模型生命周期,总结,数据仓库三级数据模型数据仓库建模方法论数据仓库概念模型建模方法数据仓库数据模型生命周期,底层模型设计,数据仓库建模方法论底层模型设计过程,底层模型的特征,是分析模型的数据源基于三范式构建建设过程需要相关业务人员全程参与分析设计工作量非常大需要对整个业务内容重新抽象和模型化为满足业务需求(非交易)而设计不是为解决所有的业务问题而设计的,能够满足最需要最常用的80%以上的需求就非常不错了是一个迭代开发过程,底层模型设计步骤,需要非常清楚的了解整个业务领域的时间、地域、对象、事件通过研究行业规范、学习行业先进经验、走访管
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 建模

链接地址:https://www.31ppt.com/p-6296233.html