面对大数据的数据仓库系统.pptx
《面对大数据的数据仓库系统.pptx》由会员分享,可在线阅读,更多相关《面对大数据的数据仓库系统.pptx(45页珍藏版)》请在三一办公上搜索。
1、,大数据分析原理与实践10、面对大数据的数据仓库系统,数据仓库,数据分析的对象是“数据”因此必须对数据进行有效管理,这便是数据仓库的职责。数据仓库两方面的需求可扩展性和高效率。面对大数据的数据仓库系统对这个需求要求更高,因此分布式数据仓库系统和内存数据仓库系统应运而生。,什么是数据仓库,一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。W.H.Inmon 美国著名信息工程学家、数据仓库之父,什么是数据仓库,一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。W.H.Inmon 美国著名信息工程学家、数据仓库之父,什么是数
2、据仓库,1.面向主题这意味着在数据仓库的设计过程中,数据以所代表的业务内容划分,而不是以应用划分。2.数据集成性数据仓库中的数据采取统一的格式和编码方式。3.稳定的这意味着数据仓库中的数据不进行实时更新。4.与时间相关的这意味数据仓库中的数据组织方式要便于按时间段计算和提取数据。,数据仓库的内涵,1.支持多种数据源数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。2.不只存放数据数据仓库中存放的应该不仅是供分析使用的数据,还应有在一定激发条件下能主动起作用的处理规则、算法、甚至是过程。,3.虚拟数据仓库传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况
3、,建立虚拟数据仓库的解决方案。4.汇总并统一据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。,四个基本功能,1.数据定义这部分主要完成数据仓库的结构和环境的定义。2.数据提取这部分负责从数据源提取数据,并对获得的源数据进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。3.数据管理数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。4.数据应用数据仓库的数据应用除了一般的直接检索性使用外,还应当能够完成比较常用的数据表示和分析,如图表表示、统计分析、结构分析等。,数据仓库系统的体系结构,1.元数据是
4、关于数据的数据,是关于数据和信息资源的描述信息。是数据仓库的核心。,数据仓库系统的体系结构,1.元数据2.源数据是分布在不同应用系统中,存储在不同平台和不同数据库中的大量数据信息。是数据仓库的物质基础。,数据仓库系统的体系结构,1.元数据2.源数据3.数据变换工具为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。包括数据抽取,数据转换,数据装载。,数据仓库系统的体系结构,1.元数据2.源数据3.数据变换工具4.数据仓库源数据经过变换后进入数据仓库。数据仓库以多维方式来组织数据和显示数据。属性维和时间维时数据仓库反映现实世界动态变化的基础,它们的数据组织方式时整个数据仓库
5、的关键。,数据仓库系统的体系结构,1.元数据2.源数据3.数据变换工具4.数据仓库5.数据分析工具数据库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要强大的分析和挖掘工具。,数据仓库系统的体系结构,1.元数据2.源数据3.数据变换工具4.数据仓库5.数据分析工具分析工具主要用于对数据仓库中的数据进行分析和综合。挖掘工具负责从大量数据中发现数据之间的关系,找到可能忽略的信息,预测趋势和行为。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,主题在数据分析或前端展现的某一方
6、面的分析对象,例如分析某年某月某一地区的啤酒销售情况。一个主题在数据仓库中即为一个数据集市,数据集市体现了某一方面的信息,多个数据集市构成了数据仓库。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,确定主题确定主题需要综合考虑。主题的确定必须建立在现有联机事务处理(OLTP)系统的基础上,否则按此主题设计的数据仓库将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将迷失数据提取方向,偏离主题。故需要在OLTP数据和主题之间找到一个”平衡点“。,数据仓库系统的建立,2.选
7、择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,选择合适的软件平台数据库、建模工具、分析工具等。需要考虑的因素系统对数据量、响应时间、分析功能的要求等。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,需要考虑的因素一些公认的标准:数据库对大数据量的支持能力数据库是否支持并行操作能否提供数据仓库的建模工具是否支持对源数据的管理能否提供支持大数据量的数据加载、转换、传输工具能否提供完整的决策工具集能否满足
8、数据仓库中各类用户的需要,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,数据仓库的模型包括逻辑模型和数据模型。什么是逻辑模型数据仓库的逻辑模型是为解决业务需求而定义的数据仓库模型的解决方案。它是指导进行数据存放、数据组织以及如何支持定义的蓝图,用以定义需要追踪和管理的各种重要实体、属性和关系。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,逻辑模型的建立首先,确定建立数据仓
9、库逻辑模型的基本方法。然后,基于主题试图,把主题视图中的数据定义转到逻辑数据模型中。继而识别主题之间的关系,分解多对多的关系。最后,对逻辑模型加以校验,包括利用数据库的范式理论检验逻辑数据模型的自动方法和由用户审核逻辑数据模型的人工方法。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,数据模型建立的步骤删除非战略性数据 数据仓库模型中不需要包含逻辑数据模型中的全部数据项,需要删除某些用于操作处理的数据项。增加时间主键 数据仓库中的数据一定是时间的快照,因此必须增加时间主键。增加派生数
10、据 对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。加入不同级别粒度的汇总数据 粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,粒度粒度级别越低,支持的查询越多;反之,能支持的查询就越少。对数据操作的效率与能得到数据的详细程度是矛盾的。通常,人们希望建成的系统既有较高的效率,又能得到所需的详细资料。实施数据仓库的一个重要原则就是不要试图包括所有详细数据,因为90%的分析需求是在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面对 数据 数据仓库 系统
链接地址:https://www.31ppt.com/p-4830877.html