欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    数据仓库的数据存储与处理.ppt

    • 资源ID:5985376       资源大小:226.50KB        全文页数:37页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库的数据存储与处理.ppt

    2023/9/11,数据仓库与数据挖掘,1,第2章 数据仓库的数据存储与处理,2023/9/11,数据仓库与数据挖掘,2,数据存储与数据处理是数据仓库系统实施的三个关键环节中的中心环节。数据存储结构设计和数据处理技术的研究在数据仓库理论中占有重要地位。,第2章 数据仓库的数据存储 与处理,2023/9/11,数据仓库与数据挖掘,3,2.1 数据仓库的数据结构,三层数据结构,2023/9/11,数据仓库与数据挖掘,4,2.1 数据仓库的数据结构,各个组成部分的含义:操作性数据:来源于业务系统中的数据。调和数据:存储在企业级数据仓库中的数据。导出数据:从数据仓库中导出并存储在各个数据集市中的数据。企业数据模型:企业组织所需数据的整体轮廓。元数据:有关数据的说明。,2023/9/11,数据仓库与数据挖掘,5,2.2 数据仓库的数据特征,状态数据与事件数据 当前数据与周期数据 数据仓库中的元数据,2023/9/11,数据仓库与数据挖掘,6,状态数据与事件数据:状态数据:描述对象状态的数据。事件数据:描述对象发生的事件的数据。数据库和数据仓库中存储的基本数据类型是状态数据。但是数据仓库中往往还存储事务或事件数据的汇总。,2023/9/11,数据仓库与数据挖掘,7,当前数据与周期数据:当前数据(业务系统):保留的最新数据。周期数据(数据仓库):保留的历史数据。,2023/9/11,数据仓库与数据挖掘,8,数据仓库中的元数据:数据仓库中的另一特征。,2023/9/11,数据仓库与数据挖掘,9,2.3 数据仓库的数据ETL过程,ETL概念ETL过程前后数据的特征 数据的ETL过程描述 抽取(Capture/Extract)清洗(Scrub/Cleanse)转换(Transform)加载和索引(Load/Index),2023/9/11,数据仓库与数据挖掘,10,ETL的概念:,数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、装载与索引(Load and Index)等数据调和工作。,2023/9/11,数据仓库与数据挖掘,11,数据的ETL过程描述:,2023/9/11,数据仓库与数据挖掘,12,数据抽取:,几点要求:数据源命名的透明度。源系统实施的业务规则的完整性和准确性。数据格式的一致性。SELECTINTO、存储过程等方法。,2023/9/11,数据仓库与数据挖掘,13,数据清洗:,原因:操作型业务系统中的数据质量很差。错误拼写的名字和地址。不可能的或错误的出生日期。不匹配的地址和电话区号。缺失的数据。重复的数据。,2023/9/11,数据仓库与数据挖掘,14,数据转换:,在ETL过程中处于中心位置,又很麻烦。将经过清洗后的数据(源系统)转换成装载对象(目标系统)的格式。,2023/9/11,数据仓库与数据挖掘,15,数据加载和索引:,将整理好的数据添加到数据仓库中。(方法?)建立索引。,2023/9/11,数据仓库与数据挖掘,16,数据ETL过程的实施要点:,ETL过程是一个数据流动的过程,中间的“T”(转换)是关键;ETL工具的选择非常重要,运用合适的工具会事半功倍;如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。,2023/9/11,数据仓库与数据挖掘,17,2.4 多维数据模型和星模式,多维数据模型及其相关概念 多维数据模型的物理实现 多维建模技术简介 一个星模式的例子,2023/9/11,数据仓库与数据挖掘,18,多维数据模型及其相关概念,有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等 关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级,2023/9/11,数据仓库与数据挖掘,19,有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等,2023/9/11,数据仓库与数据挖掘,20,维的类别即维的分层。可分为:简单层次复杂层次,维类别,2023/9/11,数据仓库与数据挖掘,21,复杂层次,2023/9/11,数据仓库与数据挖掘,22,维属性,维的一个取值。,2023/9/11,数据仓库与数据挖掘,23,度量即度量值,是多维数据空间中的单元格,用以存放数据,也叫事实。,度量,2023/9/11,数据仓库与数据挖掘,24,粒度与分割,数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节级)分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描。,2023/9/11,数据仓库与数据挖掘,25,关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级,2023/9/11,数据仓库与数据挖掘,26,一个典型的数据仓库的数据组织结构图:,数据仓库层,后备数据,后备数据,后备数据,高度综合级,轻度综合级,当前细节级,早期细节级,每“月”电话呼叫情况信息,每“天”电话呼叫情况信息,电话呼叫情况信息,电话呼叫明细情况信息,2023/9/11,数据仓库与数据挖掘,27,多维数据模型的物理实现,多维数据库(MDDB),其数据是存储在大量的多维数组中,而不是关系表中,与之相对应的是多维联机分析处理(MOLAP)关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP),2023/9/11,数据仓库与数据挖掘,28,多维数据库(MDDB),关系数据库存储方式,多维数据库存储方式,2023/9/11,数据仓库与数据挖掘,29,具有汇总数据项的关系数据库,具有汇总值的多维数据库,关系数据库中,将“多对多”的关系转化为多个“一对多”的关系,不直观,直观,2023/9/11,数据仓库与数据挖掘,30,二维数据容易理解,但维数扩展到三维或更高的维度时,多维数据库MDDB就成了一种“超立方”体的结构,理解就困难多了。在MDDB中,其数据的存储是由许多类似于数组的对象来完成,对象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许多存储数据的单元块联结在一起。实际组合中往往由于各种原因会导致某些组合没有具体的值,或值是空的或者为零。产生了多维数据库的稀疏矩阵问题。稀疏矩阵将导致存储空间的浪费,所以需要采用压缩技术。,2023/9/11,数据仓库与数据挖掘,31,将数据的多维结构划分为两类表:事实表维度表按照两种结构设计:星型模型雪花模型,关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP),2023/9/11,数据仓库与数据挖掘,32,1.星型模式在关系数据库中的表示,2023/9/11,数据仓库与数据挖掘,33,2.雪花模式在关系数据库中的表示,2023/9/11,数据仓库与数据挖掘,34,多维建模技术简介,两种主流建模技术:由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型;基于关系数据库的多维数据建模,如星型,雪花和事实星座模式;关于事实表、维表及键的设计,2023/9/11,数据仓库与数据挖掘,35,星型模型,2023/9/11,数据仓库与数据挖掘,36,雪花模型,2023/9/11,数据仓库与数据挖掘,37,一个星型模式的例子,

    注意事项

    本文(数据仓库的数据存储与处理.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开