欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    ETL数据抽取课件.ppt

    • 资源ID:1455668       资源大小:979KB        全文页数:22页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    ETL数据抽取课件.ppt

    数据抽取2015年9月2 日,数据分析事业部 舒礼明,2022/11/27,1,目录:ETL定义ETL过程问题分析现状分析,培训目的:掌握ETL基本概念了解ETL的问题以及现状,2,目录:ETL定义ETL过程问题分析现状分析,3,ETL定义,ETL定义涉及以下内容:ETL 定义ETL定义:数据的抽取(extract)、转换(transform)、装载(Load)的过程。ETL 前提 确认ETL范围:通过对目标表信息的收集 选择ETL工具:a.考虑资金 b.运行的平台、对源和目标的支持程度、数据抽取管理监控功能、对异常情况处理。 确认解决方案:抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换以及数据验证ETL 原则 1.尽量对数据进行预处理。保证数据的安全性、集成与加载的高效性。 2.ETL的过程是主动的“拉取”,而不是从内部“推送”,起可控性将大为增加。 3.流程化的配置管理 4.数据质量的保证 :正确性、一致性、完成性、有效性、可获取性,4,目录:ETL定义ETL过程问题分析现状分析,5,数据抽取数据清洗数据转换数据加载,ETL过程,6,ETL过程,7,ETL过程.数据抽取,8,ETL过程.数据抽取,数据来源文件系统、业务系统抽取方式根据具体业务进行全量或者增量抽取抽取效率将数据按照一定的规则拆分成几部分进行并行处理抽取策略根据具体的业务制定抽取的时间、频度,以及抽取的流程,9,ETL过程.数据清洗,10,ETL过程.数据清洗,数据不缺对空数据、缺失数据进行数据不缺操作,无法处理的作标记数据替换对无效数据进行数据替换格式规范化将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式主外键约束通过建立主外键约束,对非法数据进行替换或者导出到错误文件重新处理,11,ETL过程.数据转换,12,ETL过程.转换规则,数据合并多用表关联实现,大小表关联使用嵌套,大大表关联用join数据拆分按一定规则进行数据拆分行列互换排序、修改序号去除重复记录数据验证:sum、count、查询维度表实现方式A. 在ETL引擎中进行(SQL无法实现的)B. 在数据库中进行(SQL 可以实现),13,ETL过程.数据加载,14,ETL过程.数据加载,15,目录:ETL定义ETL过程问题分析现状分析,16,问题分析,数据异常将错误的信息单独输出,继续执行ETL,错误数据修改后再单独加载中断ETL,修改后重新执行ETL原则:最大限度接收数据环境异常对于网络中断等外部原因造成的异常,设定尝试次数或者尝试时间,超数或超时后,由外部人员手工干预其他异常例如源数据结构改变、接口改变等异常情况,应进行同步后,再装载数据,17,ETL设计规范.开发,ETL开发首先要确定的是流程的执行顺序以及条;其次是具体表映射关系的定义,在数据库性能允许的情况下,尽可能使用sql语句进行处理。对于具体映射和流程的命名,应该以维护方便为前提:映射:以目标表名命名流程:以流程要实现的功能命名不允许使用临时的SQL语句操作数据库,必须编写好的SQL脚本或存储过程限定手工干预只能运行某个流程,不允许运行单个过程每一项手工操作必须留下记录,18,ETL设计规范.设计,SQL语句应书写规范,关键字全部大写,同时应增加注释。对于自定义咧,需要按照公司规范来命名,eg,19,常见问题的分析,字符集问题缓慢变化维度处理增量、实时同步的处理错误数据的检测变换数据的捕获抽取异常中止的处理,20,ETL 工具厂商,目前ETL工具来源:数据库厂商自带的ETL工具,如OWB等第三方工具提供商,如informatic等开源ETL工具,如kettle,21,谢谢观看!,22,

    注意事项

    本文(ETL数据抽取课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开