ETL流程数据流图及ETL过程解决方案.ppt
《ETL流程数据流图及ETL过程解决方案.ppt》由会员分享,可在线阅读,更多相关《ETL流程数据流图及ETL过程解决方案.ppt(43页珍藏版)》请在三一办公上搜索。
1、关于ETL相关问题的解决办法,ETL定义模式及比较ETL过程问题分析 现状分析,目录,ETL定义,ETL定义涉及以下内容:ETL定义ETL前提ETL原则,ETL定义,定义:数据的抽取(Extract)、转换(Transform)、装载(Load)的过程目标:数据优化。以最小代价(包括对日常操作的影响和对技能的要求)将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据,ETL的前提确定ETL范围通过对目标表信息的收集,确定ETL的范围选择ETL工具考虑资金运行的平台、对源和目标的支持程度、可编程的灵活性、对源数据变化的监测、数据处理时间的控制、管理和调度功能、对异常情况的处理确定解决
2、方案抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换及数据验证,ETL过程中应尽量遵循以下原则:应尽量利用数据中转区对运营数据进行预处理。保证数据的安全性、集成与加载的高效性。ETL的过程应是主动“拉取”,而不是从内部“推送”,其可控性将大为增强。流程化的配置管理和标准协议 数据质量的保证正确性、一致性、完整性、有效性、可获取性,ETL定义模式及比较ETL过程问题分析 现状分析,目录,ETL模式及比较,两种模式异构同构模式比较的维度:特点环境,ETL模式-同构,ETL模式-异构,两种模式的比较-特点,两种模式的比较-环境,ETL定义模式及比较ETL过程问题分析 现状分析,目录,ETL过程
3、,ETL过程:数据抽取数据清洗数据转换数据加载ETL的问题,ETL过程-0层DFD,1层-数据抽取,1层-数据清洗,1层-数据转换,1层-数据加载,ETL过程-数据抽取,数据来源文件系统,业务系统抽取方式根据具体业务进行全量或增量抽取抽取效率将数据按一定的规则拆分成几部分进行并行处理抽取策略根据具体业务制定抽取的时间、频度,以及抽取的流程,ETL过程-数据清洗,清洗规则:数据补缺对空数据、缺失数据进行数据补缺操作,无法处理的作标记数据替换对无效数据进行数据的替换格式规范化将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式主外键约束通过建立主外键约束,对非法数据进行替换或导出到错误文件
4、重新处理,转换规则数据合并多用表关联实现,大小表关联用lookup,大大表相交用join(每个字段加索引,保证关联查询的效率)数据拆分按一定规则进行数据拆分行列互换排序/修改序号去除重复记录数据验证:lookup,sum,count实现方式在ETL引擎中进行(SQL无法实现的)在数据库中进行(SQL可以实现),ETL过程-数据加载,ETL定义模式及比较ETL过程问题分析 现状分析,目录,ETL执行时的异常处理,数据异常将错误信息单独输出,继续执行ETL,错误数据修改后再单独加载中断ETL,修改后重新执行ETL原则:最大限度接收数据环境异常对于网络中断等外部原因造成的异常,设定尝试次数或尝试时间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ETL 流程 数据流 过程 解决方案
链接地址:https://www.31ppt.com/p-5429749.html