总公司KPI项目ETL认知培训.ppt
ETL-Extract Transform Load,宜昌艾福斯软件公司主讲:张超,内容,ETL基础ETL概述ETL体系结构ETL实现步骤OWB基础概述基本概念/基本元素OWB功能简介源目标对象定义ETL设计数据质量管理ETL部署和执行元数据管理案例 Follow Me总结,ETL概述,ETL概述,ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)是BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值是负责完成数据从数据源向目标数据仓库转化的过程是实施数据仓库的重要步骤。,ETL体系结构,ETL体系结构,Design manager 提供一个图形化的映射环境,让开发者定义从源到目标的映射关系、转换、处理流程。设计过程的各对象的逻辑定义存储在一个元数据资料库中。Meta data management 提供一个关于ETL设计和运行处理等相关定义、管理信息的元数据资料库。ETL引擎在运行时和其它应用都可参考此资料库中的元数据。Extract 通过接口提取源数据,例如ODBC、专用数据库接口和平面文件提取器,并参照元数据来决定数据的提取及其提取方式。,ETL体系结构,Transform 开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总。Load 加载经转换和汇总的数据到目标数据仓库中,可实现SQL或批量加载。Transport services 利用网络协议或文件协议,在源和目标系统之间移动数据,利用内存在ETL处理的各组件中移动数据。Administration and operation 可让管理员基于事件和时间进行调度、运行、监测ETL作业、管理错误信息、从失败中恢复和调节从源系统的输出。,ETL基本步骤,ETL基本步骤,ODS区的数据采集数据转换、清洗数据加载汇总层、CUBE加载,ETL基本步骤,ETL基本步骤,第一步、ODS(Operational Data Store-操作型数据存储)区的数据采集主要作用:为了尽量减少对业务系统的影响。表结构可以不必和DW一致。根据具体业务需求和数据量情况,将数据源的数据放入ODS有各种不同的方法,比如Oracle的数据库链路,表复制,SQL*LOADER,Teradata的Fastload,Sysbase的BCP等等。,讨论,ETL基本步骤,需要解决的问题数据的时间差异性问题数据的平台多样性问题数据的不稳定性问题数据的依赖性问题,ETL基本步骤,第二步、数据转换和清洗 将ODS中的数据,按照数据仓库中数据存储结构进行合理的转换,转换步骤一般还要包含数据清洗的过程。数据清洗主要是针对源数据库中出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据数据进行统一的处理,一般包括如:NULL值处理,日期格式转换,数据类型转换等等。在清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据清洗将无从谈起。数据装载是通过装载工具或自行编写的SQL程序将抽取、转换后的结果数据加载到目标数据库中。,ETL基本步骤,数据质量问题,ETL基本步骤,数据仓库中数据质量要求,包括格式、完整性要求。业务描述统一,对数据模型的不同版本融合、映射为唯一版本。信息描述规范、完整。,ETL基本步骤,主要数据质量问题的清洗策略主要问题表现形式产生原因清洗策略,讨论,主要数据质量问题的清洗策略数据完整性问题超出字典表范围数据一致性问题录入,同步的问题,ETL基本步骤,第三步、数据加载 将转换和清洗完的数据按照数据仓库的结构进行数据加载。,ETL基本步骤,针对数据现状,初始导入需要考虑的问题如何解决时间差异性?如何解决平台差异性?如何适应数据的不稳定性?如何解决数据依赖性?,ETL基本步骤,数据刷新的策略要根据业务需求和应用系统的承受能力和数据情况决定。主要需要考虑的一些问题:如何解决时间差异性?如何解决平台差异性?如何适应数据的不稳定性?如何解决数据依赖性?如何减少对业务系统的影响?,ETL基本步骤,不同的刷新任务类型,对业务系统的影响不同,刷新任务有以下种归类特性:刷新频率刷新方式数据加工方式 并可针对各种异常情况做处理:回滚,重新装载,断点重新装载等等,还可在任务完成后(或失败后)将日志以Email方式发给数据仓库管理人员。,ETL基本步骤,第四步、汇总层和CUBE加载 ODS加载进入数据仓库的数据只是底层详细层数据,还需按定义的汇总规则进行汇总,生成数据集市用的汇总表或CUBE。ETL流程是指完成每个维表数据及事实表数据导入的顺序,其包括两个部分,初始导入数据时的ETL流程,及增量导入时的ETL流程。,ETL基本步骤,初始导入数据时的ETL流程自动生成维的数据装载手工维护维度装载缓慢变化维表数据装载事实表数据装载聚合表初始生成,ETL基本步骤,增量导入缓慢变化维表数据装载事实表数据装载阶段数据汇总和聚合作业调度和异常情况处理,ETL基本步骤,第五步、任务调度策略驱动策略前导Job驱动:只有满足另外一个JOB成功后,自己才运行。文件驱动:当下传的文件到达,并经过检验准确后JOB才运行。时间驱动:当到达某个时点时,Job便开始运行。事件驱动:如人工参与,导致JOB执行。通知设计:重要信息(成功/失败)的通知,ETL基本步骤,成功退出分段提交方式,当分段提交的当次任务都正确完成,即Job运行状态临时表中登记的作业状态全部为完成时,退出ETL调度。自动提交方式,当当期所有的任务都正确完成,即Job运行状态表中登记的作业状态全部为完成时,退出ETL调度。,ETL基本步骤,失败退出关键作业异常,关键作业运行异常时,影响剩下的作业不能运行时,则退出ETL调度。超过ETL时限,当超过预先设定的ETL?时限时,退出ETL调度。数据库异常,当不能正常操作数据库时,退出ETL调度。操作系统异常,当发生操作系统异常,导致程序不能正常运行,如文件系统异常导致读写文件错时,需要退出ETL调度。,ETL基本步骤,手工退出需要人为干预ETL调度的时候,能以手工操作的方式退出ETL调度。,ETL工具,OWBInformaticaDatastage微软DTS等等,阶段总结,阶段总结,为了能更好地实现ETL,建议用户在实施ETL过程中应注意以下几点:如果条件允许,可利用数据中转区对运营数据进行预处理,保证集成与加载的高效性如果ETL的过程是主动“拉取”,而不是从内部“推送”,其可控性将大为增强ETL之前应制定流程化的配置管理和标准协议关键数据标准至关重要,OWB简介,OWB概述,Oracle Warehouse Builder 是一个简单而又全面的数据管理工具,能够管理数据的各个方面。它提供了数据质量管理、数据审计、全面集成了关系模型和维度模型,并提供了数据和元数据的全生命周期管理。支持的数据集成和管理内容包括:从现有系统中迁移数据从异构数据源集成数据设计和管理企业所有的元数据清洗数据并提供质量报告提供标准的提取、移动和装载(ETL),基本概念/基本元素,基本概念/基本元素(一),Data Warehouse(数据仓库)Repository(知识库或资料档案库),基本概念/基本元素(二),Project(项目)Module(模块)数据库存储(源、目标)文件存储其他对象集:进程、计划等等Location(位置)Object(对象)关系数据对象:表、索引、物化视图、分区等维度数据对象:Dimension 维、Cube 立方其他对象:映射、进程流、调度等等。,基本概念/基本元素(三),Map(映射)ETL Job(作业)Calender(计划)Schedule(调度)Profile(数据概要文件)Process Flow(进程流),源目标对象定义,源目标对象定义,定义 Oracle 数据对象定义维度对象定义平面文件和外部表定义商业智能对象导入数据定义将 OWB 元数据与其他 BI 产品集成由第三方应用或工具导入数据数据对象验证,ETL设计,ETL设计,创建映射Oracle Warehouse Builder 数据转换设计进程流保证数据质量理解性能和高级 ETL 概念支持复杂映射控制提交方式工作流分区加载(PEL),数据质量管理,数据质量管理,进行数据分析查看分析报告自动生成数据规则更正模式和清洗数据使用数据规则配置数据分析流程使用数据审计支持 Six Sigma,ETL部署和执行,ETL 部署,创建目标位置在 Design Center 项目浏览器中部署打开 Control Center 管理器在控制中心管理器中部署查看部署结果部署到其他位置,ETL 执行,执行 ETL 进程调度 ETL 作业使用 SQL 脚本管理作业在 SQL*Plus 中执行作业在 Oracle Enterprise Manager 中调度作业管理控制中心,元数据管理,元数据管理,管理元数据依赖关系(沿袭和效果)管理元数据变更使用Metadata Loader(MDL)导入/导出,案例 Follow Me,案例(一)由文件加载数据,定义平面文件定义外部表创建映射加载数据,案例(二)由数据库加载数据,定义源数据创建映射加载数据数据质量分析,案例(三)数据仓库建模,定义表、视图定义维、立方,案例(四)作业管理,定义计划和调度为映射指定调度控制中心查看作业情况OWB Bowser 查看执行情况,案例(五)元数据管理,元数据相关性管理器沿袭效果管理元数据变更快照导入/导出元数据,总结,Up to E,谢谢大家!,