数据质量 培训课件.ppt
数据质量,数据质量问题的危害,Poor Data Quality or inconsistent data causes defects in the value chain and is a momentum killer for Data Alignment,Synchronisation and Collaboration,日程,什么是数据质量数据质量的重要性影响数据质量问题的因素如何才能获取高质量数据Informatica平台如何解决数据质量问题,什么是数据质量-定义,数据质量是一个涵盖面很广的术语,涉及某条或某组数据的准确性、完备性、一致性、符合性和时效性以及数据如何进入并在整个企业内流动。不同的企业对数据质量有着不同的定义和要求,但是数据质量最终可归结为“符合要求的数据”。并且数据质量是个持续的过程。,什么是数据质量-符合要求的数据,完全性 所有必需的数据是否都存在吗?符合性 哪些数据是以非标准格式存储的?一致性 哪些数据值提供的信息自相矛盾?准确性 数据准确表示真实来源还是可验证的来源?重复性 哪些数据记录是重复的记录?完整性 哪些数据失去了重要的关系联系?时效性 数据寿命是否满足用户要求吗?,域级(字段)域之间业务逻辑数据传递,比如etl过程,数据质量的重要性,数据质量问题是IT 项目成功的最大障碍76%的数据集成项目或完全的失败,或严重延迟主要的问题是缺乏对数据和数据质量的理解平均来看,需要10个左右的迭代过程来分析数据质量,并纠正存在的问题,低质量的数据影响决策的制定和执行低质量的数据影响对市场的反应效率低质量的数据导致不恰当的决策投资没价值的产品线关注无价值的客户,现代企业管理是数据质量需求的催化剂知识工作者正在强烈的意识到数据是他们工作中最重要的资产全球化的组织和全球化的数据分布,使得数据集成变得愈发重要合规性的要求使得对数据管理的粗心不能再被容忍,高质量数据有利于提高客户满意度在与客户交互环节的数据质量问题更应该得到充分的关注正确的拼写客户的名字、性别和Title最新的产品信息最新的价格信息CRM,Call Center系统中精确的客户数据有利于帮助组织提升提供更佳的客户服务提升交叉销售和向上销售的有效性将更多的机会转化为真正客户,确保法规遵从高质量的数据帮助实现Sarbanes-Oxley and BASEL II等法规的控制要求和对业务绩效的精确报告.在法规遵从方面都要求数据是可信赖的,并且是可审计的,低质量的数据造成资源、成本的耗费TDWI估算由于客户数据质量问题,造成全美国$6111亿美元的人力资源,打印,邮寄等成本的浪费,影响数据质量问题的因素,数据质量问题归类,业务系统源数据的质量问题源数据信息不正确源数据信息不完整源数据信息不一致标准代码问题缺乏一致、完整的标准代码,如产品代码没有可执行的规范,或者有书面规范但执行不力等代码直接写在程序中,没有代码表维护ETL产生的质量问题技术性问题非技术性问题(如业务规则理解错误),数据质量问题产生的环节,数据生产环节数据和业务规则不符数据产生不严谨手工录入不规范新旧系统的切换数据的孤立修改造成系统之间数据不一致,数据使用和加工环节数据抽取错误或遗漏数据的时间段错误数据的重复抽取数据生成的时间点错误数据加载转换规则错误,如何才能获取高质量数据,访问和评估数据数据质量规划和目标数据质量策略选择和实施上游策略下游策略,如何才能获取高质量数据-访问和评估数据,访问数据质量的当前状态,以了解隐藏的数据质量问题完全性 所有必需的数据是否都存在吗?符合性 哪些数据是以非标准格式存储的?一致性 哪些数据值提供的信息自相矛盾?准确性 数据准确表示真实来源还是可验证的来源?重复性 哪些数据记录是重复的记录?完整性 哪些数据失去了重要的关系联系?时效性 数据寿命是否满足用户要求吗?,如何才能获取高质量数据-数据质量规划和目标,对数据的内容和质量有了一个清晰的了解之后,下一步是进行规划和项目计划,以纠正当前错误和防止将来出现错误。有效的计划可以解决企业现有应用程序库中的数据质量问题,并且能够确保新的应用程序从开始就融入数据质量原则。,如何才能获取高质量数据-数据质量策略选择和实施,采用企业范围内的、反复的持续性方法解决数据质量问题。与此同时,无法一次性解决所有数据质量问题。要确保为企业提供准确、一致和及时的数据,唯一途径是通过可最终涵盖所有公司数据的阶段性数据质量管理程序实现。选择用于解决长期数据质量问题的策略要求根据每个数据质量方案产生的影响平衡方案的成本。常用的策略类型有两种:在企业中的输入点解决数据质量问题的方法称为“上游策略”,而在消耗来自操作系统(如数据仓库)的数据的应用程序中实施则称为“下游策略”。,上游策略,上游策略将检验现有应用程序的逻辑、数据和流程,以便获得通过探查来处理未覆盖的异常情况的机会。这可能包括更改应用程序逻辑、增添更好的表单验证、改进与数据输入相关的流程,而且会要求对准备好的数据进行清洗。它还可能强迫在应用程序自身融入数据质量功能,例如,在数据进入企业时根据已知示例对数据进行验证。由于此方法可以在源头上解决数据质量问题,因此它对每个从该来源提取数据的应用程序和每个将来会从该来源提取数据的应用程序大有裨益。但是,上游策略耗费高。它们可能要求对应用程序、其逻辑和数据进行更改。企业在更改现有解决方案时可能会遇到阻碍。要成功实施上游策略,项目需要明确的所有权、共识和来自其它团队的员工的支持。,下游策略,下游策略在目标应用程序或数据仓库中解决数据质量问题,而不是在数据源。由于可以迅速修改数据,因此策略可以在流程中得到改进,这通常是通过数据转换、清洗和查找验证来实现的。下游策略只对正在使用目标应用程序或数据仓库的使用者有益,但是相比上游策略,下游策略实施起来要容易得多并且耗费更低。,Informatica平台如何解决数据质量问题-数据质量管理流程,探查和分析多个来源,数据集成将来源映射至目标结构,业务数据,构建企业数据质量规则,部署规则交互/批量/实时,报告数据质量指标,结构分析和映射,对数据质量进行持续清洗和监控,维持,监控,实施(一次性),维持(持续不断),清洗,分析,提取,将问题报告发送回来源,维持(持续不断),来源 DQ 报告和管理,来源 DQ 报告和管理,源数据检查员,企业数据检查员,数据检查员,纠正的数据和改进的数据质量,1,2,3,3,4,5,Step 1:数据质量探查,数据质量探查是一种描述数据的内容、一致性和数据结构的有效途径来自 Philip Russoms TDWI 报告所有的数据质量项目都必须从数据质量探查起步基于工具的数据探查比手工的方法具有更高的生产力数据质量探查不是一次性的工作数据探查,数据集成,数据质量是数据管理最佳实践的三个亲密兄弟Source:Taking Data Quality to the Enterprise through Data Governance TDWI Report,March 2006 by Philip Russom,Applications,Databases,Flat files,Mainframe,问题分类完整性Conformity一致性准确性重复的数据数据相关性 数据清理规格说明书 数据转换规格说明书,数以千计的 数据属性 数以百万的纪录,Discover,Discover,Step 1:数据质量探查,所有发现的问题都应该向数据源系统的责任人进行报告,Step 2:建立数据质量度量和定义提升目标,仅仅知道“我的数据质量有问题”对数据质量项目来说是不够的需要了解,那些数据有问题?这些问题是如何产生的?定义数据质量度量度量必须和业务目标一致(绑定)在没有绑定之前,不要启动项目设定改进目标How will you know when you are done?,Step 2:建立数据质量度量、并定义目标,一旦完成初步的数据质量探查,需要马上设定改进的目标针对特定的系统,制定有针对性,“足够好”的改进计划定义100%满足,不一定是利用资源的最佳方式,Step 3:设计&建立数据质量规则Standardize,Correct,and Enrich,数据标准化纠正/补全有问题的数据数据增强,“Once in the system,poor data quality can cost organizations vast sums in lost revenues.Defective data leads to breakdowns in the supply chain,poor business decisions,and inferior customer relationship management.”Informatica Velocity,Step 4:建立数据质量放火墙,Data Quality Fire Wall,Single ViewOfProduct,Single Viewof Customer,DQReporting,DQScorecarding,Reporting Basel II IAS SOX,DataMining,Step 4:建立数据质量放火墙,在数据录入时进行数据质量检测实现实时的数据质量检测,例如:在数据录入时进行数据匹配和清理这个活动可以有效地阻止有问题的数据进入系统,Step 5 管理过程包含:常规的基准设定监控质量变化趋势保持和业务发现一致,Step 5:监控数据质量 Vs.目标,Step 5:监控数据质量 Vs.目标,Step 5:监控数据质量 Vs.目标Progress Over Time,数据质量管理过程管理,Analyze,1.Profile the Data,2.Establish Metrics and Define Targets,3.Design&Build Quality Rules,5.Monitor Data Quality Versus Targets,Enhance,Implement Audit Controls,4.Build a DQ Firewall,TargetApplication,如何保证数据使用和加工环节的数据质量,详细的ETL设计文档测试:根据实际情况选择测试是贯穿整个开发过程还是在全部开发工作完成以后进行,并确定测试的顺序,此任务需在项目的开始阶段就进行考虑 元数据管理:通过Informatica Metadata Manager,用户可以清晰的了解到数据源是什么,中间做了什么转换,即可了解:此数据来自何处?此结果是如何计算的?它的可靠程度如何?如何使用?我们的结果是否一致并具有合规性?,元数据管理,Sources,Targets,BusinessIntelligence,Metadata,Metadata,Metadata,CustomMetadata,Data Modeling,Metadata,Metadata Manager,Metadata,元数据管理-血缘分析(Data lineage)-表,Launch data lineage for a DB table,数据模型,ODS层,ETL过程,APP层及多个ETL过程,DW层,OLAP/报表,血缘分析 Drilldown to Column,Launch data lineage for a DB table-column,列级血缘分析支持,元数据管理-Where-Used 分析,Launch where used for a DB table,