数据治理解决方案课件.pptx
数据治理解决方案数据业务中心,1 2 , 2 ,1,为什么要做数据治理,01,美创如何做数据治理,02,案例介绍,03,目录CONTENTS,数据产业布局,注:数据来源于赛迪研究院,2016-2020年大数据核心产业市场规模(单位:亿元),大数据产业布局, 3 ,1,数据产业发展状况,我国行业大数据发展指数排名,注:数据来源于2018年中国大数据产业发展水平评估报告, 4 ,1,数据产业发展政策环境日益完善企业以往不被重视的“下水道工程” 国务院办公厅关于促进和规范健康行 2018年3月,金融行业率先出台业 2018年3月,发布GBT 36073-2 教育部办公厅关于印发教育部机政2015年8月 府关于促进大数据发展行动纲要“十1,+ 共识已经形成 +每个企业都将成为数据驱动的企业医疗大数据应用发展的指导意见,国办发201 银行金融机构数据治理指引,为其它行业的数 018 数据管理能力成熟度评估模型;关及直属事业单位教育数据管理办法的通知;2016年3月2017三五”规划(20162020年)政务信息系统,推进路径日益清晰企业战略工程647号;据治理开了一个好头;年5月2018年3月整合共享实施方案科学数据管理办法 5 ,近几年国家及各省市关于推进落实数据治理的相关政策 国家层面11条,各省市政策涉及到政府数据治理、政府数据共享、大数据整体规划、教 育、地理信息数据管理等方方面面,中国政务数据治理发展报告(2020年),从建设项目的数量上来说,北京市项目数量最多,共有224项; 广东省(174项)、广西壮族自治区(145项)、福建省(105 项)、贵州省(102项)分列建设项目数量的二到五位。,政务数据平台的相关项目分散于财税、社保、交通、卫计等23个 不同领域,数量最多的是财税领域(275项),占总量的15.1%。, 6 ,1,报告对中国政府采购网2017年至2019年发布的招标文件进行了系统的梳理,筛选出省级政务数据治理相关的 平台和系统建设项目1822个。各领域项目数量各领域项目数量,企业数据建设典型问题,01,02,05,04,03,06,数据不全部分数据为纸质资料,数据研究成果私人化人员变动,研究成果未有效地传承,数据样式多、孤岛现象严重数据管理分散,电子化、纸质化数据格式千差万别,“找数据”现象严重动、静态数据信息,缺乏统一的管理和展示应用平台,脏数据现象明显不同单位、不同时期的多次录入,数据未校验,数据管理工作薄弱缺乏统一的数据管理部门,工作衔接有空档, 7 ,1,目前绝大多数企业产生的大量数据,缺乏有效的监控手段和量化考核措施;新数据加载的及时性和完整性得不到保障;历史数据存在缺失、不准确,数据资产得不到有效利用;,1 8 , 8 ,1,为什么要做数据治理,02,美创如何做数据治理,01,案例介绍,03,目录CONTENTS,方案目标,A,建立数据标准,数据资源资产化,C,数据确权与合规,B, 9 ,1,提高数据质量,支持丰富的数据应用,总体解决思路,资产 盘点,数据发现 数据分类 数据分级 资产报告,管理制度 流程体系 标准规范,数据清洗 数据仓库 数据服务,数据 管理,元数据管理 主数据管理 数据质量管理 数据资源目录 数据安全管理,数据 应用,数据分析 数据大屏 运营决策 数据画像,摸家底,建体系,接数据,抓运营,数据变现, 10 ,1,规范数据体系集成数组织据体系治数据接理入,数据治理方案架构(产品+服务,保障数据治理工作落地),数据发现与分类(暗数据发现和分类)暗数据识别数据关系图谱数据业务模型敏感数据发现数据分类分级数据资产盘点,数据服务,数据发布,数据分享,数据交换,数据源,业务系统数据,第三方数据,文档/日志,物联网数据互联网数据非结构化数据,图片/影像,MIS系统数据渠道系统数据结构化数据,数据应用,决策支持,时空数据可视化,数据大屏,智能数据应用,其他行业应用,数据安全数据脱敏敏感数据发现敏感策略配置脱敏任务配置脱敏算法管理灵活报表监管数据仿真 数据可用性处安全传输审批流程理,数据采集与清洗(数据支撑平台)数据抽取数据转化数据清洗数据重构、聚集流程监控实时挖掘,数据管理(数据管控平台)数据中心主数据建设元数据管理数据质量数据资源目录面向流程统计分析类主题建模主题建模工作流管理元数据采集数据质量控制资源目录展示真实世界模型平衡计分卡模型任务管理数据血缘分析数据质量报告资源申请注册服务管理数据影响分析数据指标维护目录申请注册绩效考核类面向档案类主题建模主题建模待处理主数据数据地图数据检测评分数据资源报表精益模型360视图模型数据标准体系元数据溯源数据质量追溯文件,暗数据发现与分类:资产盘点,数据支撑平台:数据采集、汇聚(让数据变得干净、少歧义),数据管控平台:数据资产管理,数据中心建设(服务):数据深度加工,(重新组织数据、数据治理持久化),数据脱敏:保障数据流通 安全, 11 ,1,产品化支撑数据治理过程,01数据可知,暗数据发现与分类资产清单归集目录全量目录,02数据可管,03数据可用, 12 ,1,数据支撑平台 数据管控平台 数据中心建设,数据标准清洗比对数据质量,数据标签画像数据主题域数据资源目录,数据脱敏 数据共享交换 共享,为什么要做数据治理,美创如何做数据治理,01,案例介绍,02,03,目录CONTENTS,1 13 , 13 ,1,1, 14 ,案例:某某卫健委数据治理,需求1、根据公安部门等保要求,某市级医院需要对院内各主要 信息系统进行应用级异地灾备;2、厂商多,数据标准不统一,数据不互联互通:由各医院 厂商分别开发接口上传数据,费用较高;,解决方案通过产品化、标准化、流程化的数据治理手段构建统一、干净、可用的某卫健委医疗数据中心,建立数据标准,实 现数据互联互通。,价值提高数据质量:数据质量由之前的70%左右提升到目前的98%;经济效益,减少接口开发成本:不用由各厂商单独开发数 据上传接口,节约费用;提升数据协调效率:之前协调各医院、各厂家困难且费时, 建设成功之后可迅速调整;效率提升,实时业务支撑:数据实时抽取,并且可以为健康湖州、深蓝APP、健康档案等数据应用提供数据支撑;,01,02,03,案例:港口数据治理,集装箱 人财物 散杂货,单一 窗口,海铁 计划,数据仓 库及相 关应用,水水 中转,易步 通,云堆 场,箱管 中心,1, 15 ,数据仓库及相关应用,数据仓库,主数据建设及推广建成标准唯一、数据唯一、数据准确而且及时的主数 据库实现主数据的有效应用,对各新老系统进行主数据交 付,保证主数据消费者的代码数据的规范性和一致性,仓库数据应用,暗数据发现与分类数据资产盘点,壹,1 16 ,1, 16 ,暗数据发现和分类,暗数据发现过程(数据资产梳理、数据分类分级),探查和定位数据,数据含义识别,数据分类分级,数据关系识别,数据分类分级报告 数据资产梳理清单,第四步,第三步,第二步,第一步,目的:自动化识别数据含义并进行分类,让不可认知、不可利用的“暗数据”变得可认知、分类明晰。解决4个问题:盘点数据资产、“数据可知”是进行数据治理的基础,1, 17 ,数据在哪里?,有哪些数据?,数据如何分类?重要数据?敏感数据?,数据之间如何关联?,产品优势及价值,扩大企业数据资产10倍,提升数据安全防护水平,数据分类分级满足监管要求,缩短70%数据建设周期 降低50%数据利用成本,产品价值,1, 18 ,适用性:解读行业数据规范和标准,灵活配置解读大量行业数据标准和分类分级标准及政策 数据分类分级体系符合行业规范可根据企业需要灵活调整分类及分级,保障产品适用性,产品优势覆盖率:内置丰富数据标准,形成发现模板内置14万多条数据字典、1700多个业务类型内置行业发现模板,覆盖医疗、港口、金融、交通、人社 等行业,后续拓展政府、运营商、教育等行业,准确率:内置多种发现规则、算法模型通过业务字典匹配、规则匹配、字段名解析等多种技术手 段识别业务含义,其中医疗和港口准确率可达80%敏感业务类型全覆盖,并增加各个行业特有敏感类型,产品应用场景,1, 19 ,场景一:数据资产盘点数据资产盘点:数据在哪里,有 哪些数据、数据分类分级、数据 关联关系等输出数据资产梳理清单、数据分 类分级明细等输出数据字典文档:解决数据字 典缺失、不完善的问题,支持开 发利用场景,场景二:数据安全治理符合上级监管、法律法规要求:等保 2.0、银监等强制要求数据上报合规性:医院数据上报卫计委、 银行数据上报银监会内部数据安全防护:与其他安全产品联动(脱敏、审计等)对敏感数据进行针 对性保护,场景三:数据治理数字化转型的基础:港口、政务、医疗、 人社等行业数字化转型需求数据标准化服务:按照数据标准梳理数 据的业务含义、数据关系等数据治理的基础:与其他数据治理产品联动,包括元数据、数据资源目录等。,目标客户:作为基础性产品,可以面向全行业开展推广,主要面向有数据资产盘点、敏感数据发现、数据安全治理、数据标准化、数据治理等需求 的企业。对于医疗、交通、港口、金融、电信、政府、人社等数据资源丰富、数据应用需求迫切的重要行业领域可以重点推广。,应用案例:某市中医院敏感数据资产梳理,背景:需要部署相关安全产品实现数据的访问控制、身份识别、加密存储等,提高 安全防护水平需要了解资产分布情况,后续开展数据治理,提高医院整体数据质量覆盖HIS、LIS、EMR、PACS等60多个不同信息系统,涉及业务和关系复杂, 数据量大解决方案:,使用暗数据发现和分类系统按照医疗模板对数据进行自定义发现和识别; 识别医疗数据业务含义,发现数据之间的关联关系,数据分类分级定位敏感 数据分布;提供标准接口和XML文件;与其他数据安全和治理的对接和共享;数据防 护和数据分析利用,成效:,敏感数据发现:个人敏感信息(身份证、电话号码、地址等)、医院业务敏 感信息(就诊信息、治疗信息、手术信息、费用信息等)发现结果应用:将数据分类分级结果提供给数据库防水坝等,对敏感数据进 行针对性防护和数据监控,提高整体数据安全防护体系质量和稳定性,1, 20 ,应用案例:某银行敏感数据发现,1, 21 ,背景:,银监会对数据分类分级的监管要求;网络安全法对敏感数据保护的要求开发测试场景中会涉及到敏感数据,为了防止客户隐私信息泄露,需要识别敏感信息 银行内部涉及业务系统复杂,数据库类型和数量繁多,通过人工的方式无法梳理完整,解决方案:,数据源自动扫描探查和定位数据,通过IP段扫描获取数据库类型和信息 根据银行行业标准和数据特征自动化识别数据技术类型、数据业务含义 按照金融行业分类分级标准对数据分类分级,实现敏感数据发现和分布,成效:,数据存储位置探查:通过数据源自动扫描,扫描到2000多个数据库和相关信息;避免人工梳理的遗漏,极大减少时间成本 敏感数据自动发现和分类:发现银行内部身份证号、银行卡号、联系方式、组织机构代码等敏感字段,不遗漏、准确定位、 自动分类可视化数据统计报表:包含数据库分布、IP范围分布、敏感类型分布、敏感表格等统计信息,直观掌握数据情况。 为后续银行开展数据分类分级、数据治理、数据安全治理提供基础,提高整体数据安全防护水平和数据利用的效率,数据支撑平台数据采集与汇聚,贰,1 22 ,1, 22 ,产品概述,数据源,数据中心,数据库、大数据、CSV.,一款集数据抽取、清洗、转化、装载于一体,通过对于企业业务系统数据进行标准化,向数据仓库或 大数据分析平台提供高质量数据的综合性平台。,XML、JSON.,日志、图片、音频、视频.,数据应用,主数据(MDM),BI分析,用户画像,绩效考核,数据共享,可视化,.,数据同步,1, 23 ,数据同步,数据清洗,数据集市(DM)数据统计数据仓库(DW)数据整合操作性数据集合(ODS),功能介绍,数据集中,数据清洗,数据加工,1, 24 ,案例-卫健局建设统一数据中心,市属医院,医疗服务中心,社区医院,卫健局,数据中心,数据支撑平台,传统方式有以下问题:,操作很麻烦数据不真实数据不完整时效性差数据无备份,1, 25 ,系统优势,03,01,05,02,04,06,图形化操作界面鼠标拖曳、简单配置内置常用流程模板,内置丰富转化组件,内置多达200个功能组件包含转化、映射、统计、加密、 检验等,丰富数据源支持文件、数据库、大数据、消息队列支持HTTP、FTP、Web Service,非入侵式增量采集技术,采用增量日志挖掘技术对于源库无依赖,且资源占用少,内存流式处理技术流水线处理机制实时同步延时5s内,异常处理及自恢复,核心进程保障错误数据自动处理,1, 26 ,数据脱敏保障数据流通安全,叁,1 27 ,1, 27 ,应用场景,数据流动创造价值,同时也凸显了数据安全问题,对于数据的控制力越来越弱,甚至不可控!,开发测试,1, 28 ,数据分析,交换共享,产品功能,01,适配各种数据源包括关系型数据库、文件、大数据平台、消息队列等。,02,敏感数据发现系统可自动对于数据源进行敏感数据扫描,并可进行人 工审核确认。,03,异构数据脱敏支持异构数据库,数据库和文件,大数据平台和文件等 异构数据之间的脱敏。,04,数据子集脱敏支持通过数据条件或数据量两种方式抽取数据子集并进 行脱敏。,05,保持脱敏后数据关联性脱敏后数据可保持原数据之间的关联性及一致性,保留 数据原有业务特征。,06,1, 29 ,脏数据处理对于不符合数据业务特征的脏数据,系统支持脏数据的 脱敏。,产品价值,满足合规要求满足上级监管机构对于敏感数据保护的政策及法律要求。,1, 30 ,减少人工操作,保证数据质量代替传统手工脚本脱敏方式,从而提高 脱敏效率、脱敏质量,保证数据可用。,满足企业多种数据使用场景需求满足常见的数据流动场景的脱敏需求,如开发测 试场景、数据分析场景、交换共享场景。,支持数据流动的溯源流动出去的数据一旦发生外泄,可对于数据泄露的源头进行追溯,从而明确责 任主体。,市场分析,行业分布,金融人社电网医疗教育房地产,1, 31 ,金融,证券:中信证券、银河证券、国信证券、招商证券.银行:中国银行辽宁分行、广州银行、华夏银行、山东农信保险:中国人保、中华人寿、中银保险基金:上投摩根基金、申万菱信基金其他:交银租赁、中银消费、五矿信托、人寿资产,医疗医院:广东省人民医院、广州妇女儿童医院、重庆第六人民医 院、河北省人民医院、遂宁中心医院卫计委:国家卫生健康委员会、南京江宁区卫计局、杭州上城 区卫计局、重庆市九龙坡卫计委电网云南电网、贵州电网、南方电网、上海电网其他,碧桂园地产、龙湖地产、上海财大、上海大学、广东人社、广 西人社、深圳市政府采购中心.,数据脱敏,1, 32 ,数据管控平台数据资产管理,肆,1 33 ,1, 33 ,数据管控平台核心模块,数据管控平台,元数据管理,元数据采集,数据地图,元数据溯源,主数据管理,任务管理,数据质量管理,数据质量追溯,数据资源目录,资源搜索,资源采集,审批流程管理,资源发布,工作流管理1、梳理黄金数据:,具有高价值、高共享、,相对稳定的基础数据;,2、建立主数据标准;,服务管理3、主数据建设成果,输出:待处如理下主发数业据务系 统、支持数仓建设、,支持数据数标据准分体析系等文;件,数据血缘分析实现数据之间元数据,定义与互通,促进数,数据影响分析据处理过程规范化;,对数据分类目录管理,资源注册和可视化应用展现;,规则配置1、定制数据质量检,1, 34 ,核体系数:据统比一对定制数 据质量度量、执行规,范化数步据骤质;量报告2、定位数据质量问,题原数因据:流找程出管出控错的,源头和受影响范围等;,(一)主数据管理主数据(Master Data)是具有共享性的基础数据,可以在企业内跨越各个业务部门被重复使用的, 因此通常长期存在且应用于多个系统,具有高价值、高共享、相对稳定的特征,是企业执行业务操作和 决策分析的数据标准,又称为“黄金数据“。,50 %管理问题,50%是技术问题50%是管理问题,50 %靠自己,50%靠外包外协50%靠企业自身,50 %靠运营,1, 35 ,50%靠实施50%靠运营,主数据问题,主数据实施工作主数据建设效果,(一)主数据标准化和提取,姓名,身份证号,病人性质,单位名称,户口地址,电话号码,启用标志,启用时间,停用时间,1600002547,吕启灿,332621194607110000,6996,台州电业局,临海市凯旋小区2-2251,13858608678,Y,2018/5/14 12:31,9999/12/31 0:00,匹配、标准化、唯一化,门门诊诊号号码码,提取主数据的结果和质量问题需技术和业务共同确认,国际标准国家标准,行业标准,门诊号码规则:“号码”为自动生成,产生的规则为使用存储过程来产生;产生规则是:按照病人性质,自动进行门诊号码的扩展。同类型的病人性质,编号自动+1,1, 36 ,(一)主数据管理平台,主数据管理:用户在平台上通过新增、修改、 删除、导入、导出等操作对主 数据进行管理。流程管理:通过预先针对每个主数据都设 置相应的审核流程,以实现主 数据的规范化管理。主数据发布及订阅:根据第三方应用订阅的主数据 内容,主动向第三方应用服务 推送主数据,或第三方应用通 过平台提供接口请求相应的主 数据。,1, 37 ,(二)元数据管理,元数据管理范围:有哪些数据分布在哪里数据的类型是什么,技术元数据,描述数据系统中技术领域相关 概念、关系和规则的数据。,数据结构、数据字典数据源接口、ETL、OLAP数据仓库与数据集市存储、 数据封装和前端展现等。,业务元数据,管理元数据,1, 38 ,描述数据系统中业务领域相关 概念、关系和规则的数据。,业务术语信息分类指标定义业务规则等,描述数据系统中管理领域相关 概念、关系和规则的数据。人员角色岗位职责管理流程等。,数据之间的引用关系如何拿到这些数据哪些数据被经常使用,(二)元数据管理典型应用场景-数据库整理,针对企业等专业数据库(如HIS、病案)进行分析梳理,建设中心库数据字典变更维护 机制,形成管理规范,建立规范统一的数据字典,实现可查询可维护,同时输出各专业 数据库无效对象上报清理,提高数据质量。,各专业数 据表对应 数据项梳 理,各专业对 应数据库 梳理,数据库对 应数据表 梳理,数据字典,分 析 梳 理,各专业数据库,数据字典发布页面,1, 39 ,数据库无效对象,(二)元数据管理平台,元数据管理:对元数据的基础信息、分类 信息、关系信息、字段信息、 表信息进行管理。,血缘分析:展示对象的产生过程,从哪 些表转换而来,经历了哪些 转换,以及受到的潜在影响。,影响分析:反映当前对象,由哪些元数 据的形成,对当前元数据修 改,会造成什么影响。,1, 40 ,(三)数据资源目录,1, 41 ,(三)数据资源目录管理平台,1, 42 ,(四)数据质量管理能解决的问题,标准,定责,共享,1, 43 ,标准,共享,问题:在数据架构方面,面向功能为主的架构设计,数据交换和共享困难,很难建立客观数据质 量测评和考核机制,定责,问题:在组织管理方面,各个部门在数据方面的职责范围不明确,而且人工处理情况时有发生, 往往容易数据失真解决方案:有效引导和规范企业质量业务运行,问题:在业务应用方面,缺乏企业层级的通用业务规则解决方案:集中统一管理企业质量数据,形成通用的行业指标考核标准(标准指 标规则的整理),解决方案:协助企业充分实现质量数据应用(绩效考核、数据监管、决策系统、上报系 统、医生画像),(四)数据质量管理,数据唯一性,数据一致性,数据准确性,数据关联性,数据完整性,数据及时性,数据质量评估指标,被评估的数据集数据集,评估对象,评估指标,评估策略,权重,数据质量评估任务,数据质量评估报告,数据质量评估规则,1, 44 ,(四)数据质量管控平台,数据质量治理从数据源头抓起,从根本上解决数据质量问题。通过对数据质量进行监测,量化的数据质 量,一旦发现异常值或者数据质量的突然恶化,便顺藤摸瓜找到产生数据的业务环节,从源头进行治理。统一定制企业数据质量 检核体系, 统一定制数据 质量度量、执行规范化步 骤;支持自定义的数据指标 规则定义;支持快速定位数据质量 问题的原因, 出错的源头和受影响范围。,1, 45 ,谢谢,