欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOCX文档下载  

    Q_SY10017-2023元数据管理规范.docx

    • 资源ID:7048797       资源大小:117.87KB        全文页数:18页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    Q_SY10017-2023元数据管理规范.docx

    O/SY中国石油天然气集团有限公司企业标准Q/SY100172023元数据管理规范Specificationformetadatamanagement20231201 实施20231019发布中国石油天然气集团有限公旬发布目次前言III引言.IV1范围12规范性引用文件13术语和定义14元数据分类14.1 结构化数据元数据14.2 非结构化数据元数据25元数据设计25.1 结构化数据元数据设计25.2 非结构化数据元数据设计36元数据采集56.1 元数据采集定义56.2 元数据采集步骤57元数据注册57.1 注册范围57.2 注册原则67.3 注册方法67.4 注册步骤78元数据运维89元数据应用9参考文献10刖百本文件按照GB/T1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件由中国石油天然气集团有限公司标准化委员会信息技术专业标准化技术委员会提出并归口。本文件起草单位:中国石油集团共享运营有限公司、数字和信息化管理部、昆仑数智科技有限责任公司、勘探开发研究院、新疆油田分公司。本文件主要起草人:陈希、方可、刘慈、张云辉、纪晨曦、冯需 宁、刘金平、王健、蔡筱璇、张乐乐、商梅梅、马铮铮、杨桦、王薇 丽、田晓岚、孙静娴、何婷婷。本文件审查专家:黄幽丽、张万莉、王文革、曲京、梅运谊、 刘晓、唐爽。、主巨杉、朱玉秀、刘洋、何梦、主静、高天宇、侯宁宁、李爱李亚东、时付更、刘大为、袁维I引言为进一步规范中国石油天然气集团有限公司(以下简称集团公司)数据管理工作,构建“共建、共治、共享”的数据生态,挖掘数据价值,规划了十二项数据管理标准,数据管理标准的制定可促进集团公司数据管理体系的建立,明确各类数据管理活动的框架和具体要求,促进数据的安全与共享,充分挖掘数据资源价值,持续提升数据应用水平和决策支持能力。十二项数据管理标准包括:一数据管理工作导则: 数据资源目录构建规范;一一数据架构管理规范;一一数据质量管理规范! 数据安全管理规范。 数据湖管理规范; 元数据管理规范;一一数据运营管理规范; 数据分析管理规范。 数据中台管理规范, 数据共享与服务管理规范;一一数据出境安全管理规范。本文件为此系列标准的第七册,通过规定元数据管理的要求,建立从元数据设计、采集、注册、运维和应用的全过程管理机制,统一数据管控、推进资源整合,支撑数据管理工作的落地实施。元数据管理规范1范围本文件规定了元数据分类、设计、采集、注册、运维和应用要求。本文件适用于数据管理工作。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。Q/SY10075-2022数据资源目录构建规范Q/SY105532022数据架构管理规范3术语和定义下列术语和定义适用于本文件。3.1元数据metadata关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。来源:GB/T360732018,3.83.2结构化数据structureddata可以存储在关系型数据库里,用二维结构来表达实现的数据,3.3非结构化数据unstructureddata形式相对不固定,不便使用二维表来表现,无法用关系数据库存储的数据。非结构化数据形式多样,如文档、PDF文件、Emaik网页、图片、视频、音频、XML文件等。3.4血缘分析datalineageanalysis针对数据流转过程中产生并记录的各种信息进行采集、处理和分析的过程。4元数据分类4.1 结构化数据元数据结构化数据的元数据分为业务元数据、技术元数据和操作元数据,说明如下:a)业务元数据:用户访问数据时了解业务含义的途径,包括主题域、业务对象、逻辑实体、属性名称及数据标准等:b)技术元数据:为开发人员或技术用户提供系统信息,包括物理数据库表名和字段名、字段属性、其他数据库对象的属性和数据存储特性;c)操作元数据:主要用于满足信息系统运维的需求,包括数据迁移信息、数据源和目标系统信息、批处理程序、任务频率、调度异常处理、备份与恢复信息、归档规则和使用等信息。4.2 非结构化数据元数据非结构化数据的元数据分为文件元数据、基本特征类元数据与内容增强类元数据,说明如下:a)文件元数据:非结构化数据对象的抽象类,包括所有格式的办公文档、文本、图片、图像、音频、视频等;b)基本特征类元数据:实现对非结构化数据对象的规范化定义,如标题、格式、来源等;c)内容增强类元数据:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、索引等。5元数据设计5.1 结构化数据元数据设计5.1.1 业务元数据设计5.1.1.1 业务元数据业务元数据包括一级主题域、子主题域、业务对象、逻辑实体、属性和数据标准,相关定义与说明应符合Q/SY100752022的要求。5.1.1.2 业务元数据设计要求业务元数据设计应符合以下要求。a)主题域和业务对象的业务元数据设计应符合QSY10075-2022的要求,逻辑实体、属性及数据标准的业务元数据设计应符合Q/SY105532022的要求。b)业务元数据间需有明确的关联关系并遵守以下规则:D一个一级主题域下有多个子主题域,一个子主题域下有多个业务对象,一个业务对象下有多个逻辑实体,一个逻辑实体下有多个属性,一个属件关联一个或零个数据标准;2)每个数据标准可被一个或多个属性引用,每个属性归属于一个逻辑实体,每个逻辑实体归属于一个业务对象,每个业务对象归属于一个子主题域,每个子主题域归属于一个一级主题域。c)业务元数据有唯一身份标识,进行统一管理。5.1.2 技术元数据设计5.1.2.1 技术元数据技术元数据包括表、视图、表与视图关系、字段,说明见表1。5.1.2. 2技术元数据设计要求技术元数据设计应符合以下要求:a)物理表设计满足三范式,如为了降低系统的总体资源消耗,提高查询效率,可反范式设计。b)物理表、视图和字段的设计基于用途进行分类。c)承载业务用途的物理表、虚拟表、视图与逻辑实体一一对应,承载业务用途的字段与属性一一对应。部分特殊场景下,允许逻辑实体与物理表存在1:N的关系,例如数据量过大、分库、跨产品、分布式部署等。d)系统间的数据传递优先采用数据服务。表1技术元数据说明技术元数据技术元数据说明表分为物理表和虚拟表。物理表为数据库的核心组件,由行和列组成,行包括若干列信息项,一行数据称为一个或一条记录,列又称为字段,描述相关数据的特征:虚拟表基于物理表进行定义用于提供数据服务,但不实际存储数据,其数据使用方式和物理表一致视图一个虚拟表,它不实际存在于数据库中,按照一定规则显示的拓扑图表与视图关系物理表与视图关系字段物理表7视图/虚拟表中的列信息5.1.3 操作元数据设计5.1.3.1 操作元数据操作元数据示例见表2。表2操作元数据示例操作元数据操作元数据说明用户访问日志系统对用户的访问模式、频率和执行时间的记录数据库日志数据库操作过程的记录作业执行日志对批处理等作业执行状态的记录数据源和目标系统信息在进行数据抽取过程中的源系统和目标系统的配置信息5.1.3.2 操作元数据设计要求操作元数据设计应符合以下要求:a)应按照日志目的的不同进行分类设计;非自研情况下,应按软件包适配;b)根据信息系统运维的需求,在开发过程中输出相应操作元数据。5.2 非结构化数据元数据设计5.2.1 文件元数据文件元数据设计说明见表3。5.2.2 基本特征类元数据基本特征类元数据设计说明见表4。基本特征类元数据由集团公司统一设计管理。表3文件元数据设计说明(示例)元数据元数据属性属性定义及规则文件文件编码文件的堆一标识获取路径获得该文件对象的源端路径表4基本特征类元数据设计说明(示例)元数据元数据属性属性定义及规则文件编码文件的唯一标识文件名称赋予文件资源的名称逻辑实体编码文件所属的逻辑实体编码类型文件资源所属的类别,包括文档、图片、音频、视频格式文件的物理格式,包括doc、xls、ppt、jpg、bmp等创建者创建资源内容的主要责任方基本特征类主题资源内容的主题描述描述资源内容的解释发布者使资源成为可获得的责任方其他贡任者创建日期资源生存期中做出贡献的,除制作者/创作者之外的其他撰稿人和贡献者,如插图绘制者、编辑等资源创建的时间发布日期资源发布的时间最后修改时间资源最近被修改的时间生效时间资源有效的开始时间失效时间资源有效的结束时间版本资源的版本信息标识符资源的唯一标识,如ISSN(国际标准刊号)、URI(统一资源标识符)等语言描述资源知识内容的语言、语种。文档、文本类资源的必填项来源对当前资源来源的参照,包括组织、大、信息系统等关联与其他资源的索引关系,用关联ID来标引参考的相关索引、资源覆益范围资源使用、应用的范闱,如适用区域(地理位置)、业务领域、客户群、角色等数据安全级别根据Q/SY10018数据安全管理规范的要求确定文件的数据安全级别个人数据级别根据Q/SY10018数据安全管理规范的要求确定文件的个人数据级别5.2.3 内容地强类元数据内容增强类元数据由承担数据分析工作的信息化内部支持单位设计并增补至对应非结构化业务对象的基本特征类元数据中。6元数据采集6.1 元数据采集定义元数据采集是指从信息系统、设备及软件平台等数据源获取元数据,对元数据进行转换,然后写入到集团公司数据治理平台的过程。元数据的来源可分为关系数据库、建模工具、数据集成工具、BI报表工具、调度工具、开发语言及脚本、文档、图片、视频等类型。6.2 元数据采集步骤6.2.1 配置数据源配置数据源是采集元数据的关键,在确定数据源所选择的采集工具的基础上,配置数据源的名称、连接参数和描述,说明如下a)数据源名称:不能为空,允许输入字符有数字、字母、中文、下划线等,数据源名称不能与已创建的数据源同名;b)连接参数:针对不同类型的采集工具配置不同的连接参数;C)数据源描述:对该数据源的简要描述,方便其他用户理解与使用该数据源。6.2.2 配置采集任务采集任务为自动调度的工作单元,为元数据的采集提供自动化的、周期性的、定时的触发机制。配置采集任务包含内容如下。a)任务名称:不能为空,允许输入字符有数字、字母、中文、下划线等,任务名称不能与当前已存在的任务同名b)数据源名称:不能为空,选择当前用户有权限的、可用于配置采集任务的数据源。O调度周期:选择适当的自动化调度周期,设置采集的时间间隔太短、频率太高,可能导致系统资源被占用。d)入库策略:包括全量采集入库及增量采集入库。1)全量采集入库:全量比较集团公司数据治理平台所有元数据,若数据资源编码相同则更新其内容,若不存在则插入新的元数据。2)增量采集入库:比较集团公司数据治理平台本次增加的元数据,若数据资源编码相同则更新其内容,者不存在则插入新的无数据。e)任务描述:对当前所创建任务的简要描述。7元数据注册7.1 注册范围根据元数据特点和管理要求的差异,应按照以下要求进行注册:a)操作元数据与技术元数据自动化连接,无需注册;b)业务元数据及业务元数据和技术元数据的关联应进行注册;c)为保障数据安全与治理,业务数据的数据源原则上都要注册:d)非结构化数据的基本特征类元数据原则上都要注册,内容增强类元数据由承担数据分析工作的信息化内部支持单位按需注册。7.2 注册原则元数据注册应符合以下原则:a)注册责任主体:原则上由逻辑实体的数据归口管理部门负责组织元数据注册;b)注册完整性要求:对已注册逻辑实体的每个属性进行注册,对已注册物理表的每个字段进行注册;c)关联原则:逻辑实体可以关联多张物理表,属性可以关联多个物理表字段;三范式建模方式下,原则上一张物理表只能关联一个逻辑实体,一个字段只能关联一个属性;d)唯性原则:结构化数据或非结构化数据的元数据需要有唯一性标识,以确保元数据能够正确追踪和识别。7.3 注册方法7.3.1 注册总体要求结构化元数据的注册方法主要有两种方式:从业务元数据出发完成元数据注册是主要方式,通过正向梳理业务元数据和技术元数据的关系,并实现元数据注册,从技术元数据出发完成元数据注册作为补充方式,通过对物理表的逆向分析,梳理技术元数据和业务元数据的关系,并实现元数据注册。非结构化数据元数据按照结构化数据无数据的注册方法进行注册。7.3.2从业务元数据出发完成元数据注册从业务元数据出发,需要根据逻辑实体在数据源的物理落地情况及物理部署分布,找到对应的技术元数据,完成业务元数据与技木元数据的关联。基于物理落地方式的不同,包括以下两种场景。a)逻辑实体落地单张物理表:此场景的元数据连接方式为逻辑实体与物理表一对一关联,属性与字段一对一关联,元数据注册示意图如图1所示。逻辑实体物理表图1逻辑实体落地单张物理表注册示意图b)逻辑实体落地多张物理表:此场景的元数据连接方式为逻辑实体与多张物理表关联,属性与多张物理表的字段关联。主要有以下三种情况:1)主业务表加扩展表:落地的物理表由主业务表和扩展表构成,需把主业务表和扩展物理表与逻辑实体关联,元数据注册示意图如图2所示;逻辑实体主业务表扩展表图2逻辑实体落地多张物理表(主业务表和扩展表)注册示意图2)多实例部署:从物理部署分布看,存在单实例部署和多实例部署,如因业务需要分区域部署,对于多实例部署,需把多实例部署的多张物理表与逻辑实体关联,元数据注册示意图如图3所示逻辑实体主业务表1扩展表1 主业务表2扩展表2&芈务表n扩展表n图3逻辑实体落地多张物理表(多实例部署)注册示意图3)分库分表:对于采用分布式数据库中间件等技术进行分库分表的情况,对外应只呈现一张物理表,只需注册一张物理表和逻辑实体关联。7.3.3从技术元数据出发完成元数据注册从技术元数据出发,首先识别物理表的类型及用途,再根据其承载的业务找到对应的业务元数据,完成技术元数据与业务元数据的关联。对于一张物理表承我多个主题域的业务、对应多个逻辑实体的特殊场景,此场景宜按照主题域拆分视图后再与逻辑实体关联。如果数据源系统不支持拆分视图,可作为特殊白名单管理,一张物理表可以和多个逻辑实体关联,支撑数据入湖;在入湖时,将不同逻辑实体及对应的属性分别入湖,落地多张贴源层库表进行注册,或者先把物理表集成到数据湖后再封装成视图后分别与逻辑实体关联。元数据注册示意图如图4所示。源系统致翡湖图4特殊场景:一张物理表对应多个逻辑实体的注册示意图数据湖物理表及副本的注册应符合以下要求a)数据湖物理表的注册:1)实时贴源层库表和离线贴源层库表,应与逻辑实体建立关联,首次在数据湖落地,以数据湖作为数据源的数据资源,应发布逻辑实体并进行注册及关联;2)多源行整合和多源列整合的物理表,应新增逻辑实体并进行注册及关联,整合表的新增字段需发布属性并进行注册和关联。b)数据湖物理表副本的注册:同一个业务数据资源在数据湖的不同物理库中存储,首次落地的表为主表,其他的为物理表副本。此种场景下,副本表需与主表的逻辑实体关联且要有标识。元数据注册示意图如图5所示。7.4注册步骤7.4.1 准备度检查应按照以下要求进行准备度检查:a)技术元数据在集团公司数据治理平台已采集,包括物理表、虚拟表、视图;b)非结构化数据在集团公司数据治理平台已采集,包括基本特征类元数据;c)数据资源目录经过数据归口管理部门评审并通过集团公司数据治理平台发布。元数据注册物理部署图5数据湖物理表副本元数据注册方法7.4.2 元数据联应按照以下要求进行元数据连接:a)逻辑实体和物理表/虚拟表/视图一对一连接:在业务元数据与技术元数据连接的过程中,如出现一对多、多对一或多对多的情况,应按照73进行调整,保持逻辑实体和物理表/虚拟表/视图的对应;b)逻辑实体的属性与字段一对一连接:除了逻辑实体与物理表/虚拟表/视图要求一一对应外,属性和具备业务含义的非系统字段也要求遵从一对一连接;c)非结构化数据的属性与业务对象连接:文件无数据名称和业务对象的名称一一对应,基本特征类元数据和业务对象的结构特征信息一一对应连接。7.4.3 注册发布元数据注册完成后通过集团公司数据治理平台发布。8元数据运维元数据运维是为了通过对元数据进行分析,发现元数据设计、注册、使用的现状及问题,及时进行更新维护,确保元数据的完整、准确和一致。元数据运维应持续更新维护版本,支持对历史版本元数据的查询,以实现追溯和跟踪。元数据运维主要分为以下几个场景。a)基于数据更新发现,数据源上游创建字段或下游更新字段。b)虽制定了架构标准,但不知落地情况,比如某个属性建立了数据标准,但是却找不到对应落地的物理表字段。c)通过物理表的字段分析,发现很多字段缺少数据标准。d)元数据注册关系的删除:1)已注册的物理表下线后,物理表与逻辑实体的注册关系应及时删除;2)已注册的逻辑实体失效后,该逻辑实体下的所有注册关系应及时删除;3)已注册的逻辑实体和物理表都有效,但因业务发生变化需要删除注册关系,需要考虑该注册关系的删除对下游的影响,充分评估影响后再删除注册关系。e)无数据注册关系的修改:不允许直接修改元数据的注册关系,如需修改,先删除原有注册关系,再增加新的注册关系。f)数据源如果发生重构,需要删除原有的业务元数据与技术元数据的关系,重新采集并注册元数据。g)基于各业务领域数据架构中数据资源目录和数据标准的更新,业务元数据需要同步进行更新注册。9元数据应用用户可通过集团公司数据治理平台来查询和定位、管理和应用各类元数据。主要包括数据检索与展示、价值评估、血缘分析、影响分析、服务订阅等场景。a)数据检索与展示:D资源检索:通过集团公司数据治理平台以关键词搜索数据资源,包括数据资源目录、数据标准等,帮助用户快速定位数据、理解数据,满足不同场景的数据查询和共享申请需要;2)资源展示:搜索结果以树形导航、关系图等可视化方式展示各类元数据及关系,包括业务含义、层级结构、关联关系、数据分布等Cb)价值评估:1)热度分析:基于业务元数据及其关系,从数据分布、点击量、收藏量、共享频次等维度对数据热度进行评估并以热力图等形式进行展现,支撑后续开展资源价值评估工作;2)资源评价:对于已批准通过的数据共享申请,相关发起者可在平台提交数据资源的使用评价与问题反馈,助力于数据质量和数据服务的持续提升。c)血缘分析:快速定位数据来源和加工处理过程,帮助数据分析人员溯源数据问题。d)影响分析:剖析元数据的流向,协助判断元数据的变更可能造成的直接影响和间接影响,并根据影响范围对变更结果进行推送。e)服务订阅:提供数据资源目录订阅服务,定期向调阅服务的相关信息系统推送数据资源目录等元数据信息,促进更大范围的元数据应用。参考文献1 GB/T25100信息与文献都柏林核心元数据元素集2 GB/T36073-2018数据管理能力成熟度评估模型

    注意事项

    本文(Q_SY10017-2023元数据管理规范.docx)为本站会员(李司机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开