数据分类与编码标准介绍.ppt
医药卫生科学数据共享网总中心,国家科技基础条件平台医药卫生科学数据共享网资源体系建设与标准规范建设培训,张业武,资源体系建设课题组,标准规范建设课题组,数据分类与编码标准介绍,张黎黎,主要内容,数据分类与编码的基本原则与方法,数据分类编码方案,数据分类与编码的背景意义,!,不能缺少,科学数据共享活动涉及科学数据的汇交、分发、服务和应用环节,也涉及科学数据的采集、加工和处理环节。分类是人们认识事物的基础,对某种类别的数据作层次分类并对分类结果赋予特定代码,以达到对该种数据类别或其分类结果在语义上无歧义理解。科学数据分类编码的目的在于准确地识别主题数据集的内容属性,将主题概念进行分析,并将分析的结果转化为分类编码语言;实施对数据的有效管理,并能按类别开发利用数据,实现数据共享。,科学数据共享,一、背景意义,一、背景意义,数据集内容可以从不同的属性进行划分:,疾病分类,ICD-促进死亡率统计指标的可比性;图书文献分类、学科分类,中图法-组织藏书排架;业务属性,数据集分类-高层进行数据归并和信息组织。,体现-数据集内容的主题属性,医药卫生科学数据集的内容,围绕数据产生过程中所容纳的一系列主题描述展开。主题成为数据集分类与编码的内容属性之一,同时,数据集若体现机构、学科、病种等属性,也要做为内容的分类标识属性。,一、背景意义,内容二,数据分类与编码的基本原则与方法,数据分类编码方案,数据分类与编码的背景意义,标准研究意义,本标准就是对医药卫生科学数据主题数据集进行分类和编码时应遵循的原则和方法,是分类和编码标准制定的指导性标准。确立数据分类与编码的原则与方法,指导和规范各数据资源建设单位研究和制定各类共享科学数据分类与编码标准,推动和促进科学数据的集成与共享。,标准内容,封面目次前言引言名称,1.范围2.规范性引用文件(略)3.术语和定义(略)4.分类原则5.分类方法6.类目设置规则7.编码原则8.编码方法9.代码设计10.分类与编码标准文档结构,1.范围2.规范性引用文件(略)3.术语和定义(略),4.分类原则,1)系统性原则 综合考虑数据主题一致性,按其内在联系进行系统化排列,确保类目唯一、结构合理、层次清晰,减少冗余。2)实用性原则 满足数据集分类编目的简便性、可操作和通用性需求和数据集查询的一致性理解。3)可扩展性原则 保证分类体系框架适应数据集不断丰富的内容和日益增长的种类与数量。,4.分类原则,4)兼顾科学性原则 自顶向下,优先选择最能代表卫生信息数据集主题的语言、词条定义类目名称,编制受控分类体系表。5)稳定性原则 使用稳定的因素作为分类依据,同时提高分类体系的可延展性或兼容性,促进稳定性。,1)主题优先法,5.分类方法,分类体系首先依据主题构建主分类框架,分类框架各层级类目可表示为一级、二级、三级类目等。,5.分类方法,2)多属性复分法,数据集以相同主题构建,在若干相同主题数据集中,又根据其个性,如时间、地域、疾病、学科、机构等多属性,构成辅助分类体系,即复分类体系。,5.分类方法,2)多属性复分法,5.分类方法,3)组配分类法,组配分类法是按照多维度、交叉性方式,将数据集主分类框架与复分类表组合使用,对数据集进行分类的规则。在某个主分类下的卫生信息数据集的组配分类示意。,5.分类方法,3)组配分类法,6.类目设置规则,1)主分类目界定规则,类目名称与主题对应 类目名称规范 同位类互斥 数据集存在性 类目均衡 层次逐级隶属,6.类目设置规则,2)复分类目界定规则,复分类表的类目根据特有属性分区段设置,每个区段对应数据集的一个特有属性,构成一个复分类的类目。复分类的类目间无层级、无关联,无顺序约束,属于分区段的松耦合约束。复分类目区段个数可根据实际需要进行扩展。,6.类目设置规则,3)主分类目层级约束规则,分类体系的展开层次决定着分类导航系统的导航程度,层次越多越深,知识被组织得越细密,用户查找信息耗费的时间和精力就越多。主分类层次应控制在3级-6级之间。,6.类目设置规则,4)复分属性有限性控制,复分类表属性宽度的控制应该充分考虑数据集内容的特有属性进行设置,详细描述、全面覆盖数据集内容信息,多属性组配,增加数据集管理维度、提高数据组织和生产的效率和质量,增强数据集聚类的灵活性、增加检索入口,适应计算机检索的需要。,1)唯一性 在一个编码体系中,每一个编码对象仅应有一个代码,一个代码只唯一表示一个编码对象。2)匹配性 代码结构应与分类体系相匹配。3)可扩充性 代码应留有适当的后备容量,以便适应不断扩充的需要。,7.编码原则,4)简洁性 代码结构应尽量简单,长度尽量短。5)区段性 在数据集编码体系设置若干区段,每个区段表达不同的类目属性,便于实现不同维度检索。,7.编码原则,8.编码方法,按GB/T 7027规定的方法,1)主分类表码位设计 分类框架中每一个类目设定惟一的主分类编码,编码为11位混合码。,9.代码设计,2)复分类表码位设计 复分类表需依据数据集的特有属性采用分段编码设计,其基本内容可以由诸如卫生机构、疾病分类和学科分类等多个区段组成,表述格式为(GB/T 11714)-.(GB/T 14396)-.(GB/T 13745)-。对扩增属性,代码按照同一规则设计。,9.代码设计,10.分类与编码标准文档结构,封面目次前言(引言)1.范围2.规范性引用文件3.术语和定义4.分类原则和方法5.类目设置规则6.编码原则和方法7.编码设计规则8.分类与编码的应用9.分类与代码表10.附录,内容三,数据分类与编码的基本原则与方法,数据分类编码方案,数据分类与编码的背景意义,1.范围2.规范性引用文件(略)3.术语和定义(略)4.分类原则与方法5.类目设置规则6.编码原则与方法7.编码设计规则8.分类与编码的应用9.分类与代码表10.附录,标准内容,标引的原则标引步骤组配技术的使用分段标记法的使用分类标引中若干问题的处理,8.分类与编码的应用,9.分类与代码表,报告完毕,谢谢!,