基于文档型非关系型数据库的档案数据存储规范.docx
ICS01.140.20A14A中华人民共和国档案行业标准DA/T822019基于文档型非关系型数据库的档案数据存储规范Specificationforstorageofarchiva1.databasedondocument-orientednon-re1.ationa1.database2020-05-01实施2019-12-16发布国家档案局发布弓Ic31范国2术语和定义.3总则-“1234适用性.规范性.开放性.互补性.1.4文档型数据冰字段4. 1字段要求2字段类型.5文档型数据解存储5. 1存储对象5.2存愤方式5. 3存储介质5.4存铺信息管理5. 5存储安全6档案数据导入6. 1导入对彖2导入方i3档案数据导入质量控制4档案数据导入的维护.7文档型数据库的拆分与合并1文档型数据座的拆分.2文档型数据库的合并-8档案数据导出.1导出对彖2导出形式3档案数据导出质量控制9文档型数据豚的智份、还原与家兔1文档里数据库的备份“2文档型数据雷的还原-3文档型数据库的恢友10文档型数据库管理与数据管理10.1数据库?3“10.210.310.4数据管理用户管理日志管理附录A(费料性附录)检索附录B(资料性附录)统计分析会考文献7778本标准按照GB/T1.1-2009给出的规则起草.清注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别这些专利的责任.本标准由国家档案局档案科学技术研究所提出.本标准由国家档案局归口.本标准起蔚单位:国家档案局档案科学技术研究所.本标准主要起SS人:&»影、陶光毅、张淑前、吕杰、王JB1.刘春阳.陈吉.目前,我国档案部门大都采用关系型数祭眸存便和管理档案数完.关系型数据眸通常将数据存储在二维表中,高度结构化,对数据的规冠性要求高.关系型数据库彼第很好地管理和存镭结构化数据.使用简单、功地强大.非关系型数据库突破了关系型数据库严格的表结构,矫决了关系型数据库模型简甲.不易表达巨杂选送数据结构的问联,存储的数据对象包括非结构化数据、半结构化数据和结构化数据.视处理数据对彖而古,目前非关系型数据库主要有域值存储.列存铺、文档型和图形四大类.本标准基于文档型数据库具备的功链编制.文档型数据库允许创由不同类里的字段,存健任意.格式的数据.在文档獴数据库中,文档是处理信息的St本单位,文档加数据库存楮每个对象的所有信息.并且每一个被存悌的对彖可与任一其他对象不同.采用文档型数据除,能够简单地将不同类型、不同格式的档案数据装入或映射到数据库.从业务角度看,档案数据主要来自于各类业务系统产生的数据和传统戟体档案数字化刖本.每条记录一次写入、多次访问目几乎不可更改,适宜采用文档型数据座存储.文档型数据库与关系里数据库不相互排斥,它们之向可以相互交换数据,从而相互补充、扩展.为了解决大规模档案数据集合多重数据种关带来的挑战,优化档案数据存佬,推动档案数据科学管理,鉴于关系型数据库和文档型数据库各自的特点和优势,档案部门可以将文档型数据库、关系型数据库共同作为档案数据存铭和管理的工具.基于文档型非关系型数据库的档案数据存储规范1范围本标准规定了使用文档型数据库存储档案数据的总体要求,提出了使用文档型数据库存链和管理档案数据的基本功能和实施方法.本标准适用于各级各类档案馆以及机关.团体.企事业单位对档案数据的存储.2术语和定义下列术语和定义适用于本文件.2. 1数据data适合传输、诠程或者手动、自动处邃,以一种规范的方式表达的密实或指令.(GB/T34840.3-2017,A.1注:档案数据包括电子档案的内容数38.传统戏体档案数字化加本的内容数据以及蒋古的元数里(含目录数据.2.2元数据metadata描述电子档案的内容、背震、结构及其管理过程的数据.DA/T58-2014,定义2.162.3内容散据contentdata电子档案和传统绫体档案数字化副本固有的信息.2.4数据库database按照敬念结构组织的数据的汇集,它描述这些数据的特征及与数据对应的实体间的关系并支持一个或多个应用领域.(GB/T5271.>2000,定义01.08.052.S关系型数抠库re1.ationa1.database数据按关系模型来组织的数据雷.(GB/T5271.17-2000,定义17.04.05注:关系模型指用二维去的形式去示实体如实体间联乐的收据模生,而一个关系型数据座就是由二惟去及其之间的酸系所组成的一个数施姐织.2.6非关系里!数据库non-Te1.ationa1.database数据不按关系模型来姐织的数宪库.注NoSQU抵非关系S1.戳JS库.非关系如数挺际去栉了关系型效据序的关系型特性,故身之间无关系,没有关系型数据忤严格的小结内.防时可以存健自定义的数38格式.双处理数行对象而言,目前非关浜型政克庵主要右国慎存fi«.文相生和图形四大类.文档型效据库允许创建不同类型的字段由信任雳格式的数据.在文档at数纪际中,文档星处理散据的以本班位.2.7结构化数据Structureddata能塔用统一的结构加以表示的数据,或者说能用二维表结构进行逻娼表达的数据.2 .8半结构化数据semi-structureddata具有结构性,但结构变化大,且腐以用结构化数据的处理方法将其放进二维表的数据.示例:XMI文档内容,每项都被一对标记豺记来.5f1.<tite><tit1.e>,表面上看是结梅化数据,怛<tite></tit1.e>之间的故据却是千变万化,这是舆型的半结构化数拈.3 .9非结构化数据unstructureddata不能用数字或者统一的结构表示的数据,或没有固定结构的数据.这些数据不能用二维去存放.2. 10文档型数据库的拆分document-orienteddatabasesp1.ttng一个数据库被分成若干个数据完整的子数据库.2. 11文档型数据库的合并document-orienteddatabasemerging若干个子数据库合成一个数据完整的数据库.3总则3. 1适用性文档型数妪库应适用于大规模,多种类、多种格式档案数58的存储.备份和管理.4. 2规范性文档金数据库结掏应满足档案数据存懂的要求,使用文档型数据库存储档案数据应将内容数据和元数据按照规范结构装入或映射到数据库中,保蹿两者之间的可*联系.3. 3开放性文档型数据库结构应具有开放性,能与搜索引擎及相关工具软件集成,能与其他类型数据库和系统交换与共享档案数据及相关信息.3.4互扑性基于文档型数据库的档案数据存铭与基于关系型数据库的档案数据存储和管理可形成互补.文档型数据库是内容数据的存铭方法之一,元数据的存储可采用文档型数据库和关系型数据库,日志等的存储和管理宜采用关系型数索库,建立由关系型数据件和文档型数据牌组成的数据比系统.4文档型数据库字段4. 1字段要求文档组数据库应能创建不同类型的字段,存储任意格式的档案数据,并能根据用途和需求变化对字段进行增加,制除和傕改.24. 2字段类型a)b。de)。文档型数据峰字段类型直包括字符由、数值、日期、时间、文本.二进制等,并符合以下规定:字符串字段:用于存铺定长字符串和变长字符串.数值字段:用于存储整数和实数;日期字段:用于存链日期类型数据;时间字段:用于存铺时间类型数据;文本字段:用于存储文本中的句子和段落;二进制字段:用于存储任何类型的字符,包括ASCH字符,以及图像、视频、音频等二进制数据.5文档型数据库存储5. 1存储时象文档型数据库的存储对象包括内容数据等非结构化数据.XMI文件等半结构化数据以及元数据等.6. 2存储方式文档型数据廊存储方式包括:a)将内容数据和元数据全部装入数据豚,技照与元数据的匹配关联关系,内容数据存铺在文档型数据库的二进制字段中;b)将元数每装入数珊比,格内容数据映射到数据座;c)同一数据库可存储多种格式的内容数据,不同记录(行)的内容数据的格式可不同;d)同一条记录可存铺一个或多个内容数据,同一条记录(行)中多个内容数据的格式可不同.1.3 存储介质5. 3.1文档型数据用可存储在横速、固态硬盘.光飘等存储介质上.6. 3.2文档理数据库可在不同的存储介质之间转移.1.4 存储信息管理文档型数据座存储档案数据的过程中,应显示以下信息:一存储档案数据进度和存储完成的信息;一存储过程中出现的问题或错误的佶息.5. 5存傥安全存储档案数据的文档型数据库应保存在安全的存储系统中和存铭介质上,防止被非没权改动数据库存信位置的设置,并保障档案数据不被非授权修改、访问、州除、复制和破坏,对授权修改、访问、删除和爱制要做审计艰踪.涉空档案数据在送存借应加曳,涉密档案数据导出和备份应采取数字签名等安全措施.6档案数据导入6. 1导入对航导入对彖包括内容数据等非结构化数据、XM1.文件等半结构化数据以及元数据等.6.2导入方法6.2.1在线录入数据在税录入是借助录入表单,将内容数据和元数据m接录入到文档型数据库,一次建立一条记录.6.2.2批量导入故据批量导入是按照内容数据与元数据的匹配关联关系,通过导入程序.将内容数据和元数据批量导入文档型数据族.6.2.3导入XM1.文件将XM1.文件和内容数据通过导入程序导入文档型数据库.6.2.4导入数据库数据格关系型数据库中的数据,通过导入程序导入文档型数据库,并将挂接在关系型数据库的内容数据装入或映射到文档型数据座;或将一个文档型数祭博中的数据,通过导入程序导入另一个文档型数娓*6.2.5导入其他系统的数据从我他系统导出的数据按照原有的数据类型和文件格式导入文档型数据库.其他系统包括:一电子档案管理系统;一档案告理的其他相关系统;一形成电子文件的业务系统等.6.3档案数据导入质量控制6.3.1对导入文档型数据球的档案数据的字段类型和文件格式进行设工,并在导入文档型数据眸时按照设施自动进行检音,对不合格的字段类型和文件格式显示提示信息,6.3.2记录档案数据导入文档型数据库的数量.时间、我体、处理人员、格式转换等处理过程相关信息.6.3.3自动监测和过魏错误数据,进行数据完整性校验,日志文件自动记录档案数据导入文档型数据庇产生的错误,对错误显示提示信息.6.3.4对内容数据、元数据田京导入文档型数据库进行识别.6.3.5允许不同归档单位的相同档案数据导入文档型数据库.6. 3.6设置记录档案数据导入文档型数据陈过程的日志,确保能够跟踪、审计、检索(参见附录A).统计分析(参见附录B).6.4档案数据导入的维护档案数据导入的维护包括:a)增加、删除、撤回/恢短、批量修改文档型数据库中的记录;b)增加、出除、修改文档型数据库中记录的内容等.7文档型故据库的拆分与合并7. 1文档型数据库的拆分拆分以记录为单位.拆分的方法包括:a)独立若干个结构相同的子数据库,确定分配给各子数据库的原数据库的起始记录号和终止记录号,从原数据库中提取相应的记录,按,校序将记录导入各子数据库:b)建立若干个结构相同的子数据库,确定各子数据库的最大容量,计J4各记录的容量和分配给各子数据库的容0(分别小于各子数据库的圾大容量),从原数据库中提取相应的记录,按顺序将记录导入各子数据库;c)建立若干个结构相同的子数据库,利用检索(卷见附录A)和统讨分析(多见院录B),从原数据席中提取相应的记录,技照记录的数量或数据牌容量要求导入各子数祭年:d)建立若干个结构相同、但与原数据库结构不同的子数据库,利用字段读写访问限制功能,从原数据库中提取部分字段的记录,按照记录的数量或容量要求导入各子数据库.7. 2文档型数据库的合并合并以记录为单位.合并的方法包括:a)确定各子数据底合并记录的记录号,从各子数据博中提取相应的记录,按顺序将记录导入其中一个子数据弹或新建的与子数据比结构相同的数据拂;b)确定各子数据库合并记录的容量,从各子数据库中提取相应的记录,按,依序将记录导入耳中一个子数据库或新建的与子数据库结构相同的数据库;C)利用楼索(参见附录A)和疣计分析(参见附录B),从各子数据库中提取相应的记录,按照记录的数量或容量要求导入其中一个子数军博或新建的与子数据库结构相同的数据仰;d)新建一个与子数据库结构不同的数据库,利用字段读写访问限制功能,从各子数据库中提取部分字段的记录,按照记录的数量或容量要求导入新建的数据库.8档案徼据导出8. 1导出对象导出对象包括内容数据等非结构化数据、XM1.文件等半结构化数据以及元数据等.8. 2导出影式导出包括以下形式:a)从文档型数据库导出全部数据;b)从文档型数据库按记录(行)导出部分数据;按字段(列)导出部分数据;利用检索(额见附录A)和统计分折(参见附录B)导出部分数据;c)从文档型数据库导出的元数据存幡到exce1.、CSV.xm等文件;d)从文档型数据库导出的内容数据存储到文件系统.8. 3档案数据导出质控制8. 3.1对导出文档型数据诲的档案数据的文件格式进行设置,并在导出文档型数据座时按照设JS自幼进行桧直,对不合格的文件格式显示提示信息.8.3.2记录档案故据导出文档型数据库的数量、时间.载体.处理人员.格式转换等处理过程相关信息.8. 3.3自动鉴测和过波错误数据,建立数据导出的检验机制,日志文件自动记录档案数据导出文档型数据库产生的错误,对错误显示提示信息.8. 3.4设罩记录档案数据导出文档型数据库过程的日志,确保能够跟踪、审计、检索(尊见附录A)、统计分析(参见附录B).9文档型数据库的备份、还原与恢复9. 1文档型数据库的备份10. 1.1备份的内容文档型数据库笛份的内容应包括数据库数据、数据库结构和数据库定义文件.应按源数据库结构(字段)备份数据库数据.11. 1.2整体备份当文档/数据库的容量小于备份介质的容量时,无需对文档型数据库做任何处理,自接对数据库整体进行爱制笛份.12. 1.3拆分备份当文档型数据库的容量大于省份介质的容量时,应按照7.1所述,将数据库拆分成容量小于备份介质容量的若干个子数据比,然后将各子数据牌分别备份到备份介质上,保留原有的访问控制策略,并保证原数祭廊的完整性.13. 1.4增量与差异备份对文档型数据库中新增的档案数据进行增量备份,对被修改的档案数据进行差异缶份.14. 1.5在线备份和离线备份在线笛份是将数据库数据、数据库结构和数据库定义文件备份到在魏存链介质上.商战备份是将数据库数据、数据库结构和数据库定义文件密份到离魏存铭介质上.15. 1.6自动备份自动符份通过软件的控制方式将数据库数据、数据库结构和数据库定义文件有规律地进行毡份.16. 2文档型数据库的还原17. 2.1整体还原整体还原是将整体备份的数据库数据还原到原数据库系统.18. 2.2合并还原合并还原是将拆分备份的多个子数行廊数据还原到原数据库系统,采用的方法包括:a)在新建数据库系统合并全部子数据库数据,然后将合并形成的数据库数据还原到原数据库系统;b)在原数祭扉系统中合并还原全部子数据件数据.19. 3文档型t据库的恢复20. 3.1正常恢夏用备份的数据库数返覆盖原数据库数据.9. 3.2异常饮夏在异雉情况下,用备份的数据库数据、数据库结构.数据库定义文件和日志文件进行版J5,并进行数据完整性校验,以确保数奇的完整性.10文档型数据雷管理与数据黄理10. 1数据库管理数据库管理包括:a)数温库结构的定义、设计、复制、导入、导出;b)数娓库的新建、例照、幡改,数据库字段依新建、出聆.修改、排序;c)数据库蒯1权限的新建,地除.转移;d)数据库管理员授权用户访问数翅库.数据库授权访问包括但不限于:授权用户访问全部数据件或部分数据麻;没权用户访问数据牌的全部字段或部分字段;授权用户访问包含特定内容的记录或不包含特定内容的记录:e)数据库存储位置的设置;数据库的存储介质的选择;f)数据库的备份、ft¾J.,锵存烤、迁移、还原与恢复.10.2笈据管理数据管理包括:a)档案数据导入和导出数据库;b)数据库拆分与数据库合并;C)数据库记录的增加、删除、修改;d)数据库数据的恢*.还原及内容覆盖的检测提醒.10.3用户管理用户管理包括:a)用户的新增、修改.剧除.激活、锁定等;用户信息管理和维护;b)用户的分组、分类与权限控制和管理;c)记录用户访问数据库,包括但不限于:一登录系统的时间.次数;一访问数据库和档案数据的时间、次数;一访问数据库的名称和档案数据的内容;一用户登录的IP地址.10.4日志管理日志管理包括分类'存铭、福份、检索,宜询和险理日志信息.附录A(资料性附录)检索A1中文自动分词与中文分词词典中文索引和检索是对档案数据中的中文单字和词(或词组)进行索引和检索.为提高文档型数据库中档案数据的直准率和检索速度.实现对中文内容的统计分析,应对内容数据和元数据的中文信息进行中文自动分词,并根据不同的档案门类编写相应的中文分词词典.A.2索引A.2.1应只有对文档型数据豚中的内容数据和元数据的文字信息进行全文索引的功能,包括:一对字符串字段每个字.词、词茎.整个字段内容进行索引;一对文本字段每个字.词、词茎进行全文索引.A.2.2应只有对日期、时间和数值进行索引的功能.A.2.3索引与数据库可保存在同一位置,也可分别保存在不同位置.A.3检索A.3.1检索范囤检索范围包括内容数据和元数据的文字信息.A.3.2数据库一股检索数据库一般检索包括:一全文检索:对所有字符率字段和文本字段的全部字符进行检索;一字段检索:对具体字段的数据和内容进行检索,包括对字符由字段、文本字段、数值字段.日期字段,时间字段的数据和内容进行检索;一分类检索与校尚洛索;一布尔检索:用逻坦或、潺辑与.逻辑异或,逻辑非等运H符进行检索,带运算符检索的效果如图A.1所示;每个M1.I1.代表包含词的记求集,阴影部分是命中结果ttttnANDM络计算机<*ItnmXQRm«计算机No1.Xtk图A.1布尔检索效果图一二次检索:在前面(上次或更前面)检索结果的基础上进行检索,一数值检索:用运箕符在指定数由范围进行检索;-日期检索:用运算符在指定日期范圉进行检索;一时间桧索:用运及符在指定时间范困进行检索;-时间舐”检索:直找某个时间段新增或修改的记录.A.3.3数据库检索限制数据库检索限制包括:一检索和显示部分数据座;一检索和显示部分字段;一检索和显示包含特定内容的记录;一对部分信息进行屏蔽和避盖.A.3.4多座检索多库洛索包括:-同构多库检索:对相同结构的多个文档型数据库同时进行检索;一异构多库检索:对不同结构的多个文档里数据库同时进行检索.A.3.5数据库间接检索文档型数据库之间在结构上没有相互关联的字段,每个数据库都是完全独立的数据库.文档型数据瘴之间的关联查找需采用间接检索.间接检索是用一个数据麻检索所获得的结果作为检索班,对本数据库或耳他数据库迸行检察.示例:病淀数据库收裁关于各押疾病的症状,失利和治疗的效密,病历数/际收或各种疾疣诊断的病历.在希历数局专解自找到拜娓失调”的病历,但不能找出与母眼失调症状相关的记录.通过何接检索,先在病症/JSrt=中自我“18网关,然后用命中记信之正双字段的内容自动作为检察局在病历数般库迸行桧案.A.4词表与词表检索A.4.1词表词表指主题词表或叙词表,是记录有关词的内容.概念以及相互关系的语言工具.在文本处理系统中,词表是提高检索质的强有力的工只.典型的词表是根据意思或内容把第个词与词(或词组)之间的关系,按照依状(或其他形状)结构上下左右相互关联起来的数据库.词去应包括但不限于如哀A.1所列的五种词:主词(控制词).同义词.广义询、狭义词和相关词,它们既可以是中文的词,也可以是其他语种的词.«A.1词融结构名泰Ne角色名含义说明主询受控词.优选询用鸵YCT表这拿一特定慨念的标猥术语闰义词非优选词代或DUF与主词含义相同的H伯建调广义词上位词修或SBT概念上包含主词的上一层术语狭义词下位词分或FNT概念上比主谒更狭的下一层术语相关词关联词隹或CRTR念上和主词有关联.并列的术语A.4.2词表检索词表沧索是用词表库中的词及词之间的逻我关系对文档型数据库中的文字信息进行检索,是保降查全率、身准率,提高检索质量的强有力的手段.词表检索方法包括:一用主词和同义词进行检索:一用主词、同义词和广义词进行检索;一用主词、同义词和狭义词进行桧案;一用主词、同义词和相关词进行捺索.示例:主词号自行车,同义词是单车.脚茸车和bicyc1.e.采用主词和同义词进行松索的,只输人“自行车.进行SS找,就会自动内找含?3"自行车、三.脚第车、bicyc1.e"等四个词的记录.A.5检索结果排序和打印A.5.1对检索结果进行琲序,包括单圾排序和妥圾排序.多级排序是指检索结果的输出先按第一字段内容(如JS目)排序,如遇有内容相同的条条记录,再按另一字段内容(如单位名称)排序.A. 5.2对检索结果进彳亍全部或部分打印、输出和下我.IO的录B(资料性附录)统计分析B. 1统计分析的对象档案数据的统计分析对象是内容数据和元数据的文字信息.8. 2统计分析的方法8.2. 1按照字段类型进行统计分析按照字段类型进行统计分析包括:a)字符串字段统计分析.对82个字段内容和字段中的词汇(包括词、单字、数字等)分别进行统计分析,给出整个字段内容相同和不同的记录数、字段所含词汇出现的频度和记录数;示例:全宗名、日档部门*KS,发文单位'费任者等字段是字符京字段,利用统计分析,狭得全宗名.归档部门*发文单位.货任者的数量和分布.b)文本字段统计分析是对文本字段中的词汇进行统计分析,给出不同词汇出现的烦度和记录数;c)数值字段统计是对给定的记录,统计最大.最小、总和.平均等数值;d)数值字段统计分析是对拾定的记录.故俏范围和间隔,列出故佰分布情况;e)B期字段统计分析是对给定的记录、日期范囹和间隔,列出各日期段的分布情况;f)时间字段统计分析是按给定的记录范困.时间范围和间隔,列出各时间段的分布情况.8. 2.2档案数据内容的统计分析按照档案数据内容进行施计分析,包括:1/K1./1.>,I,abCdef内容数据和元数据的数量和容量的统计分析;档案全宗、门类、归档部门、责任者、题名等的统计分析;档案数据文件格式的数量和容量的统计分析;内容数器和元数据的保密.解密.开放.保管朝阳的统讨分析;不同时间段各类故据和内容的统计分析;各类日志信,息杳询的统计分析.扬考文献1JGBT5271.1-2000信息技术词汇第1郃分国本术语(2 GB'T5271.17-2010信息技术词汇第17部分做据库(3 GB/T18894-2016电子文件归档与电子档案管理规范(4 GB/T34840.3-2017信息与文献电子办公环境中文件管理原则与功能要求第3部分:业务系统中文件管理指南与功能要求(5 DA,T58-2014电子档案管理基本术语