第四讲元数据课件.ppt
2022/11/29,信息管理系,1,第四讲 元数据,2022/11/29,信息管理系,2,元数据(MetaData), 就是“描述数据的数据”或“关于数据的结构化数据”。哈佛大学数字图书馆项目定义: 元数据是帮助查找、存取、使用和管理信息资源的信息。,一、元数据概念,2022/11/29,信息管理系,3,具体: 元数据是用来描述数据本身的内容特征和其它特征的数据, 目地是加强对网络信息资源的发现、识别、开发、组织和评价, 而且对相关的信息资源进行选择、定位、调用, 追踪资源在使用过程中的变化, 实现信息资源的整合、有效管理和长期保存。,2022/11/29,信息管理系,4,例如: 文献信息资源, 元数据可以是目录、索引、摘要及主题等文献特征和属性。从元数据的提供者角度来看, 元数据能改进针对文档的检索能力, 特别是搜索的精确度、以及对资源的控制和管理问题。对于电子文档所存在的格式和控制方法多样性问题, 元数据能支持用户决策过程。,2022/11/29,信息管理系,5,DL信息体系结构,2022/11/29,信息管理系,6,元数据是关于数据的数据(data about data),此术语指任何用于帮助网络电子资源的识别、描述和定位的数据。元数据是关于数据的结构化的数据(structured data about data)。,2022/11/29,信息管理系,7,元数据是与对象相关的数据,此数据使其潜在的用户不必预先具备对这些对象的存在或特征的完整认识。元数据是对信息包(Information package)的编码描述 ,其目的在于提供一个中间级别的描述,使得人们据此就可以做出选择而无需检索大量不相关的全文文本。,2022/11/29,信息管理系,8,元数据,即代表性的数据,通常被定义为数据之数据。它包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发展和检索。,2022/11/29,信息管理系,9,应用于不同领域的Metadata格式 网络资源:DublicCore、ROADSTemplate、CDF(ChannelDefinitionFormat)、WebCollections文献资料:MARC(with856Field),DublicCore人文科学:TEIHeader(TextEncodingInitiativeHeader)社会科学数据集:ICPSRSGMLCodebook(Inter-universityConsortiumforPoliticalandSocialResearch)博物馆与艺术作品:CIMI(ComputerInterchangeofMuseumInformation)、CDWA(CategoriesfortheDescriptionofWorksofArts)、RLG REACH Element Set.,2022/11/29,信息管理系,10,视觉资料:VRA (Visual Resources Association) Core Categories for Visual Resources音乐资料:SMDL(Standard Music Description Language)政府信息:GILS(Government Information Locator Service)地理空间信息:FGDC/CSDGM(Federal Geographic Data Committee/Content Standards for Digital Geospatial Metadata),2022/11/29,信息管理系,11,数字图像:MOA2metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images档案库与资源集合:EAD(Encoding Archival Description)技术报告:RFC1807:A format for Bibliographic RecordsFTP文件和FTP文件库:IAFA Templates (Internet Anonymous FTP Archives Templates)连续图像:MPEG-7,2022/11/29,信息管理系,12,二、元数据的目的,2022/11/29,信息管理系,13,2022/11/29,信息管理系,14,2022/11/29,信息管理系,15,2022/11/29,信息管理系,16,三、元数据结构,2022/11/29,信息管理系,17,2022/11/29,信息管理系,18,2022/11/29,信息管理系,19,2022/11/29,信息管理系,20,2022/11/29,信息管理系,21,3 语义结构:,2022/11/29,信息管理系,22,2022/11/29,信息管理系,23,2022/11/29,信息管理系,24,2022/11/29,信息管理系,25,2022/11/29,信息管理系,26,2022/11/29,信息管理系,27,2022/11/29,信息管理系,28,2022/11/29,信息管理系,29,2022/11/29,信息管理系,30,资源描述框架(Resource Description Framework)数据描述模式而且采用基于 XML的句法提供语义、结构、句法三个层次的互操作能力模块化的互操作能力有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用。,四、元数据描述框架RDF,2022/11/29,信息管理系,31,RDF是一个与任何特定语法无关的抽象的资源表达模式,用来反映资源(Resource)、属性(Property)与属性值(Value),资源resource,属性property,属性值value,语句statement,2022/11/29,信息管理系,32,换言之“张三是由以下网址所标识的资源的作者:http:/ ”,http:/,作者author,张三,2022/11/29,信息管理系,33,http:/,作者author,张三, 张三 ,RDF基于XML的描述实例:,RDF描述实例,2022/11/29,信息管理系,34,http:/,DC:Creator,张三,Dublin Core基于RDF的描述: 张三 ,基于RDF的DC描述实例,2022/11/29,信息管理系,35,1)http:/www.w3.org/1999/02/22-rdf-syntax-ns# RDF标准申明2)dc=http:/purl.org/dc/elements/1.0/ DC标准申明,Notes:,2022/11/29,信息管理系,36,五、元数据种类,由于网上数字资源的形态各异, 既有论文、会议录等普通电子文本, 也有图像、声音、网页等, 不同形式的数字资源对数据格式的要求也不一样, 因此现在有多种描述网络数字资源的元数据格式, 到目前为止还没有出现成熟的统一格式。 两种:Marc、 DC,2022/11/29,信息管理系,37,1 MARC(Machine-Readable Catalogue)元数据 机读目录格式MARC 是图书情报领域广泛应用的标准格式, 国际通用的MARC 标准为USMARC和UNIMARC标准。我国的MARC 标准(CNMARC) 是在UNIMARC 标准的基础上加以补充规定形成的。由于多语种图书文献的存在, 目前我国的机读书目数据实际上是以CNMARC 和US-MARC为主,其他MARC格式为辅的现状。,2022/11/29,信息管理系,38,MARC 格式可由四个部分组成, 其中记录头标区固定为24 个字符长, 为记录处理提供基本参数。地址目次区由若干目次项组成, 每个目次项为定长12 个字符, 标识某MARC 字段在整个MARC 流中的位置。数据字段区由一些可变长的数据字段组成, 除了001 字段和005 字段由数据和一个字段分隔符组成外, 其余每个字段都有两个指示符, 后接若干子字段。,2022/11/29,信息管理系,39,整个MARC 数据流经检测有效才能成为书目数据库的正式书目数据。MARC 元数据格式主要用于描述图书文献资源。,2022/11/29,信息管理系,40,MARC 局限性: ( 1)MARC 描述手段往往只适用于图书馆; (2)MARC 需要在专门的软件系统中使用,而且不太适应互联网的环境; (3) 修订程序相当复杂,而且非常缓慢; (4) 适用于完整的、静止的信息内容的处理,不易处理动态的多媒体信息; (5) 编制一条机读目录不仅需要经过严格的专门训练,而且需要花一定的时间 。,2022/11/29,信息管理系,41,2、DC 元数据简介 1995 年3 月, 在美国俄亥俄州的都柏林召开的第一届元数据研讨会上, 52位来自图书馆界、电脑网络界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。经过与会代表的商讨和辩论, 产生了一个精简的元数据集都柏林核心元素集(Dublin Core Elem ent Set) , 简称都柏林核心(DC)。,2022/11/29,信息管理系,42,DC由15 个基本元素构成。由于它具有简练、易于理解、可扩展、能与其他元数据形式进行桥接等性能, 能较好地解决网络资源的发现、控制和管理问题, 使它成为一个较好的网络资源描述元数据集, 已经成为美国国家标准, 并正在逐步成为世界公认的标准。,2022/11/29,信息管理系,43,DC产生与发展,2022/11/29,信息管理系,44,1)、DC元数据的类型,2022/11/29,信息管理系,45,2)详细描述,2022/11/29,信息管理系,46,2022/11/29,信息管理系,47,2022/11/29,信息管理系,48,2022/11/29,信息管理系,49,2022/11/29,信息管理系,50,2022/11/29,信息管理系,51,2022/11/29,信息管理系,52,2022/11/29,信息管理系,53,3)DC 修饰词(分为两类):(1)元素的进一步限制 该类修饰词使元素的含义更为狭窄或专指, 进一步限定的元素继承了未限定元素的外延, 便具有更为严格的内涵。如果使用者不明白经过进一步限定的术语的特指含义,可以忽略修饰词, 直接将它作为未修饰的元数据元素来理解。用于修饰元素的进一步限定的定义应该可以方便的得到。,2022/11/29,信息管理系,54,元素 限定属性 说明Title Alternative 替代标题Creater 暂无限制属性,2022/11/29,信息管理系,55,2022/11/29,信息管理系,56,元素 限定属性 说明Subject LCSH 国会图书馆主题词表* MeSH 国家医学图书馆主题词表* DDC 杜威十进分类表* LCC 国会图书馆分类表* UDC 国际十进分类表*,2022/11/29,信息管理系,57,2022/11/29,信息管理系,58,元素 限定属性 说明Description tableOfContents 目次 Abstract 文摘Publisher 暂无限制属性,2022/11/29,信息管理系,59,2022/11/29,信息管理系,60,2022/11/29,信息管理系,61,2022/11/29,信息管理系,62,2022/11/29,信息管理系,63,元素 限定属性 说明Contributor 暂无限制词Date Created 制作日期 Valid 有效日期 Available 可获得日期 Issued 发表日期 Modified 修改日期 DCMI Period DCMI日期编码* W3C-DTF W3C-DTF日期编码*,2022/11/29,信息管理系,64,2022/11/29,信息管理系,65,元素 限定属性 说明Type DCMIType DCMI资源类别编码*,2022/11/29,信息管理系,66,2022/11/29,信息管理系,67,元素 限定属性 说明Format Extent 资源范围 Medium 物理载体 IMT internet 资源格式*,2022/11/29,信息管理系,68,2022/11/29,信息管理系,69,2022/11/29,信息管理系,70,2022/11/29,信息管理系,71,2022/11/29,信息管理系,72,2022/11/29,信息管理系,73,2022/11/29,信息管理系,74,2022/11/29,信息管理系,75,元素 限定属性 说明Identifier URI 资源唯一标识符号*,2022/11/29,信息管理系,76,2022/11/29,信息管理系,77,2022/11/29,信息管理系,78,元素 限定属性 说明Source 暂无限制词Language ISO 639-2 ISO 639-2 语种代码* RFC 1766 RFC 1766语种代码*,2022/11/29,信息管理系,79,2022/11/29,信息管理系,80,2022/11/29,信息管理系,81,元素 限定属性 说明Relation IsVersionOf 是另一种资源的一个版本 HasVersion 有其他资源作为其他版本 IsreplacedBy 被另一资源取代 RePlaces 取代另一资源 IsRequiredBy 被另一资源所需要 Requires 需要一资源 IsPartOf 是另一资源的一部分 HasPart 有另一资源作为一部分 IsReferencedBy 被另一资源所参见,2022/11/29,信息管理系,82,元素 限定属性 说明Relation References 参见另一资源 IsFormatOf 是另一资源的另一格式 HasFormat 有另外格式 URI 使用URI描述关联资源*,2022/11/29,信息管理系,83,2022/11/29,信息管理系,84,2022/11/29,信息管理系,85,2022/11/29,信息管理系,86,2022/11/29,信息管理系,87,2022/11/29,信息管理系,88,2022/11/29,信息管理系,89,2022/11/29,信息管理系,90,2022/11/29,信息管理系,91,2022/11/29,信息管理系,92,2022/11/29,信息管理系,93,2022/11/29,信息管理系,94,2022/11/29,信息管理系,95,2022/11/29,信息管理系,96,2022/11/29,信息管理系,97,2022/11/29,信息管理系,98,2022/11/29,信息管理系,99,2022/11/29,信息管理系,100,2022/11/29,信息管理系,101,2022/11/29,信息管理系,102,2022/11/29,信息管理系,103,2022/11/29,信息管理系,104,2022/11/29,信息管理系,105,2022/11/29,信息管理系,106,2022/11/29,信息管理系,107,元素 限定属性 说明Rights 暂无限制词,2022/11/29,信息管理系,108,元素 限定属性 说明Coverage Spatial 空间范围 DCMI Point DCMI空间坐标系统* ISO 3166 ISO3166国家名称代码* DCMI Box DCMI 地理区限描述体系* TGN Getty地理名称叙词表* temporal 时间范围 DCMI Period DCMI时期体系* W3C-DTF W3C-DTF 时间编码体系*,2022/11/29,信息管理系,109,2022/11/29,信息管理系,110,2022/11/29,信息管理系,111,2022/11/29,信息管理系,112,2022/11/29,信息管理系,113,2022/11/29,信息管理系,114,(2)编码体系 该类修饰词说明元素值所属的编码体系, 以帮助理解值的含义。采用来自控制词表的表征符号(例如分类法主题词标中的术语) 具有特定意义, 或以一定形式组成的字符串表示正规的符号。如果一种编码体系无法被客户机或代理所理解, 它的值仍能被人类所理解。用于修饰的编码体系必须有清晰明确的说明, 并能够方便的得到.,2022/11/29,信息管理系,115,DCMI自己的编码规则:,2022/11/29,信息管理系,116,2022/11/29,信息管理系,117,2022/11/29,信息管理系,118,2022/11/29,信息管理系,119,2022/11/29,信息管理系,120,4)、DC 的作用是: (1) 支持简单而含有信息量的元数据,以满足广大用户和群体的需要。(2) 提供一个共享语义学标准, 使得用各种不同规则编目的元数据可以直接交换。,2022/11/29,信息管理系,121,1)简单性。 DC 是非专业层面提出来的,其目的是为网页制作者提供一种网络信息的著录格式,以供用户查找与定位所需信息。与传统的目录卡片及MARC格式相比,DC 简单。2)灵活性。 DC 的每一著录项目都是可以选择的,也是可以重复的。网络制作人员可以根据网页的内容与特征选择需要项目,允许不同专业团体根据专业要求对其进行调整。,5)DC特点:,2022/11/29,信息管理系,122,3)扩展性。 DC 的整个框架是可以扩展的,每个标记元素均可重复使用或有选择地使用。允许在原有的基础上,加上更精确的语义及结构,对信息资源进行更详细的描述。因此,既能兼容其它元数据,又能不断修正和发展。4)国际通用性。 DC 已有英语、德语、日语、葡语、西语等到10 余种不同语种的版本。,2022/11/29,信息管理系,123,5)互操作性。 通过对DC 的应用,明确使用中的修饰元素,并明确特定环境中的一系列修饰的值,有助于提高元数据的互操作性,便于交换与检索。,2022/11/29,信息管理系,124,DC标记实例,1、基于HTML的DC元数据标记,2022/11/29,信息管理系,125,2022/11/29,信息管理系,126,2、XML标记,2022/11/29,信息管理系,127,2022/11/29,信息管理系,128,2022/11/29,信息管理系,129,2022/11/29,信息管理系,130,Notes:,2022/11/29,信息管理系,131,DC与MARC比较,2022/11/29,信息管理系,132,MARC与DC比较,2022/11/29,信息管理系,133,DC与图书馆编目数据的区别 创建者不同元数据的制作者的范围比较广泛,包括内容提供者,即作者、出版发行者等,而且这些人员不需要经过专业培训。编目数据的制作者则是经过专门培训的图书馆编目人员。可靠程度不同编目数据使用受控词表和规范控制来增强用户发现资源的能力,对原始数据进行了增值处理。DC元数据没有建立规则和过程来控制数据元素的内容,且所有元素都是可选的。元数据的可靠性低于编目数据。,2022/11/29,信息管理系,134,知识检索有效度不同元数据整体框架简洁明了,主要由15个核心元素构成,只能大略反映资源状况。编目数据一直追求著录完整、详尽,对著录源的描述更为丰富。编目数据的知识检索有效度比元数据高。 适应对象不同元数据是用来描述网络信息资源的,是分布式的,具有严格的格式化特征。编目数据则是基于传统的印刷型文献的。标准化程度不同元数据标准目前仍处在不断发展研究之中编目数据的标准化发展已相对成熟,它遵循已被接受的规则和国家标准。,2022/11/29,信息管理系,135,参考资料 网上资源: 中国数字图书馆标准与规范建设,2022/11/29,信息管理系,136,END,