信息著录和标引.ppt
《信息著录和标引.ppt》由会员分享,可在线阅读,更多相关《信息著录和标引.ppt(96页珍藏版)》请在三一办公上搜索。
1、第3章 信息著录和标引,本章主要内容:,3.1 信息著录的含义和标准 3.2 机读目录与元数据 3.3 信息标引的含义与步骤 3.4 分类标引与主题标引 3.5 自动标引,3.1,著录的含义和标准,3.1.1 含义及作用 标准,关键词:著录、对象、款目、基本要求、作用,什么是著录法著录标准的发展(略)文献著录总则,著录项目著录项目的特点著录等级著录格式,3.2,机读目录 元数据,机读目录概述:概念、产生与发展格式特点CNMARC的记录结构MARC的发展,元数据的作用都柏林核心元数据DC DC的修饰词DC实例其他元数据规范DC与MARC的比较,内容描述外形描述知识产权,机读目录与元数据,头标区目
2、次区数据区实例,修饰词的含义类型:元素修饰词和编码体系修饰词,3.3,含义与质量控制 步骤,含义 标引的不同方式 质量控制,主题分析 概念转换,主题的类型与结构主题分析的方法,信息标引的含义与步骤,3.4,基本原则(5个原则)不同类型主题的分类标引的规则,选词规则3.4.2.2 组配规则 主题词组配标引的形式,分类标引与主题标引,3.4.1 分类标引 主题标引,3.5,自动标引概述 自动标引的原理3.5.3 自动标引方法3.5.4 自动分类,统计标引法 语言分析标引法 人工智能标引法(略)3.5.3.4.自动赋词标引法,自动标引,自动归类 自动聚类,3.1 信息著录的含义和标准,3.1.1 信
3、息著录的含义和作用,著录:在组织检索系统时,对具体信息的各种形式特征、内容特征及物质形态等进行分析、选择和记录的过程。款目/记录:按照一定的方法和规则对某一信息的内容和特征所作的描绘结果。在逻辑上代表该信息。款目由一条条著录项目组成。著录项目是用于揭示信息内容和形式特征的记录事项。,注:(以下“_”表示空格)000 01103nam 2200313 4500(头标区)001 0000212192005 20020703085900.0010 _$a 7-111-09692-4$d CNY58.00(含光盘)010 _$a 7-980007-34-4$b 光盘100 _$a 20020524d2
4、002 emky0chiy0121 ea101 1_$a chi$c eng102 _$a CN$b 110000105 _$a a z 000yy106 _$a r200 1_$a 中文Office XP专家$A zhong wenO ffice XP zhuan jia$f(美)StepHen L.Nelson,Julia Kelly$g 智慧东方工作室译210 _$a 北京$c 机械工业出版社$d 2002,一条著录记录的实例:,215 _$a 532页$c 图$d 24cm$e 光盘1片314 _$a 责任者规范汉译姓:尼尔森314 _$a 责任者规范汉译姓:凯莉454 _1$1 20
5、01$a Office XP:The complete reference$1 701 1$a Nelson,$b StepHen L.$1 701 1$a Kelly,$b Julia606 0_$a 软件包$A ruan jian bao610 0_$a Office XP$A Office XP690 _$a TP317.1$v 4701 _1$a 尼尔森,$A ni er sen,$b S.L.$g(Nelson,StepHen L.)701 _1$a 凯莉,$A kai li,$b J.$g(Kelly,Julia)712 02$a 智慧东方工作室$A zhi hui dong fa
6、ng gong zuo shi$4 译801 _0$a CN$b XMU$c 20020527801 _2$a CN$b JUSTLib$c 20020701905 _$a JUSTLib$d TP317.1/N28,3.1 信息著录的含义和标准,3.1.1 信息著录的含义和作用,著录的基本要求:准确化:著录的结果要全面、客观、准确地揭示信息资源的内容特征和形式特征;规范化:要求信息著录坚持标准化著录原则,按照统一的著录项目、著录格式、标识符号等进行著录。,3.1 信息著录的含义和标准,3.1.1 信息著录的含义和作用,著录的作用,文本,组 织,揭 示,检 索,3.1(续),3.1.2 信息著
7、录的标准,著录法:关于如何进行著录的具体规定和具体做法。通常包括著录原则、适用范围、著录项目、著录格式、著录来源、著录文字、标识符号以及各个著录项目的具体细则规定。,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,国际标准书目著录(即ISBD),文献著录总则(GB3972.183),普通图书著录规则档案著录规则连续出版物著录规则非书资料著录规则地图资料著录规则古籍著录规则,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,题名与责任者项版本项文献特殊细节项出版发行项载体形态项丛编项附注项文献标准编号及有关记载项提要项,1.著录项目,3.1(续),3.1
8、.2 信息著录的标准3.1.2.2 文献著录总则,2.著录项目的特点,(1)规定性。著录项目的名称、数量、顺序等是明确规定下来的,是相对稳定的,不能凭主观意志随便更改。(2)兼容性。著录项目既基本概括了各类型文献内容和形式特征的共性,又兼容了它们各自的内容和形式特征的个性。(3)伸缩性。各类型文献著录,可以根据自身的特点和单位的实际情况,在不违反规定性的前提下,增加或减少著录项目。(4)客观性。著录项目遵循客观著录的基本原则。,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,3.著录级次,著录级次指著录的详细程度。所有著录项目被分为主要项目和选择项目。简要级次:只著录主要
9、项目基本级次:主要项目部分选择项目详细级次:主要项目全面选择项目,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,4.著录格式,著录标识符:为了在款目上识别不同的著录项目,特别是为了书目交流,使一种语言使用者所编的记录,能被其他的语言使用者所理解,就需要使用彼此相同的符号系统,因此在编目工作实践中就产生了著录项目识别符和著录内容识别符两种符号。,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,4.著录格式(1)项目标识符,各大项(每段起首除外)并列题名、并列丛编名:副题名及说明题名文字、出版发行者、图、副丛编名、价格(或其它获得方式)第一责任者、与本
10、版有关的责任者;不同著作方式的责任者、同责任者的第二合订题名、第二出版地或发行地、尺寸或开本、丛编编号 相同著作方式的其他责任者、出版发行年、国际标准连续出版物编号、分段页码 附属丛编名 附件/标出文献出处,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,4.著录格式(2)内容识别符,是用来进一步说明一些著录项目的特定内容,或补充著录内容。一般用在项目的外部、中间或末尾。主要有:()责任者所属机构名称;中国责任者时代;外国责任者国别及姓名原文;印刷地、印刷者、印刷日期;载体形态的补充说明;丛编项等。文献类型标识、自拟著录内容。省略著录内容。?推测附注及不能确定的年代,一般
11、与“”结合使用。大项目结尾、第一合订题名与责任者结尾、外文缩写。起迄连接。,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,4.著录格式(3)普通图书卡片式款目著录格式,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,4.著录格式(4)连续出版物卡片式款目著录格式,3.1(续),3.1.2 信息著录的标准3.1.2.2 文献著录总则,4.著录格式(5)普通图书卡片式款目著录实例,返 回,3.2 机读目录与元数据,机读目录:Machine-Readable Catalogue,简称MARC,指任何形式的计算机可以阅读或识别的目录,其格式规定书目在数据机
12、读介质上的表示和标识方法,包括机读记录的构成、各数据字段在机读介质上的总体安排与内容结构。机读目录通用通信格式:包括标准化的记录结构、内容标识符、记录内容以及字符集与代码表。记录结构:书目记录在机读介质上总体安排。内容标识符:是标识数据元素并为其提供附加信息的一套符号。记录内容:是编目条例规定的具体书目信息。,3.2.1 机读目录概述,3.2 机读目录与元数据,3.2.1 机读目录概述,MARC的诞生与发展:于1965年由美国国会图书馆提出,称标准机器可读目录记录款式的建议;1966年1月,产生MARC1。1967年MARC2正式研究出台,就是目前的USMARC。根据MARC经验而起草的文献工
13、作文献目录信息交换用磁带格式1973年被ISO审定为国际标准,即著名的ISO27091973(E)。随后各个国家相继推出了其MARC格式,如英国的UKMARC,日本的JMARC,中国的CNMARC等。,3.2 机读目录与元数据,CNMARC的诞生和发展:中国在1979年成立北京地区机读目录研制小组;在UNIMARC和文献目录信息交换磁带格式(GB290182)的基础上研究中国机读目录通讯格式。1992年,正式出版中国机读目录通讯格式即CNMARC等。1995年12月又出版了中国机读目录格式使用手册。1996年2月6日,中华人民共和国文化行业标准中国机读目录格式CNMARC)WH/T050396
14、作为国家标准诞生,并于1996年7月1日予以实施。,3.2.1 机读目录概述,3.2 机读目录与元数据,3.2.1 机读目录格式特点,(1)字段设置:在MARC记录中字段的设置包含了书目数据的实际内容。主要特征表现在三个方面:字段数量多,并有空白(子)字段供用户扩充使用,共有001-999个字段,其中第999字段为用户自己规定字段含义;字段内容著录详尽,字段下设子字段以及重复字段;字段作用强化,可检索的字段多。,3.2 机读目录与元数据,3.2.1 机读目录格式特点,(2)标记符号:字段标识,用3位数字表示,从001-999。子字段代码,用两个字符表示,第一个是定义符,表示为子字段(如$),第
15、二个字符用小写字母a,b,c表示子字段顺序。指示符号:用以描述或指示可变长字段代码。指示符号用两个数字表示。在每个字段说明中都有指示符号的使用和表示的含义。如果某个字段指示符号不用,则用空白符号表示。字段和记录分隔符。,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录格式结构,记录格式:由记录头标区、地址目次区、数据字段区3个部分组成,每个字段的末尾有字段分隔符。记录最后一个字段的末尾有记录结束符。结构如下:,每个字段的末尾有字段分隔符,头标区,目次区,数据字段区,记录结束符,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,1.记录头标区是按照国际标准IS
16、O2709-1981的规定,固定为24个字符长,由定长数据元素构成,包含记录处理所需数据。字符位置规定从023。为记录提供某些基本参数。它含有ISO 2709定义的关于记录结构的数据和为ISO 2709的特定形式而定义的几项数据元素。见表32。,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,2.地址目次区列出记录中有哪些数据字段及其在记录中的位置,由计算机在输入时根据数据的实际情况自动生成。包括若干个固定长的目次字段,每个目次字段12个字符。字段起始字符位置是指该字段第一个字符处于数据字段区中的位置,每一个数据字段的第一个字符的位置为0。,目次2,结束符,字段起始地址(
17、5位),字段长度(4位),字段号(3位),目次1,目次3,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,3.CNMARC的数据字段区,指示符,子字段,数据,其他子字段,数据(控制)字段00X的结构:,数据字段01X999的结构为:,$是子字段标识符号,a表示子字段的顺序,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,4.CNMARC的样例分析,注:(以下“_”标识空格)000 01103nam 2200313 4500(头标区)001 0000212192(记录控制号)005 20020703085900.0(记录版本标识)010 _$a 7-1
18、11-09692-4$d CNY58.00(含光盘)010 _$a 7-980007-34-4$b 光盘100 _$a 20020524d2002 emky0chiy0121 ea101 1_$a chi$c eng102 _$a CN$b 110000105 _$a a z 000yy106 _$a r,数据控制区,字段指示符,3.2 机读目录与元数据,3.2.1 机读目录CNMARC的记录结构,4.CNMARC的样例分析,200 1_$a 中文Office XP专家$A zhong wenO ffice XP zhuan jia$f(美)StepHen L.Nelson,Julia Kel
19、ly$g 智慧东方工作室译210 _$a 北京$c 机械工业出版社$d 2002215 _$a 532页$c 图$d 24cm$e 光盘1片314 _$a 责任者规范汉译姓:尼尔森314 _$a 责任者规范汉译姓:凯莉454 _1$1 2001$a Office XP:The complete reference$1 701 1$a Nelson,$b StepHen L.$1 701 1$a Kelly,$b Julia,3.2 机读目录与元数据,3.2.1 机读目录在网络环境中的发展,MARC的856字段,1993年开始研究。主要包含网上电子数据资源的地址信息,相应地读取该数据所要求的软件
20、环境等。该字段两个字段指示符,第一指示符描述访问方法。该指示符定义了网上资源的访问方法,如果有多于一种的方法时,该字段可以重复。当前所定义的方法主要基于TCP/IP协议。#无信息提供。主要用于子字段有g(统一资源名URN)、而无u(统一资源定位器URL)时。0Email。1FTP。2远程登录(Telnet)。3拨号上网(Dial-up)。4HTTP。7访问方法在子字段2中说明。当访问方法不是上述指明的五种方法时,由本字段的2子字段说明。,3.2 机读目录与元数据,3.2.1 机读目录在网络环境中的发展,MARC的856字段,第二指示符描述了本字段所标引的电子数据资源与本记录所描述的书目、期刊或
21、文献资料的关系。当这种关系不是一对一时,子字段3进一步提供更详细的信息。各指示符定义如下:0原资源。1原资源的一个版本。2与原资源有一定的关系。该指示符表明本记录所标引的资源的目录并不是电子版,而本856字段所描述的网上电子数据资源与其有一定的关系,此时可在子字段3中对这一关系做进一步的说明。,3.2 机读目录与元数据,3.2.2 元数据,元数据(Metadata):关于数据的数据,是关于数据的结构化的数据。起源:起源于计算机科学,原先主要指网络信息资源的描述,后逐步扩大到各种以电子形式存在的信息资源的描述。描述的对象:图书、期刊、磁带、录像带、缩微品、论文、科技报告及各种形式的网络信息资源。
22、描述的成分:通常从信息资源中抽取出来的用于说明其特征、内容的数据。如题名、版本、出版数据、相关说明等。,3.2 机读目录与元数据,3.2.2 元数据1.作用,定位和检索著录和描述资源管理:权利管理、数字签名、存取管理资源保护与长期保存,3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,Dublin Core Element Set(http:/dublincore.org/)是一种跨领域的信息资源描述规范。这里的资源是“任何具有标识的东西”。于1995年3月在美国俄亥俄州都柏林市召开的元数据讲习班,由美国的OCLC(Online Computer Library Cente
23、r)和NCSA(国家超级计算机应用中心,National Center for Supercomputing Applications)联合发起。目的在于建立一套简单的非图书情报专业人员也能够了解和使用的描述网络信息资源的方法,以实现网络信息资源的辨识、查询和检索。,3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,DC 的元素修饰词,DC 的元素修饰词,DC的编码体系修饰词,DC的编码体系修饰词,3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,(1)内容描述部分题名项Title:由创建者或出版者给定资源的名称。主题词项Subject:能够揭示资源对象
24、主题内容或学科内容的关键词、词组短语或分类号。描述项Description:资源内容的文本描述,包括文献类对象的文摘或视觉作品的内容描述等。来源项Source:二次资源的出处信息。当前资源可能源自资源的一部分或全部。,3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,(1)内容描述部分,语言项Language:资源对象所用的语言类型。关联项Relation:二次资源及其与当前资源关系的标识。该元素的值应当从Relation的列表中选取。覆盖范围项Coverage:资源知识内容的时空特征。空间范围指物理区域,如经度纬度、规范的地名等;时间范围指资源内容(时间段)而非资源产生的
25、时间(时间点)。时间描述采用与日期项(Date)相同的格式。该元素要使用受控词表。,3.2 机读目录与元数据,3.2.2 元数据 2.都柏林核心元数据集,(2)知识产权部分,著者项Creator:对创造资源知识内容负主要责任的个人或机构、甚至某个服务系统。出版者项Publisher:负责使资源成为当前可获取和利用的形态的责任者,可以是某个个人、团体或某项服务。例如出版社、大学的系科或者公司实体等。合作者项Contributor:指没有在Creator元素中列出的对资源的知识内容具有重要贡献的个人或组织,其贡献次于创建者(如编辑、誊写员、插图作者等)。权限项Rights:一个权限管理的陈述,或者
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 著录 标引

链接地址:https://www.31ppt.com/p-5230680.html