档案主题标引课件.ppt
《档案主题标引课件.ppt》由会员分享,可在线阅读,更多相关《档案主题标引课件.ppt(272页珍藏版)》请在三一办公上搜索。
1、1,档案信息检索,主要内容: 一、档案信息检索系统的构成,检索效率,检索系统评价; 二、档案信息组织方式,检索工具的分类及编制; 三、档案信息检索的方法、技巧; 四、网络环境下的档案信息组织和检索。,1档案信息检索主要内容:,2,大 纲1 信息检索基础2 档案信息组织与检索概述3 档案检索语言4 档案信息前处理(著录与标引)5 档案信息组织(检索工具编制)6 计算机档案信息检索系统7 档案信息检索方法与技术8 网络档案信息组织与检索,2大 纲,3,主要参考书,1、肖秋会编著,档案信息检索,武汉:武汉大学出版社,20112、冯惠玲主编,档案文献检索,北京:高等教育出版社,19993、叶鹰,信息检
2、索:理论与方法,北京:高等教育出版社,20044、焦玉英等,信息检索,武汉:武汉大学出版社,20015、黄如花,信息检索,武汉:武汉大学出版社,2010,3主要参考书1、肖秋会编著,档案信息检索,武汉:武汉大学,第一章 信息检索基础,第一节 信息检索的概念和原理第二节 信息检索发展的历史及模式的演变第三节 信息检索的基本模型,4,第一章 信息检索基础第一节 信息检索的概念和原理4,第一节 信息检索的概念和原理,一、信息检索的概念信息检索(information retrieval):将信息按一定的方式组织和存储,并根据用户的需要从中查找所需信息的过程及所采取的一系列方法和策略。信息检索包括信息
3、存储和检索两个方面。广义的信息检索又称为信息存储与检索(information storage and retrieval)狭义的信息检索仅指查找信息的过程,相当于人们通常所说的信息查询(information search)。,5,第一节 信息检索的概念和原理一、信息检索的概念5,二、信息检索的原理基本原理:对大量无序的各类信息进行搜集、描述、加工、组织、存储,建立各种检索工具或检索系统,并按照一定的方法和技术,从中识别、查找和获取所需的各类信息源。信息存储是检索的基础。存储与检索是相逆的两个过程,二者之间的关系类似于“放进去”和“拿出来”的关系。信息检索的关键部分是信息提问与信息集合的匹配
4、和选择。,6,二、信息检索的原理6,三、信息检索的类型信息检索可以按照不同的标准划分为不同的类型:1. 按检索对象的形式划分(1)文献信息检索(2)数值信息检索(3)事实信息检索 或者划分为文本检索、数值检索、音频与视频检索,7,三、信息检索的类型7,2.按系统中信息组织的方法划分(1)全文检索(2)超文本检索(3)超媒体检索,8,2.按系统中信息组织的方法划分8,3. 按检索工具和检索方式划分(1)手工检索(2)机械检索(3)缩微品检索(4)光盘检索(5)计算机检索(6)网络信息检索,9,3. 按检索工具和检索方式划分9,第二节 信息检索发展的历史及模式的演变,信息检索经历了手工检索、 机械
5、检索、脱机批处理检索、联机检索和网络信息检索五个阶段。,10,第二节 信息检索发展的历史及模式的演变信息检索经历了手工检索,一、手工检索(19世纪70年代20世纪40年代)手工检索对应于印刷型文献和检索工具。通过人工方式对文献进行著录和标引,建立著录卡片,并按一定方式编排,建立卡片式或书本式检索工具。在检索时,用手翻找著录卡片或书本式目录,眼睛查看其内容,并动用大脑思考,从而作出判断来完成检索过程。信息检索活动起源于图书馆参考咨询工作和文摘索引工作。从19世纪下半叶开始发展至20世纪初,信息检索逐渐成为图书馆的一项独立的用户服务工作。,11,一、手工检索(19世纪70年代20世纪40年代)11
6、,二、机械检索(20世纪4050年代)即机械穿孔卡片检索。是在手工穿孔卡片基础上发展起来的,依靠探针及其辅助设备,对代表检索标识(分类号或主题词)的穿孔卡片进行选取的一种检索方式。与纯手工检索方式相比,机械检索在一定程度上提高了检索效率。但由于设备笨重,操作复杂,适用范围较窄。 20世纪50年代,机械检索开始得到使用。1954年,现代情报学创始人美国的万尼瓦尔布什(Vannevar Bush)博士在其论文“As we may think”中首次提出了设计自动的、在大规模存储数据中进行查找的机器的设想,他与美国农业部图书馆馆员拉尔夫肖共同制造了一台快速检索机布什肖检索机。,12,二、机械检索(2
7、0世纪4050年代)12,三、脱机批处理检索(20世纪5060年代)计算机应用于信息检索的早期阶段主要以脱机检索方式为主。脱机检索利用单机的输入和输出装置,用磁带作为媒介进行检索。以脱机方式检索,计算机只能顺序检索磁带上记录的信息,每检索一次都必须从头到尾读一遍磁带,因此,一般采用批处理方式实施检索。,13,三、脱机批处理检索(20世纪5060年代)13,四、联机检索(20世纪6090年代)联机检索产生于20世纪60年代中期到70年代初,由于计算机分时技术的发展,通信技术的改进,以及计算机网络的初步形成和检索软件包的建立,用户可以通过检索终端设备与检索系统中心计算机直接进行人机对话,从而对远距
8、离之外的数据库进行检索。1965年,美国系统发展公司(SDC)研制成功了联机检索软件书目情报分时联机检索(Online Retrieval of Bibliographic Information Time Shared,ORBIT),标志着联机检索的诞生。1966年,美国洛克希德导弹与宇航公司研制了世界上第一个人机对话的信息检索系统DIALOG系统,开始了联机文献情报检索。,14,四、联机检索(20世纪6090年代)14,五、网络信息检索(20世纪90年代至今)网络信息检索是在国际联机检索和光盘检索基础上发展起来的,通过Internet对远程计算机上的信息进行的检索。20世纪90年代,随着卫
9、星通信、光纤通信等现代通信技术以及信息高速公路等网络基础设施的迅速发展,基于Web的网络信息检索开始出现并得到迅猛发展。在这一时期,因特网资源爆炸式增长,网络搜索引擎技术的发展应用令人瞩目,同时,传统的联机检索系统如Dialog及各类数据库检索系统的信息服务也逐渐建立了Web服务平台,面向互联网终端的用户提供服务。,15,五、网络信息检索(20世纪90年代至今)15,第三节 信息检索的基本模型,信息检索的三个基本模型是:布尔模型 Boolean Model向量空间模型 Vector Space Model,简称VSM概率模型 Probabilistic Model。,16,第三节 信息检索的基
10、本模型信息检索的三个基本模型是:16,一、布尔模型布尔模型是产生最早、应用最广泛的经典信息检索模型。1957年,Y.Bar-Hillel首次探讨了布尔逻辑模型应用于计算机检索的可能性。布尔检索模型采用了布尔代数和集合论的方法,用布尔表达式表述用户提问,通过对文献标识与提问式的逻辑运算来检索文献。布尔检索的主要优点是形式简洁、结构简单、易学易用;主要不足之处是:检索词没有权重区别,不能体现检索项的主要程度;采用非是即否的精确匹配方式,无法描述与查询条件部分匹配的情况,导致检索结果不够精确,查全率受到影响。,17,一、布尔模型17,二、向量空间模型向量空间模型是一种利用统计学方法而建立的数学模型。
11、20世纪6070年代,G萨尔斯顿基于部分匹配(“partial matching”)的检索思想,在其开发的实验性检索系统SMART中首次提出了向量空间模型,其工作原理是将检索文档和检索提问式(关键词)都看做是一组数值向量,形成向量空间图,将检索文档向量与检索提问式向量进行相似度测定,对检出的文献按文档与检索提问之间的相似度降序排列,实现文献与查询的部分匹配。,18,二、向量空间模型18,向量空间模型的主要优点是:标引词加权处理,可以灵活地定义标引词与文献的关系深度,从而改进检索效果;部分匹配策略能检出与查询条件接近的文献,避免了布尔逻辑模型非是即否的僵化的缺点;余弦公式可对检索结果按照与提问的
12、相关度排序输出,便于用户修正检索提问。其主要缺点是:检索过程转化为向量的计算方法,不能完全反应文献之间的复杂关系;标引词加权和检索词加权是分离的,随意性大,质量难以保证。,19,向量空间模型的主要优点是:标引词加权处理,可以灵活地定义标引,三、经典概率模型经典概率模型由S.E.Robertston和K.Sparck Jones于1976年提出,它的基本指导思想是:给定一个检索提问,则检索系统中存在着一个与该提问相关的理想命中结果集合,如果已知该集合的主要特征及其描述,则用户的检索要求不难实现。经典概率论的优点是实现简单,文献能根据它们相关的概率以递减的顺序排列。其不足之处是:各种参数估计难度较
13、大;标引词没有考虑词频等加权因素;标引词假定为相互独立。,20,三、经典概率模型20,21,第二章 档案信息组织与检索概述,第一节 档案信息特征及其组织方式第二节 档案信息检索的内容与意义第三节 档案信息检索系统第四节 档案信息检索方式、途径和检索要求第五节 档案信息管理系统,21第二章 档案信息组织与检索概述,22,第一节 档案信息特征及组织方式,一、档案信息特征1、档案信息与载体的不可分割性;2、档案信息传递中的增值性;3、档案信息的可浓缩性;4、档案信息存储与扩散的一致性;5、档案信息的原始性。,22第一节 档案信息特征及组织方式一、档案信息特征,23,二、档案信息组织方式1、按对档案信
14、息内容的揭示程度:目录、索引、文摘、综述;2、按对档案信息特征揭示的角度:分类法、主题法、代码法、题名法、责任者法;3、按排序方式:编号法、字顺法、时序法、地序法。,23二、档案信息组织方式,24,第二节 档案检索的内容与意义,一、档案信息检索的内容档案信息检索:是将档案材料中的情报信息加以存储,编制检索工具,建立检索系统,并按一定的方法查找和利用档案材料的一种档案管理业务活动。广义理解:包括信息存储和检索两个过程狭义理解:单指信息检索过程,24第二节 档案检索的内容与意义一、档案信息检索的内容,25,二、档案信息检索的意义1、档案信息检索是档案业务管理工作的一项重要内容;2、是提高档案管理水
15、平的有效途径;3、是开发和利用档案信息资源的基本手段;4、是实现档案管理现代化的关键环节。,25二、档案信息检索的意义,26,第三节 档案信息检索系统,一、档案信息检索系统的构成1、存储子系统:通过对档案文献的著录标引、编制检索工具、建立数据库等手段使档案信息有序化和集约化。2、检索子系统:通过编制检索策略实现利用者提问与档案信息的匹配。一个完整的档案信息检索系统由存储与检索共同构成。二者是互逆的作用过程,体现为“放进去”和“拿出来”的匹配关系。,26第三节 档案信息检索系统一、档案信息检索系统的构成,27,二、档案信息检索系统的功能 在存储阶段,抽取和描述档案信息特征,将大量无序的档案信息有
16、序化,使大量的一次档案文献去粗取精,形成二次档案文献,建立数据库。 在检索阶段,将用户的检索需求与数据库中的数据进行比较匹配,全面准确的检出用户需要的数据。 因此,其主要功能是描述、组织、集中档案信息,满足用户迅速准确查找档案信息的需求。有利于档案信息传递、交流和报道。,27二、档案信息检索系统的功能,28,三、档案信息检索系统评价评价的指标体系包括:1、数据覆盖率:数据收录范围。指一个检索系统已收录数据量与应收录数据量的百分比,反映该检索系统的资源拥有状况。2、检索效率(检全率与检准率)。反映系统运行结果与利用者检索要求的吻合程度,是衡量检索系统性能的最重要的指标。,28三、档案信息检索系统
17、评价,29,(1)什么是检全率、检准率?检全率=检出的相关文献/全部相关文献100%检准率=检出的相关文献/检出的全部文献100%(2)检全率与检准率的关系二者呈现互逆的反函数关系。即检全率高检准率就低,检准率高检全率就会下降。(3)影响检索效率的因素检索语言的性能、检索途径的数量、著录标引的数量、检索策略的优劣、检索人员的素质等。,29(1)什么是检全率、检准率?,30,3、响应时间(response time)指一次检索过程中从利用者向检索系统提出问题到检索系统完成匹配过程,交付利用者所需的全部时间。4、可存取性(access)指一个档案文献检索系统的易用程度。一般来讲,利用者对情报源的选
18、择几乎是唯一地建立在可存取性这个基础之上的。5、费用费用/效果比、费用/效益比,303、响应时间(response time),31,第四节 档案信息检索方式、途径和检索要求,一、档案信息检索方式1、文献单元方式:在计算机检索中又称为顺检方式、顺序文档。它以一份文献为一个条目,指明该文献的各种特征,以文献为单元进行检索,其条目按照文献顺序排列。档案部门使用的各种手工检索目录大多采用这种方式,如:案卷目录、分类目录、主题目录。,31第四节 档案信息检索方式、途径和检索要求一、档案信息检索,32,在计算机顺序文档中,每一个文献条目按照输入次序存储在存储介质上,条目之间的逻辑顺序和物理顺序一致,在结
19、构上又称为链式文档或线性文档。由于它存储了每份文件最完整的信息,通常又称之为主文档(master file)。文献单元方式的特点:查到某一文献标识即可见到该文献完整的著录事项,了解该文件的主要内容和特征。但是按照主题进行查找时,速度比较慢,需要逐件扫描。,32在计算机顺序文档中,每一个文献条目按照输入次序存储在存储,33,2、标识单元方式。又称为逆检方式,倒排文档。倒排文档是从顺序文档中派生出来的一种文档,它将顺序文档中一切可检字段抽出,按某种顺序重新组织。倒排文档的作用主要体现为对顺序文档的索引作用,它可以十人们按照文献的某种属性特征检索出有关记录。,332、标识单元方式。,34,二、档案信
20、息检索途径1、档案内容检索途径,包括:(1)分类途径(2)主题途径(3)题名途径(4)代码途径2、档案形式检索途径,包括:(1)责任者途径(2)文号途径(3)人名途径(4)地名途径(5)机构名途径,34二、档案信息检索途径,35,三、档案信息检索要求1、按检索目的:查证型要求、情报型要求2、按检索对象:事实型要求、文献型要求3、按利用对象:公务人员、科研人员、一般公民的检索要求4、按检索范围:较窄的要求、较宽的要求5、按对档案线索的掌握程度:已经掌握档案线索的、掌握少量线索的、未掌握线索的。,35三、档案信息检索要求,36,第五节 档案信息管理系统,一、档案信息管理系统的结构与功能1、输入子系
21、统;2、存储加工子系统;3、输出子系统;4、反馈子系统。二、档案信息管理系统的优化控制三、档案信息管理系统的性能评价信息的完备性、系统效率、安全性、经济性、兼容性、扩展性,36第五节 档案信息管理系统一、档案信息管理系统的结构与功能,37,第三章 档案检索语言,第一节 档案检索语言概述第二节 档案分类法第三节 档案主题法第四节 档案检索语言的发展,37第三章 档案检索语言第一节 档案检索语言概述,38,第一节 档案检索语言概述,档案检索语言的基本概念及特点 单义性、规范性、关联性、系统性、简明性档案检索语言的作用 是档案主题概念转换的依据,联系档案信息存储与检索之间的桥梁档案检索语言的分类 分
22、类语言、描述语言、代码语言,38第一节 档案检索语言概述档案检索语言的基本概念及特点,39,第二节 档案分类法,一、档案分类法的原理 概念:是以国家机构和社会组织从事社会实践活动的分工为基础,按照档案的内容和特点,分门别类组成的科学体系。 构成原理:体系分类法采用概念的划分与概括的逻辑方法,进行逻辑分类,形成概念等级体系。 分类标准:以职能分工为主要分类标准,并结合档案记述和反映的事物的属性,选择其他辅助分类标准。,39第二节 档案分类法一、档案分类法的原理,40,档案分类法的特点: 与图书分类法比较,具有如下特点: 1、分类对象不同。导致二者在分类标准、类目体系及作用方面有所不同。 2、分类
23、标准不同。职能分工学科属性。 3、分类体系不同。逻辑分类体系知识分类体系。 4、用途不同。档案分类法一般用于档案信息的分类标引,而不用于档案实体的分类。图书分类法则既可用于类分图书,又可组织藏书,分类排架,用途很广。,40档案分类法的特点:,41,附:中国图书分类法,基本部类(5个)马克思主义、列宁主义、毛泽东思想、邓小平理论哲学、宗教社会科学自然科学综合性图书,41附:中国图书分类法基本部类(5个),42,基本大类(22个)A 马克思主义、列宁主义、毛泽东思想、邓小平理论B 哲学、宗教C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历
24、史、地理N 自然科学总论,42基本大类(22个),43,O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学T 工业技术U 交通运输V 航空、航天X 环境科学、安全科学Z 综合性图书,43O 数理科学和化学,44,二、档案分类法的体系结构 基本大类一览表、主表、辅助表、索引。 (一)基本大类一览表。共19大类。 (二)主表。由类目、类目之间的关系、标记符号、注释组成。 1、类目:10万条类目。 2、类目之间的关系:以等级结构反映类目之间的并列、隶属关系。 3、标记符号:混合号码制、层累制、八分法、双位制。 还采用了以下辅助符号: + : () = / 4、注释,44 二
25、、档案分类法的体系结构,45,(三)辅助表(复分表、附表)。将主表中具有共性的类目抽出来汇编而成。 1、通用复分表 (1)综合复分表。如农业条例:MA13 (2)世界各国和地区表。如MD(113) (3)中国地区表。如热河省(19281955) (4)中国民族表。回族自治:B4103 (5)科技档案复分表。符号:“” 2、专类和专用复分表 是主表中附加的供某大类或某大类中的部分类目作进一步区分用的复分表。专类复分表的分类号码前加“”圆点,表的两侧以印刷黑体竖线括起。专用复分表的分类号前用“=”号,复分号接在主类号之后。如:KB9121 .3,E7317=12,45(三)辅助表(复分表、附表)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 档案 主题 标引 课件
链接地址:https://www.31ppt.com/p-1332829.html