计算机检索基本原理.ppt
《计算机检索基本原理.ppt》由会员分享,可在线阅读,更多相关《计算机检索基本原理.ppt(79页珍藏版)》请在三一办公上搜索。
1、网络资源与信息检索,文献检索教研室,20,主讲人:李永霞,2,网络资源与信息检索课程安排,3,本章具体内容安排:2.1 计算机检索基本原理概述2.2 计算机检索基本原理和检索语言2.3 文献信息数据库的基本概念2.4 计算机检索策略的构建与调整要求:初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。,第二讲 计算机检索基本原理,4,2.1 计算机检索基本原理概述,计算机检索概念 通过计算机进行的文献信息检索称为计算机检索。随着计算机技术、远程通讯技术和信息存储技术的飞速发展,信息检索由手工检索过渡到了计算机信息检索。计算机检索的成功应用,为我们更为及时、准确、全面地继承、利用和发
2、展人类的科研成果提供了先进的手段。,5,2.1 计算机检索基本原理概述,计算机检索发展第一个阶段:脱机检索阶段(50年代至60年代)脱机检索(Offline Retrieval):即批处理检索 检索要求 检索系统 检索结果 检索人员检索策略成批检索用户 缺点:1.地理上的障碍(远、不便于检索结果的获取)2.时间上的迟滞(定期检索,不能及时获取)3.封闭式的检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索式),6,2.1 计算机检索基本原理概述,第二个阶段:联机检索阶段(Online Retrieval)(60-80年代)终端设备 通讯网络 检索系统用户 检索策略人机对话 获
3、取信息 三个时期:60年代开发试验;70年代末应用阶段;80年代以后进入信息计算机卫星通信三维一体的新阶段,即以信息文献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。,7,2.1 计算机检索基本原理概述,著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:美国的Dialog系统,1984年就有200多个数据库,其中包括美国的医学索引、荷兰医学文摘、美国生物学文摘、美国化学文摘等。如今此
4、联机检索系统仍然是世界上最有影响的联机检索系统。,8,2.1 计算机检索基本原理概述,第三阶段:光盘检索阶段 1983年,出现了一种新的存储器,CD-ROM光盘。光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点。例:Chemical Abstracts Index光盘(1987-1991):由美国化学文摘社与美国剑桥光盘公司联合研制,收录1987-1991年化学文摘的全部内容。,9,2.1 计算机检索基本原理概述,Science Citation Index(SCI)光
5、盘(科学引文索引):由美国费城科学情报研究所编辑出版,收录1961年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的文献及引文 CAJ(中国学术期刊):是由清华大学开发研制,分题录、文摘、全文三个层次的数据库,其中全文数据库是国内最常用的全文数据库。,10,2.1 计算机检索基本原理概述,第四阶段:网络化检索阶段 进入90年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大联网。网上资源具有具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身需求相关的
6、实用信息,对所有网络用户都非常具有挑战性。,11,计算机检索发展阶段图,光盘信息检索系统,联机信息检索系统,网络信息检索系统,脱机检索系统,1980,1990,1970,12,2.1 计算机检索基本原理概述,INTERNET就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索、资源共享的国际性计算机网络。INTERNET飞速的发展,已成为人们进行全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,计算机情报检索将走向办公室化、家庭化。,13,2.2 计算机检索基本原理和检索语言,一般地说,计算机检索包括信息
7、的存储和检索两个部分,即对应数据库的建立和查找两个部分。信息存储 就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干能代表文献主题的概念,并用词表、分类表等规范化标识的情报检索语言对文献主题进行标引、按所选数据库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标识(标题、著者、文摘、原文出处等)也一起输入计算机,编制成一系列索引数据库,这便是信息的存储。,14,2.2 计算机检索基本原理和检索语言,2.2.2 信息检索 1、检索者对检索课题进行主题分析、明确检索范围,形成能代表情报需求的若干主题概念。2、把这些主题概念转换成计算机信息检索语言,即用数据库检索
8、工具书对各概念选词和进行逻辑组配,编制成检索提问式。3、用计算机检索系统功能在文献资料数据库中将信息需求主题概念和数据库内文献主题概念标识进行匹配,找到命中文献。用图表示如下:,15,计算机检索原理的示意图,16,2.2 计算机检索基本原理和检索语言,2.2.3 信息检索语言,又称文献存储和检索语言,是根据文献信息存储与检索的需要而创制的一种人工语言,是汇集、组织、存储、检索文献信息的工具和手段。,标引语言,索引语言,检索语言,17,文献内容特征,文献外表特征,分类语言,代码语言,主题语言,题名索引,作者索引,引文索引,序号索引,分 类,检索语言,2.2 计算机检索基本原理和检索语言,18,定
9、义:以数字、字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其它符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。,分类语言,分类法,2.2 计算机检索基本原理和检索语言,19,国外主要分类法简介,杜威十进分类法(DDC),国际十进分类法(UDC),美国国会图书馆分类法(LCC),美国国立医学图书馆分类法(NLMC),冒号分类法(CC),布利斯书目分类法(BC2),2.2 计算机检索基本原理和检索语言,20,国内主要分类法简介,中国图书馆分类法(CLC)*,中国图书资料分类法,中国人民大学图书馆图书分类法,中国科学院图书馆图书分类法,中国档
10、案分类法,2.2 计算机检索基本原理和检索语言,21,2.2 计算机检索基本原理和检索语言,22,2.2 计算机检索基本原理和检索语言,中图法分类号由字母和数字组成,采用等级列举表达从属关系:T 工业技术一级类目 TH 机械、仪表工业二级类目 TH12 机械设计、计算与制图三级类目 TH121 标准、规格四级类目 TH126 机械制图四级类目 TH126.1 识图法五级类目 TH126.2 作图法五级类目,23,2.2 计算机检索基本原理和检索语言,T-0 工业技术理念T-1 工业技术现状与发展.TP 自动化、计算机技术TQ 化学工业TS 轻工业、手工业TU 建筑科学TV 水利工程,TP1 自
11、动化基础理论TP2 自动化技术及设备TP3 计算机技术TP6 射流技术TP7 遥感技术TP8 运动技术,TP30 一般性问题TP31 计算机软件TP32 一般计算器TP33 电子数字计算机TP34 电子模拟计算机TP35 混合电子计算机TP36 微型计算机TP37 多媒体技术TP38 其他计算机TP39 计算机的应用,T 工业技术,(一级),(二级),(三级),(四级),24,分类语言的优缺点,优点以学科和专业集中文献的,有较好的族性检索效果将概念逐级划分,便于扩大和缩小检索范围,缺点对新兴学科、边缘学科或交叉学科而产生的类目不能及时体现。必须了解科学分类体系,否则不容易找到准确的类目。,2.
12、2 计算机检索基本原理和检索语言,25,代码语言,根据文献中论述事物的代码作为标识和检索系统的索引语言。,例:化学文摘中的分子式索引,C2H6O4SSn Tin,dimethylsulfato(2-)-O-44657-51-4,91:99600jC2H6O4S2 Disulfone,dimethyl-10383-49-0,94:138838b,2.2 计算机检索基本原理和检索语言,26,主题语言,定义:,以主题词来表达信息主题概念的语言。它按事物对文献信息进行浓缩、描述和整序,借用自然语言的词语,作为信息检索的内容标识,又可分为关键词语言、叙词语言、标题词语言及单元词语言等。的检索语言。,分类
13、:,主 题 词,关 键 词,2.2 计算机检索基本原理和检索语言,27,主题词,经人工规范化处理的最能表达文中主题概念的语词。,规范化处理:文献存储时,对文献中的同义词、近义词、多义词等加以规范,并采用参照系统间接反映主题概念之间的关系,从而体现主题词的单一性。,2.2 计算机检索基本原理和检索语言,28,从文献的题名、摘要、章节标题或正文中抽取的,能表达文献的主题内容,具有实际检索意义的语词。,关键词,优点:能及时反映最新信息,用法简便,缺点:自然语言的形态使同一主题概念的文献标引相对分散,容易漏检或误检。,2.2 计算机检索基本原理和检索语言,29,关键词语言举例,在计算机在道路勘测与道路
14、设计中的应用一文中,每个关键词仅从题名中抽取,检索者无论从哪一个关键词入手都会检索到文献号为067294的文献。道路勘测 道路设计 计算机 067294道路设计 计算机 道路勘测 067294计算机 道路勘测 道路设计 067294,2.2 计算机检索基本原理和检索语言,30,叙词语言,叙词语言是以表达文献主体内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主题语言。叙词是经过规范化处理的以基本概念为基础的表达文献信息和检索提问的主题的词和词组。叙词语言是当代受控检索语言的主流。常用的叙词表有汉语主题词表,Ei的(Ei Thesaurus),2.2 计算机检索基本原理和检索语言,3
15、1,叙词语言的特点,规范性强,标引和检索都从叙词表中选词,保证了标引和检索的一致性。利用叙词组配,适合表达各种复杂的主题,尤其是最新出现的主题。同时适用于手工检索工具和计算机检索系统。,2.2 计算机检索基本原理和检索语言,32,分类语言和主题语言的比较,1、体系结构不同,分类语言以学科逻辑体系为中心,体现学科的系统性、从属性和派生;,主题语言以概念和语言为中心,不管学科体系,用文字标记。,2.2 计算机检索基本原理和检索语言,33,2、揭示事物的角度不同,分类语言以线性系列来揭示事物之间的联系,有垂直、平等、从属之分,关系明确;,主题语言以特定事物为中心,可以反映与之有关的全部问题。,2.2
16、 计算机检索基本原理和检索语言,34,3、标识符号不同,分类语言以人为的标记符号作为标识,可以沟通不同文种的文献检索,主题语言是以规范化的语言作为表示概念的标记单元,直观、易记,2.2 计算机检索基本原理和检索语言,35,4、基本功能不同,分类语言能完整地反映学科的系统性和从属性,能满足族性检索的要求。,主题语言不受学科体系的约束,专指性强,能满足特性检索的要求。,2.2 计算机检索基本原理和检索语言,36,检索方法,顺查法,倒查法,抽查法,追溯法,从远到近的时间顺序查找文献信息的方法。,由近到远地回溯性查找文献信息的方法。,针对某一学科领域内的课题,重点对某一时间段进行检索。,利用文献后的参
17、考文献或引用文献追踪查找相关文献的方法。,2.2 计算机检索基本原理和检索语言,37,2.3 文献信息数据库的基本概念,数据库的定义和类型 一、数据库定义:根据ISO/DIS 5127号标准(文献与情报工作术语),数据库(database)的定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,数据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息资源管理工具,是情报检索系统的核心部分之一。数据库的质量直接影响情报检索系统的功能和效率。,38,2.3 文献信息数据库的基本概
18、念,二、数据库类型 按照国际上通用的分类方法,常划分为以下类型:1.参考数据库(reference databases):指引用户到另一信息源以获得原文或其他细节的一类数据库。包括书目数据库和指南数据库两种。(1)书目数据库(bibliographic databases)指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库。例如,美国化学文摘数据库CA Search,中国机械工程文摘数据库,各国生产发行的机读目录(MARC)等,即属于此类型。,39,2.3 文献信息数据库的基本概念,(2)指南数据库(reference databases)指存储关于某些机构、人物、出版物、项
19、目、程序、活动等对象的简要描述,指引用户获取更详细的信息的一类数据库。亦称指示性数据库。例如,各种机构名录数据库、人物传记数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。2.源数据库(source databases):提供原始资料或具体数据的数据库。它又可分为以下几种类型:,40,2.3 文献信息数据库的基本概念,(1)数值数据库(numeric databases)指专门提供以数值方式表示的数据(或包括其统计处理表示法)的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。(2)文本-数值数据库(textual-numeric databases):同
20、时提供文本信息和数值数据的一种源数据库,如某些公司信息库、产品市场报告数据库、毒物数据库和物性数据库等。(3)全文数据库(full-text databases)指存储文献全文或其中主要部分的一种源数据库,简称全文库,如法律法规全文库、期刊全文库等。,41,2.3 文献信息数据库的基本概念,(4)术语数据库(terminological bank)指专门存储名词术语信息一种源数据库,各种电子化辞书也包括在内。(5)图像数据库(graphics databases)指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储
21、与检索。除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合型数据库(mixed databases)。,42,2.3 文献信息数据库的基本概念,2.3.2 数据库的构成 从使用观点来看,数据库主要由文档、记录、字段三个层次构成。1、文档:若干个逻辑记录构成的信息集合称为文档(file)。用户选择所需的联机系统数据库时,多数数据库以单一的文档编号出现。此时文档(file)的概念和数据库(database)相当。但有些数据库因规模庞大,被分成若干个文档。例如,在DAILOG系统中,CA Search数据库被分成308号(1967-1971),309号(1977-1981),3
22、11号(1982-1986)和312号(1986-)等文档。,43,2.3 文献信息数据库的基本概念,2记录 记录是由若干字段组成的文献单元,是计算机检索系统存储文献款目和标引的信息载体。在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。比较典型的COMPENDEX,INSPEC,美国专利数据库的记录。,44,2.3 文献信息数据库的基本概念,3字段:是文献著录的基本单元,它是对实体的具体属性进行描述的结果。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。文献数据库字段分为基本字段和辅助字段两类。基本字段和辅助字段在检索策略的构成方法
23、上往往有些区别。基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助字段,通常要以某种方法予以指定。常见的字段名称和代码(也称段码)如下表所示。,45,文献数据库中常见的字段和段码,46,2.4 计算机检索策略的构建与调整,检索策略 是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。也可以说,所谓检索策略,就是在分析情报提问实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排。,47,2.4.1 计算机检索策略的构建,1、布尔逻辑 规定检索词之间的逻辑关系的算符,称为布尔逻辑算符。布尔逻辑算符包括逻辑“或(OR)”、逻辑“与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 检索 基本原理
链接地址:https://www.31ppt.com/p-6342541.html