文献检索的基本原理ppt课件.ppt
《文献检索的基本原理ppt课件.ppt》由会员分享,可在线阅读,更多相关《文献检索的基本原理ppt课件.ppt(116页珍藏版)》请在三一办公上搜索。
1、2.0 文献检索的基本概念,广义概念:将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,故全称:“信息的存储与检索”。,信息检索的定义,狭义概念:仅指上述过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search),信息检索的定义,文献检索:文献信息的存储、文献检索两个过程。情报检索模型即是“匹配”模型。 目的:为了解决特定的文献需求和满足用户的需要。,图2.1 文献检索的原理,2.1文献检索的原理、类型和方式,根据信息检索或查找的内容可划分为文献检索、事实检索和数据检索。 根据信息检索手段可划分为手工检索和
2、计算机检索。,2.1.2 信息检索的类型,文献检索(Document Retrieval)是以文献为检索对象,从已存贮的文献库中查找出特定文献的过程。 例如“关于计算机控制系统有些什么参考文献?”这就需要我们根据课题要求,按照一定的检索标识(如主题词、分类号等),从所收藏的文献中查出所需要的文献。,数据检索(Data Retrieval)是以数据为检索对象,从已收藏数据资料中查找出特定数据的过程。 例如:查喜马拉雅山有多高,杭州六和塔建于何年等。 事实检索(Fact Retrieval)即通过对存贮的文献中已有的基本事实,或对数据进行处理(逻辑推理)后得出新的(即未直接存入或所藏文献中没有的)
3、事实过程。 例如:本学年成绩优秀的学生有多少,某同类产品中,那种牌号的销量最大。,数据和事实检索是要检索出包含在文献中的具体情报; 文献检索则是要检索出包含所需要情报的文献。 文献检索是最典型和最重要也是最常用的情报检索,手工检索 即用人工来处理和查找所需信息的检索方式。计算机检索利用计算机和一定的通信设备所查找所需信息的检索方式。,2.2.1 检索系统 检索系统是根据特定需要利用一定的检索设备,从整理加工并存贮在某种载体上的文献集合中检索出所需情报的系统。 它根据检索设备和载体的不同,可以分为手工检索系统和计算机检索系统。,手工检索系统由手工检索设备(如书本式目录、文摘、索引、卡片柜等)、检
4、索语言、文献库等构成。 特点:它使用方便,成本低廉,但检索效率和响应时间均较差。,计算机检索系统主要由计算机检索设备(联机检索设备、光盘检索设备、微机检索设备、缩微品机检设备等)、检索语言、文献库等构成。 特点:检索效率高,响应速度快等特点,但是成本和检索费用较高。 在我国,这两种检索系统将在很长一段时期内并存使用,相互补充 。,2.2.2 信息检索工具检索工具的定义 检索工具是人们用来存储、报道和查找文献的工具,它具有存储和检索的功能。4个基本条件:(1)能够详细著录文献的外部特征和内容特征(2)具有即定的检索标识(3)全部文献必须根据标识,系统科学地排列成为一个有机地整体(4)能够提供多种
5、检索途经,检索工具的作用:1、文献高度集中;2、提高检索速度;3、提供有规律的检索;4、消除语言障碍.,检索工具的分类按加工文献和处理信息的手段不同可分为:手工检索工具和机械检索工具;按收录范围分,有综合性、专题性(计算机应用文摘)和专业性(移动云计算文摘);按著录方式分,有目录型、题录型(索引型)、文摘型和全文型;按出版方式分,有印刷型(卡片型、书刊型)、缩微型和电子型(联机数据库型、软盘型、光盘型)。,(一)按著录方式划分:1.目录型2.题录型3.文摘型4.全文型,1.目录型,目录型检索工具是以整本图书或期刊的外部特征为报道对象。报道内容: 图书:书名/著者/出版地:出版者,出版时间期刊:
6、 刊名/编著 出版地:出版者,创刊年,2.题录型,题录型检索工具是以书刊中的某篇文献(或章节)的外部特征为报道对象报道内容: 文献篇名/著者/刊名 出版年、月(卷、期)、页码,3.文摘型,报道对象与题录相同,但对文献内容揭示的程度较题录更深入更具体,增加了文献的摘要文摘按其内容特征可分: 指示性文摘、报道性文摘、指示报道性文摘,4.全文型,报道对象与题录相同,但增加了文献的全文 按载体不同: 全文数据库(中文、外文) 期刊等印刷型,(二)按载体方式划分,印刷型(书本式、卡片式)缩微型电子型: 联机型(磁性载体、计算机及通信网络) 光盘型(光盘、计算机及光驱) 网络型 (Internet、网络数
7、据库),2.3 检索语言一、检索语言的概念 检索语言是信息检索系统存储与检索所使用的共同语言。 检索语言是一种人工语言,用于各种检索工具的编制和使用,并为检索系统提供统一的、作为基准的、用于信息交流的符号化或语词化的的和语言。,二、 检索语言的分类 检索语言可分为描述外表特征和描述内容特征的检索语言。描述外表特征的检索语言有书名、著者、机构、号码;描述内容特征的检索语言有分类语言和主题语言。,分类语言 用分类号表达各种概念,将各种概念按学科性质进行分类和系统排列。,世界上比较著名的分类法有:国际专利分类表(IPC)、杜威十进分类法(DDC)、美国国会图书馆图书分类法(LC)。 我国在图书情报系
8、统广泛采用的有中国图书馆图书分类法(简称中图法)和中国科学院图书馆图书分类法(简称科图法)。,中图法使用字母与数字相结合的混合号码,基本采用层累制编号法。将人类的文献分为五个基本部类,22个基本大类。,五大部类是:1 、马列主义、毛泽东思想2 、哲学3 、社会科学 4、自然科学5、综合性图书,http:/,基本大类,其中T 工业技术的二级类目采用两个字母标识:,以局域网(LAN)类为例,列出中图法的各级类目:,TP 自动化、计算机技术,T 工业技术,例如要查找“网络计算机(NC)”方面的文献:,根据“TP368.6”这一类号,查找图书馆馆藏分类目录,就能检索到有关“网络计算机(NC)”的馆藏文
9、献。,分类号越长,表示的学科范围越窄。为了醒目和方便读写,分类号中的数字部分由左至右每隔3位加一个圆点“”,如G252.7、TP317.1,TN919.8,索书号,又称索取号,是图书馆藏书排架用的编码,是文献外借和馆藏清点的主要依据。一般由分行排列的几组号码组成,常被印书脊下方的书标上。一个索书号只能代表一种书。,计算机与通信学院 陈多,C53代表分类号126代表种次号2代表第二版4代表第四辑丛书,索书号:C53/126-2:4,四、主题检索语言标题词:是从文献的题目、正文或摘要中抽选出来,经过规范化处理的词或词组,先组式语言。叙 词(单元词):叙词语言是以规范化科学名词为基础的一种主题法检索
10、语言,叙词是主题词表中的所有正式主题词可以根据需要将它们组配起来,用以表达复杂的概念。是后组式语言,可自由灵活组配。 关键词:未经规范化处理,直接从文献题名、原文或文摘中选取的能反映原文主题内容的自由词汇,叙词语言的体现形式是叙词表。国内外常用的叙词表主要有我国许多文摘检索刊物使用的汉语主题词表,英国科学文摘使用的INSPEC叙词表,美国工程索引使用的Ei叙词表以及美国政府报告和索引使用的NTIS叙词表等。,主题词与关键词的关系,计算机与通信学院 陈多,布尔逻辑,位置逻辑,截词,字段限制,加权,其他,常用检索算符,2.4 文献检索的技术,2.4.1 布尔逻辑检索技术,布尔逻辑检索技术就是利用布
11、尔逻辑算符进行检索项的逻辑组配,用以表达检索者的提问概念。布尔逻辑算符指规定检索词之间相互关系的运算符号,在检索表达式中起着逻辑组配的作用,复杂概念的检索式,2.4.1 布尔逻辑检索技术,常用的布尔逻辑运算符: 逻辑“与(AND)” 逻辑“或(OR)” 逻辑“非(NOT)”,1 逻辑“与”,运算符:AND 或 *用于交叉概念或限定关系的组配,实现检索词概念范围的交集。表达式:,A and B 或 A*B,And两侧的检索词必须同时出现在检索字段中,检出同时含有检索词A和检索词B的记录,2 逻辑“与”,作用缩小检索范围,提高查准率。 举例 检索“人口控制”或者“控制人口”方面的文献信息。 人口
12、and 控制,2 逻辑“或”,运算符:OR 或 + 用于检索词并列关系(同义词、近义词)的组配,实现检索词概念范围的并集。表达式:,A or B 或 A+B,在文献记录中只要含有检索词A和检索词B中的任何一个即算命中,检索出的记录含有检索词A或者检索词B,2 逻辑“或”,作用扩大检索范围,防止漏检,提高查全率。 举例 检索“计算机” 方面的文献信息。 计算机 or 电脑使用的注意事项 如果检索词涉及表达整体概念,要针对具体情况分别列出每个表达部分概念的检索词,否则将出现漏检。,3 逻辑“非”,运算符:NOT 或 - 一种排斥关系的组配,用来从原来的检索范围中排除不需要的概念。表达式:,A no
13、t B 或 A-B,适用于排除含有某个指定检索词的记录,检索出的记录含有检索词A,但同时不含检索词B,3 逻辑“非”,作用缩小检索范围,增强检索的准确性。但使用不当,易排除有用文献信息,从而导致漏检 举例 检索有关协议方面的文献信息,但不包括TCP/IP。 协议 not TCP/IP使用的注意事项 两个关系紧密的检索词不宜用not,2.4.1 布尔逻辑检索技术,优先级高,优先级低,优先级运算()NOTANDOR,词位置检索(positional operator) 位置运算符,利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不
14、足,一般检索系统都提供文中自由词检索功能,也称全文检索功能 。 所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。,为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。 全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点: 规定的位置算符不同; 位置算符的职能和使用范围不同。,2.4.2下面介绍几种数据库经常使用的位置运算符:,允许两个检索词之间最多可以插入n个单词,且这两个检索词
15、的词序任意,此算符两侧的检索词必须紧密相连,所连接的词间不允许插入任何其他单词或字母,但词序可以颠倒,同词位检索,允许在连接的两个词之间最多夹入n个其他单元词,只强调插入单元词个数没限定插入单元词的具体范围,同时词序不能颠倒,此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除可以有一个空格或一个标点符号或一个链接号外不得夹有任何其他单词或字母,同字段检索,表示此算符两侧的检索词必须同时出现在同一字段内。如:篇名字段、文摘字段、叙词字段等,但两词的词序中间插入的次数不限。,表示此算符两侧的检索词必须同时出现在同一个自然段。,其他位置逻辑检索,(S)(Subfield) 表示在此算
16、副辆车的检索词必须出现在同一个子字段中,顺序不变,中间可插入词数不限。举例 (basic or cobol or pascal)(S)(program* or compil*),Basic (S) program* basic (S) compil*Cobol (S) program* cobol (S) compil*Pascal (S) program* pascal (S) compil*,其他位置逻辑检索,(C)(Citation) 表示两侧的检索词只能出现在同一条记录中,且对它们的相对位置或次序没有任何限制,作用和布尔算符and完全相同,位置逻辑检索技术,严谨,宽松,2.4.3 Ad
17、j - adjacency,邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。 例: intelligent adj robot* (Elsevier Science SDOS),2.4.4 加权检索是一种定量检索的技术 在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和超过阈(yu)值,该记录为命中文献 缩小检索范围提供检索准确率的有效方法,2.4.5 聚类检索,聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示即文献向量
18、,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。聚类检索的出现,为文献检索尤其是计算机化的信息检索开辟了一个新的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。因此,这种检索方式将有可能在未来的信息检索中大有用武之地。,2.4.6 截词检索技术,实质 截词检索就是用截词符号将检索词截断,用检索词的片段进行匹配运算。注意 在截断时,截断的词
19、干不能太短,词干一般应在3个字符以上,以免增加检索时间,产生误检。,2.4.6 截词检索技术,截词形式 按截词的字符数量有限截断、无限截断按截词的位置右截断、左截断、中间截断,按截词数量截断,无限截断 检索词词干可变化两个以上字符时,连续使用若干个“ ? ”或“ * ”代替变化字符。用法可同时查找含有该词干的所有文献记录,亦可用于年代的查找。,其他截断方式,1.把截词符号置放在一个检索词的中间;2.中截断不允许有限截断,1.将截词符号放在一个字符串左方,表示其左的有限或无限个字符不影响该字符串的检索;2.实质:后方一致检索,1.最常用的截词检索技术;2.放在字符串右方,表示其右有限或无限个字符
20、不影响该字符串的检索;3.实质:后截断是前方一致检索,后截断,前截断,中截断,后截断举例,输入: computer *检索结果,computeracycomputerisecomputerizationcomputers,后截断注意事项,后截断主要使用于如下几种情况: 检索词的单复数的描述; 如:book? 同根词的表达;如:chemi*可以检索出chemical、 chemistry、chemist等同根词 年代的表达;如:20?(21世纪),199?(20世纪90年代) 作者如:Moyer*可以检索出所有姓Moyer的作者,前截断举例,输入: *computer检索结果microcompu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文献 检索 基本原理 ppt 课件
链接地址:https://www.31ppt.com/p-1420176.html