《信息检索》PPT课件.ppt
信息海洋冲浪的基本方法与技巧“掌握”航海工具箱,主要内容,工具箱检索系统,工具箱信息检索,工具箱检索语言,一、信息检索,信息检索的概念,信息的存储过程,信息的检索过程,1 信息检索概念引例,汽车燃料,中国图书馆分类法,交通运输类(U),汽车用燃料、润滑料类(U473),中国图书馆分类法,信息检索概念,广义信息检索:包括信息存储与查找两个过程,狭义信息检索:指信息的查找。,信息检索(information retrieval):是按照一定方式从信息集合中或数据库中查找所需信息的具体过程。,广义信息检索基本原理,引例,U473/12,汽车用燃料、润滑料类 U473,交通运输类U,U473/12,U473,U,例如:,车用替代燃料与生物智能,2 信息的存储,信息的存储过程:按照检索语言(主要是主题词表和分类表)及其使用规则对每条原始信息进行处理,形成一系列信息特征标识,组成一条记录。许多条记录形成有序的信息集合。,标引:为纳入检索工具或系统的每一种期刊或 每一篇文献等标引检索标识。著录:将文献的有关特征标识著录下来,形成一条条文献线索。著录是遵循1983年我国颁布的中华人民共和国检索期刊条目著录规则(GB379383)中的规定对文献的著录项目和格式。排序:将它们系统地排列到检索工具或系统中去供读者查找。,文献存贮过程,信息存储,信息集合,存储标识,3 信息的检索,信息的检索过程:按照同样的主题词表或分类表分析检索需求,形成检索提问标识。依据信息存储时所形成的检索途径,从信息集合中查找与检索提问标识匹配的信息特征标识。,信息的检索,信息集合,检索标识,信息检索原理,文献替代 文献整序 文献特征标识与检索提问标识的匹配,文献替代,一次文献的文献特征标识(外部特征和内容特征)按一定的标准格式著录成它的替代文献(二次文献)的过程。著录项目与格式:中图分类号题名/著者(著者所在单位 邮政编码)/刊名/主办单位.出版年,卷(期).所在页码文摘。图x表x参x(文摘员),将杂乱无章的替代文献(二次文献)按一定的顺序(通常按学科类目)排列,并编制各种索引的过程。经过文献替代和文献整序后,完成了文献存储的过程。,文献整序,信息检索的过程就是文献特征标识与检索提问标识两者匹配的过程为了实现这种匹配,标引人员和检索人员必须采用一种共同的语言,即检索语言。,文献特征标识与检索提问标识的匹配,信息检索的种类,按照检索对象,把信息检索分为:文献检索数据检索事实检索,文献检索,是指查找用户所需文献的线索或者原文的检索。如查找某一主题的相关文献,对某研究课题立项的文献查新,或从事新产品开发时需要查找有关最新研究动态等。文献检索是一种相关性检索,检索结果是某一专题的文献线索(文摘、题录),一般要经过阅读文摘后才能决定取舍。文献检索主要是利用二次文献进行,如各种载体形式的目录、题录、文摘、索引等。文献检索是信息检索中最基本、最重要的类型。文献检索是信息检索的核心和和主体部分,是最常用的一种检索。文献检索分为数目检索和全文检索。其目标是检索出原始文献或原始文献的替代品。,数据(值)检索,是指查找用户所得特定数据的检索。目标是检索出可以直接使用的数据或数值,例如查找各种统计数据、图像、图标、图表、数学表达式、化学分子式、设备型号、技术参数等。譬如,检索“尼罗河的长度是多少”。数据检索是一种确定性检索,主要是利用各种词典、手册、百科全书、年鉴等参考工具书进行也可以利用各种参考型数据库进行检索。,事实检索,是指以特定的事实为检索对象的一种检索。如查找某一名人、机构的基本情况;某一事件发生的时间、地点、过程等。如,检索“长江哪一年汛期的水位最高”。事实检索和数据检索一样,也是一种确定性检索,所不同的是需要对检索出来的数据进行较为复杂的对比、分析、推理后,方可得出结论。可利用百科全书、手册、年鉴、名录及相关数据库等参考工具进行检索。,信息检索的种类,按照计算机检索技术划分联机检索光盘检索网络检索,联机检索,联机检索是以联机检索提供商为中心,提供商研制自己的软件,建立自己的联机检索系统,用户利用检索系统终端,通过专用的或公用的电话线路等数据通讯网络与利用检索系统相连,按照提供商所指定的各项检索规则进行检索。联机检索系统由主机系统、数据库、通讯设备和终端设备组成。著名的联机检索系统有:OCLC、Dialog、STN等。DIALOG系统:目前世界上最大的商业性国际联机检索系统,拥有450多个数据库,其中也包括若干医药卫生数据库。,光盘检索,光盘检索有单机检索和联机检索两种。单机检索系统自成系统,由普通计算机、光驱、数据库光盘以及相应的检索软件和驱动软件构成,提供单个用户使用。联机检索系统在光盘网络的环境下运行,受到光盘塔和局域网的支撑,在局域网内提供多个用户使用,由服务器管理。,网络检索,基于搜索引擎技术的网络检索时随着互联网的兴起和普及而出现的。网络搜索引擎是当今网络检索工具的主流,不仅提供文本检索,还可以提供图像、图形、音频、视频、动画等多媒体检索。,检索种类,计算机检索 指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再有终端设备显示或打印的过程。,二、检索系统,检索系统的概念,检索系统的分类,1 检索系统的概念,信息检索系统:由一定的设备和信息集合构成的服务设施称为信息检索系统。例如:中国期刊网(CNKI)、在线公共目录检索系统(OPAC)、工程索引(EI),2 检索系统分类,检索系统分类:,2.1目录检索系统,目录检索系统:用于对出版物进行报道和对图书资料进行科学管理。常用目录检索系统:在线公共目录检索系统(OPAC)、中国高等教育文献保障系统(CALIS)联合目录公共检索系统。,目录检索系统,北航图书馆的OPAC(http:/202.112.134.140:8080/opac/),OPAC检索主界面,检索结果,著录信息与馆藏地信息,著录信息,分类浏览书目,点击相关学科,可以查看图书类目,期刊导航,目录检索系统,国家图书馆联机公共目录查询系统(http:/F),目录检索系统,检索结果,多库检索,组合检索,目录检索系统,CALIS(http:/),信息素养,目录检索系统,检索结果,显示馆藏信息,查看第二本的馆藏地,馆藏地信息,其他的目录检索系统,全国联合目录网上系统国家科技图书文献中心中国科学院图书馆http:/159.226.100.4/search*chx/,2.2 文摘检索系统,文摘检索系统:用于对信息题录和文摘的检索,检索结果一般是文献的来源信息。常用文摘检索系统:工程索引(EI)、引文索引(SCI)、科技会议录索引(ISTP),文摘检索系统,EI数据库(图书馆主页-电子资源-文摘数据库-EI),检索词,选择字段,文摘检索系统,检索结果,文摘检索系统,2.3 全文检索系统,全文检索系统:全文也包括内容简短的事实和数据,全文检索系统集文摘检索与全文提供于一体。常用的全文检索系统:中国知网(CNKI)、Science Direct,全文检索系统,CNKI(图书馆主页-电子资源-全文数据库-CNKI),全文检索系统,检索结果,全文检索系统,CNKI 附加的资源,CNKI的期刊导航,核心期刊导航,外语类的核心刊,检索系统小结,三、检索语言,检索语言基础知识检索语言的分类检索运算符,检索语言,信息检索语言是用来描述信息的内容特征和形式特征以及表达信息用户的语言。它是根据文献信息的存储和检索的需要而编制的一种人工语言,又称检索标识。它把信息的存储与检索联系起来使信息的标引者和检索者取得共同理解,从而实现检索目的。是沟通信息存储和信息检索的桥梁和纽带,也是信息用户获取所需信息全过程得以顺利实现的保证。,1 检索语言的基础知识,检索语言,概念,作用,检索原理,检索语言的基础知识,信息检索语言:用于描述信息系统中信息的内容特征和外表特征,并可以表达用户提问的一种专门语言。作用:信息存储 信息检索,检索语言,检索语言的基础知识,文献存储子系统 文献检索子系统,信息群,主题分析,编制目录文摘索引,概念转换,概念转换,主题分析,查找,用户群,信息集合,著录标引过程,检索语言,目录数据,待标文献,特征标识,主题概念,用户提问,主题概念,检索标识,编制检索策略过程,检索原理,信息检索的原理:用检索标识与信息的存储标识相比较,若取得一致,则为匹配,即可得到命中文献。信息存储 信息检索,检索语言,2 检索语言的分类,按照描述信息的特征分,检索语言的分类,按构成原理划分,分类语言,主题语言,分类语言,分类语言:是以号码为基本字符,用分类号和类目表达文献主题概念的检索语言。特点:是用分类号表达各种概念,根据概念之间的关系,把它们组织成一个逻辑体系。,分类语言,作用:,1.反映知识的分类或社会实践活动的职 能分工,具有较好的系统性。2.把同一学科、同一专业、同一职能活 动的文献集中在各个类目之下,满足 族性检索(类检索)需要。,分类语言,分类语言的具体表现形式是分类表,如在国内图书馆常用的中国图书馆分类法。分类表的作用:指导存储文献,正确标引出分类号 适用于从分类的角度检索某一类的文献,分类语言,国内:中国图书馆分类法 科学院图书馆分类法 人民大学图书馆分类法 国外:杜威十进分类法(Dewey Decimal Classification and Relative Index)美国国会图书馆分类法(Library of Congress Classification),分类语言,基本大类A 马克思主义、列宁主义、毛泽东思想B 哲 学C 社会科学总论D 政治、法律 TB 一般工业技术E 军 事 TD 矿业工程F 经 济 TE 石油、天然气工业G 文化、科学、教育、体育 TF 冶金工业H 语言、文字 TG 金属学、金属工业I 文 学 TH 机械、仪表工业J 艺 术 TJ 武器工业K 历史、地理 TK 动力工程N 自然科学总论 TL 原子能技术O 数理科学和化学 TM 电工技术P 天文学、地球科学 TN 无线电电子学、电信技术Q 生物科学 TP 自动化技术、计算技术R 医药、卫生 TQ 化学工业S 农业科学 TS 轻工业、手工业T 工业技术 TU 建筑科学U 交通运输 TV 水利工程V 航空航天X 环境科学、劳动保护科学Z 综合性图书,分类语言,分类语言,索书号,TN0308,V24/E:08,(E)V2408,TN03/08,英,日,俄,德,主题语言,主题语言:是一种描述语言,即用自然语言中的名词、名词性词组或句子描述文献所论述或研究的事物概念例如:我们在搜索引擎中查找文献时输入的“汽车燃料”就是主题语言的一种,主题语言,特点:直接用词语来表达各种概念。它以词汇规范化为基础,通过概念组配用以表达任何专指概念。具有较好的专指性,便于特性组配检索。直指性强,专指度高的特点。,主题语言,叙词词表中的关联关系,Y(用)USE 指引正式主题词 D(代)UF 指引非正式主题词 S(属)BT 指引上位主题词 F(分)NT 指引下位主题词 C(参)RT 指引相关主题词 Z(族)CC 指引族首主题词(最上位词),Fei ji zao sheng Wu ran yuan飞机噪声 污染源*Aircraft noise Pollution source D 航空噪声 F 臭气源 F 轰声 点污染源 S 噪声源 电磁污染源 Z 污染源*放射性污染源 C 交通噪声 非点污染源 工业污染源 固定污染源Hang kong zao sheng 农业污染源航空噪声 热污染源(增词时间:1989年)移动污染源 Aircraft noise 噪声源 Y 飞机噪声 C 污染物*Hong sheng Zao sheng yuan轰声 噪声源 Sonic boom Noise source S 飞机噪声 F 电器噪声 Z 污染源*飞机噪声 火车噪声,叙词表编排体系结构举例,非正式主题词,下位词,上位词,族首词,相关词,正式主题词,信息检索方法,1.检索工具法2.追溯法3.分段法4.浏览法,检索工具法,(1)顺查法:以课题研究的起始年代为起点,由远而近按时间顺序逐年查找的方法(2)倒查法:由近而远按时间顺序逐年查找的方法(3)抽查法:针对学科发展的高峰期,选 取一定时间段进行查找的方法,追溯法,是指利用已知文献后所附的参考文献入手,逐一追查原文,再从此原文后所附的参考文献逐一查找下去,直到获得满意的结果。,分段法,又称循环法、交替法、综合法。即利用检索工具法和追溯法交替使用的一种方法。,浏览法,指直接在一次文献中查找所需的文献,也称直接检索法。该方法带有盲目性,一般只作为对上述各种检索方法的补充,主要用于查找新近发表的文献。,信息检索途径,1.分类途径2.主题途径3.著者途径4.其它途径,1.分类途径,是从学科分类角度来查找文献的一种途径。利用目次表或目录来查找。检索文献的关键:分析课题,确定课题所属的类目与检索工具目次表中的类目相匹配,才能查准。特点:族性检索(适合从学科体系出发泛指性比较强的课题的检索,但不适合专指度高的课题以及新兴学科、交叉学科、边缘学科的课题的检索),从文献主题内容角度来检索文献的一种途径。利用检索工具后所附的主题索引,以主题词作为检索入口。检索文献的关键:分析课题,选准主题词,并了解主题索引的结构和编排。特点:特性检索(适合比较具体专深的课题以及新兴学科、交叉学科、边缘学科的课题的检索),主题途径,著者途径,在已知著者姓名的情况下,利用著者索引作为工具检索文献的途径。一般著者索引(个人或团体)均按著者姓的字母顺序编排,姓在前,名在后,姓用全称,名用缩写。,分子式途径号码途径引文途径,其它途径,3 常用检索运算符号,例如:检索关于“流动换热的湍流模型”的文献,“湍流模型”和“流动换热”,检索提问式,检索提问式:是检索策略的具体表达,是用检索系统规定的各种算符将各个检索条件连接而形成的一种逻辑表达式。,检索运算符号概念,检索运算符:在计算机检索系统中,为了制定一个计算机可识别的检索方案,这就需要计算机信息检索系统规定使用的组配符号(也称为算符operator)。,湍流模型“”流动换热,常用检索运算符号,(1)布尔逻辑算符(2)通配符与截词符(3)字段限制符(4)位置算符,(1)布尔逻辑算符,逻辑非,假设有两个检索项A和BNOT检索式表示为:A NOT B,A,B,NOT,A NOT B,逻辑非,定义:表示两个概念的排除,即被检索文献在含有检索词A而不含有检索词B时才被命中。作用:用于排斥关系的组配,即从原来的检索范围排除不需要的概念或影响检索结果的概念,提高查准率。如:fruit NOT apple注意:往往会把切题的文献给丢掉,运用时要非常慎重。,逻辑非,逻辑非(NOT),逻辑非,逻辑与,假设有两个检索项A和BAND检索式表示为:A AND B,A,B,AND,A AND B,逻辑与,定义:用于交叉概念或限定关系的组配,即被命中的文献必须同时含有检索项A和B。作用:可缩小检索范围,提高查准率。要求:运用时,把出现频率低的检索词置于“与”的左端,可使否定答案尽早出现,节省机时。A AND B。检索时,命中信息同时含有两个概念,专指性强。如检索式为:“计算机AND网络”或“计其机*网络”表示检索既合计算机又含网络方面的文献,即检索计算机网络方面的文献。,逻辑与,逻辑与,逻辑或,假设有两个检索项A和BOR检索式表示为:A OR B,A,B,OR,A OR B,逻辑或,定义:表示两个概念的并列,“或”用于并列关系(同义词、近义词)的组配,它可以扩大检索范围,防止漏捡,有利于提高查全率。若A oR B,即表示在一篇文献记录中只要含有A和B中的任意一个即算命中。作用:可扩大检索范围,提高查全率。要求:组构检索式时,可将估计出现频率高的词置于“或”的左面,可使选中的答案尽早出现。检索时,命中信息包含所有关于逻辑A或逻辑B或同时有A和B的,检索范围比AND扩大。如:rapid transit OR light rail OR subways railway OR railroad,逻辑或,逻辑或,布尔逻辑算符小结,92 9092 2192 194,逻辑非:,逻辑与:,逻辑或:,(2)通配符和截词符,截词是指将检索词在适当的地方截断,截词检索是用截断词的一个局部进行的检索,凡是满足这个截词所有字符(串)的记录,系统都为命中。截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。?#*表示截词的截断符号,各检索系统有不同的规定,没有统一标准。通配符和截词符主要用于西文电子资源的检索,不同检索系统使用的种类和含义可能会有所不同。,截词检索分类:,按截词的位置划分前截断:又称左截断,截词符在词的左边,例如:输入?economics能够检出含有economics、micro-economics、macroeconomics等词的记录。是后方一致检索。中截断:是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定,也称两边一致检索。例如:organi?ation,可以检索organisation,organization。一个?代表零个或任意个字符。例:colo?r,可检索到包含 color、colour、colonizer、colorimeter的记录。一个?和数字,其中的数字代表可替换的字符数。例:colo?1r,只能检索到包含colour的记录。后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的检索技术,例如:librar*,截词检索分类:,根据截断的数量不同无限截断:不限制被截断的字符数量。是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干相同的所有词。例:comput?表示允许其后可带有任何字符且数量不限,相当于查找compute、computed、computes、computing、computer、computers、computerize、computerized、computation、computations、computational、computationally 等词。有限截断:限制被截断的字符数量,例如educat*,可以检索educator、educated,通配符和截词符,以EI为例,(3)字段限制符,限定检索字段即是指定检索词出现在记录中的哪一个字段。是缩小或约束检索结果的方法。常用的字段限制符有前缀字段限制符和后缀字段限制符。,注意:目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。如题名字段:Ei CPX Web 中,用 highway transport*within TI 来表示;OCLC Firstsearch 中,用 TI:highway transport*来表示。在进行字段检索时,为了避免出现检索误差,应先看一下该数据库的使用指南或说明。例:Ei Web 网络版数据库主要字段的字段代码如下:CV Ei叙词表受控语言 TI 题名 AB 文摘 AU 著者姓名 AF 著者机构名称 ST 连续出版物名称 PN 出版时间,字段限制符,字段限制符,(4)位置算符,用来表达两个检索词出现在命中文献中的相互位置,比如交换词序、出现插词等。位置关系包括词距和词序两个方面。词距指的是两个单词之间的间隔距离,即相隔多少个单词。词序指的是两个单词之间的先后词序,即哪个在先,哪个在后。,computer(N)animationcomputer animation;animation computer,computer(1w)animationcomputer animation;computer assisted animation,常用位置算符,W、W/N、WITH、WITHIN两词相邻,按输入时顺序排列PRE两词相邻,按输入顺序排列N、NEAR、ADJ两词相邻,顺序可以颠倒F两个词在一个标引字段中,W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。例:intelligent(W)robot?(Ei Compendex Plus)Wn(或nW)表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。例:intelligent w1 robot*(OCLC FirstSearch),4.1 W-With,4.2 N-Near,N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。例:intelligent NEAR robot*nN表示在两个检索词之间最多可插入n个单词,且两词的词序任意。例:intelligent N1 robot*(OCLC FirstSearch),4.3 同字段检索,(F)Field(同字段的检索)。表示算符两侧的检索词(或检索项)必须同时出现在文献记录的同一字段内,如标题词宇段、叙词字段、文摘字段等,但它们之间的顺序不限,且夹在其中的其他词数量也不限。如:Pollution(F)Control的一篇题为”Control and management of industrial pollution”的文献记录为命中文献,因为算符两侧的检索词在同一标题字段中。,4.4 s(Subfield子字段内词运算),S(Subfield):表示算符两侧的检索词(或检索项)必须同时出现在文献记录的同一句子、同一段落等子字段内,但他们之间的顺序不限,且夹在其间的其他词数量也不限。,4.5 Adj-adjacency,邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。例:intelligent adj robot*(Elsevier Science SDOS),常用位置算符以及功能例举,算符小结,布尔逻辑算符AND、OR、NOT,字段限制符前缀、后缀,截词符和通配符*、$,位置算符,优先级运算,在一个完整的运算式(检索表达式)中可能包含多个运算符,其运算优先级顺序为:()NOTNEAR WITH ANDOR,算符应用,例:,vehicle alternative fuel、substitutive fuel for automobiles、methanol gasoline、ethanol、gasohol,汽车替代燃料,(vehicle alternative fuel),(vehicle$alter fuel),or,(substitutive fuel for automobiles),(methanol gasoline or ethanol or gasohol),and,(,),4.计算机检索的步骤,确定检索目标 选择数据库制定检索策略 上机检索 对检索结果评价检索策略调整获取原文,课题,获得原文,查找获得原 文的线索,获得有关课题的摘要或书目,选定检索 途径,分析课题,范围确定检索 标识,选定方检法索,选择检索 工具,文 献 信 息 检 索 过 程 示 意 图,(1),(2),(3),(4),(5),(6),(7),(8),1.确定检索目标1.1明确检索的目的 明确用户是要查新、查参考资料还是查询论文被收录或引用情况等,以便对检索的查准、查全和时间范围的指标要求有一个大致的了解,从而制定出符合情况的检索策略。1.2课题分析 对课题内容进行分析,找出核心概念和隐含概念,排除无关的概念,明确概念之间相互的逻辑关系。,2.选择数据库根据检索目标分析所确定的检索目的、涉及的学科范围和信息类型,选择合适的数据库。具体选择过程中还应考虑数据库的类型(参考、全文还是电子期刊)、内容(专利、标准、会议)、收录的数据学科范围、数据库的更新周期,收录文献的语种等因素。例如,要看全文就要选用全文数据库或电子期刊;要查标准或专利就要选择标准库或专利库,构造检索式示例:课题:数字化图书馆的信息检索服务 检索概念分析:document retrieval 并列概念 document delivery document delivery system digital library 同义词 virtual library electronic library检索提问式:(document W retrieval or document W delivery or document W delivery W system*)and(digital W librar*or electronic W librar*or virtual W librar*)record found:11(OCLC Firstsearch),4.上机检索(1)输出篇数过多时 此时多数是由误检造成的,原因主要有以下几点:1)没有对检索词进行限制。包括字段限制,时间限制,分类限制等。2)主题概念不够具体或具有多义性导致误检。例如,仅使用mathematics进行检索结果很多,将概念具体化。,如:mathematics and economic 再如,检索世界贸易组织仅输入“WTO”,系统可能会检索出“World Tourism Organization”(世界旅游组织)3)对所选的检索词截词截得过短。例如,使用math?将有太多的检索结果。,(2)输出篇数过少时 此时多数是由漏检造成的,原因可能有以下几点:1)选用了不规范的主题词或某些产品的俗称、商品名作为检索词。例如,没有使用学名“马铃薯”而使用了俗名“土豆”2)同义词没有充分考虑。例如,检索“物理化学”,没有考虑到“物理有机化学”,“物化”等同义词,导致漏检。,获取原文,中外全文数据库馆际互借(站在巨人的肩膀上)开放获取(open access)全文期刊导航系统(http:/:88/journal/ej.htm),谢谢,