信息检索概论03-基本原理.ppt
《信息检索概论03-基本原理.ppt》由会员分享,可在线阅读,更多相关《信息检索概论03-基本原理.ppt(168页珍藏版)》请在三一办公上搜索。
1、安徽工业大学图书馆信息检索教研室,信息检索概论Introduce to Information Retrieval,课程介绍,第三章,第一章,第五章,第四章,第二章,主讲:吕昭前,第七章,第九章,课后练习,第六章,第八章,安徽工业大学图书馆信息检索教研室,第三章 信息检索基本原理与方法掌握航海工具箱,信息检索概论,安徽工业大学图书馆信息检索教研室,主要内容,3.1 信息检索原理3.2 检索系统3.3 检索语言3.4 检索技术3.5 检索策略3.6 信息检索评价,安徽工业大学图书馆信息检索教研室,信息检索作为一门学科,其历史可追溯到19世纪下半叶。但在20世纪中期以前,信息存储和传播主要以纸质文
2、献为载体,信息检索活动也围绕着文献的获取和控制展开,因此,信息检索研究关注的是如何检索利用文献中记载的信息,文献检索一度成为信息检索的同义词。20世纪50年代开始了计算机应用时代,信息检索得到迅速发展并使用情报检索一词。由于汉语中“信息”较“情报”的含义更为宽泛,加上英文information可以理解为“信息”或“情报”,随着通讯技术与计算机技术的紧密结合,信息载体类型的多样化及传播手段的改进,情报检索研究和文献检索研究逐渐归入信息检索研究这一具兼容性的概念。,安徽工业大学图书馆信息检索教研室,随着信息学的快速发展,作为信息贮存、获取技术方法的信息检索的研究范围也日趋扩展,主要包括:信息检索原
3、理,信息检索系统,信息检索语言与技术,信息检索评价方法等。本章首先对这些理论基础及概念做简要介绍。,安徽工业大学图书馆信息检索教研室,3.1 信息检索原理,信息检索(Information Retrieval)是在 1949 年国际数学会议上由 Galvin W.Mooers 首次提出,在其发表的把信息检索看作是时间性的通讯论文中指出:“信息检索是一种时间性的通讯形式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点”,并强调“信息接受者是最活跃的一方”。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。我们可以用一句话概括信息检索的基本原理,即对信息集合与需求
4、集合的匹配和选择。,安徽工业大学图书馆信息检索教研室,3.1.1 信息检索的概念,信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”(information storage and retrieval),是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索仅指信息的查询,即从信息集合中迅速、准确地查找出所需信息的程序和方法。信息集合可以是数据库的全部记录,也可以是某种检索工具,还可以是某个图书馆的全部馆藏。信息检索也就是从数据库、检索工具以及馆藏中查找所需信息的活动。,安徽工业大学图书馆信息检索教研室,示例:3D计算机图形学,自动化技术、计算
5、技术类TP,计算机应用-模式识别装置TP391.41,TP391.41/H293,TP,TP391.41,TP391.41/H293,书的信息存储过程,书的信息检索过程,安徽工业大学图书馆信息检索教研室,信息存储,存储标识,信息集合,安徽工业大学图书馆信息检索教研室,存储过程就是按照检索语言(主题词表或分类表)及其使用原则对原始文献信息进行处理,形成文献信息特征标识,为检索提供经过整序(即形成检索途径)的文献信息集合的过程。具体来说,文献信息的存储包括对文献信息的著录、标引以及编排正文和所附索引等。所谓文献信息的著录是按照一定的规则对文献信息的外表特征和内容特征加以简单明确的表述。文献信息的标
6、引是就文献信息的内容按一定的分类表或主题词表给出分类号或主题词。,安徽工业大学图书馆信息检索教研室,信息检索,检索过程则是按照同样的主题词表(或分类表)及组配原则分析课题,形成检索提问标识,根据检索系统所提供的检索途径,从文献信息集合中查获与检索提问标识相符的信息特征标识的过程。因此只有了解文献信息处理人员如何把文献信息存入检索系统,才能懂得如何从检索系统中检索所需信息。,安徽工业大学图书馆信息检索教研室,这里,匹配的相似性标准一般是通过把信息集合和需求集合预先进行某种形式化的加工和表示来提供的。对于文本而言,最主要、最常用的匹配标准是由某个或若干个词汇表达的“主题”、“关键词”、分类号等。也
7、就是说,存储与检索所依据的规则必须一致,标引者与检索者必须遵守相同的标引规则。这样,无论什么样的标引者,对同一篇文献的标引结果一致,不论是谁来检索,都能查到这篇文献。,安徽工业大学图书馆信息检索教研室,3.1.2 信息检索的原理,信息检索的基本原理是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。概括地说,信息检索的原理就是对信息集合与需求集合的匹配和选择。,安徽工业大学图书馆信息检索教研室,检索时将用户需求集合中的
8、检索标识提交到检索系统中,与信息检索系统中存储的信息特征标识进行进行逐一比对,两者完全一致或基本一致时,即为检索命中信息,可按用户要求从检索系统中输出。为了在信息集合与需求集合之间建立起联系和沟通,以便能从信息集合中快速获取用户所需要的信息和知识,信息检索提供了一种“匹配”机制,这种机制的主要功能在于能快速把需求集合与信息集合依据某种相似性标准进行比较和判断,进而选择出符合用户需要的信息。,安徽工业大学图书馆信息检索教研室,这种“匹配”和“选择”机制的实现,在很大程度上依赖于信息检索系统所采用的信息检索模型的优劣。信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以
9、翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。,安徽工业大学图书馆信息检索教研室,最简单的信息检索模型是单项检索模型。它将文献集合中的每一篇文献用1个或多个主题词标引,提问式由单个主题词构成。系统对提问的响应是:检中或不检中。匹配标准是:若提问式中的主题词属于某文献标引词集合中的成员,则该文献为检中。反之,为不检中。此模型由于检索过程简单,较为人们熟知且广泛使用。但此种模型的检索效果往往不好,尤其当文献集合很大时,检中的文献很大部分是无用的文献。,安徽工业大学图书馆信息检索教研室,1957年,Y.Bar-Hillel最先探讨了布尔逻辑应用于计算机检索
10、的可能性,10年后,布尔逻辑模型正式被大型文献检索系统所采用,并逐渐成为各种大型联机检索系统、甚至是网络搜索引擎的典型、标准检索模式。为弥补布尔逻辑模型的不足,相继也出现了向量空间模型、概率检索模型、模糊集合模型、扩展布尔逻辑模型、相关反馈模型等。,安徽工业大学图书馆信息检索教研室,目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言理解在信息检索中应用,将大大提高信息检索的精度和相关性。文本检索中常用布尔模型,向量空间、相关反馈模型常被用在多媒体检索、搜索引擎、自动分类、智能检索、数据挖掘等技术中。,安徽工业大学图书馆信息检索教研室,3.2 信息检索系统
11、,3.2.1 检索系统的概念3.2.2 检索系统的分类,安徽工业大学图书馆信息检索教研室,3.2.1 检索系统的概念,所谓检索系统,是指按某种方式方法建立起来,具有信息检索功能的信息资源体系。它们由一定的设施和设备、信息资源和服务构成。例如:中国知网(CNKI)、在线公共目录检索系统(OPAC)、工程索引(EI)、Dialog等。,安徽工业大学图书馆信息检索教研室,计算机信息检索系统的逻辑构成主要指它所包括的功能模块或子系统及其相互关系。一个完整的信息检索系统,通常由以下几个功能模块组成:信息源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。,安徽工业
12、大学图书馆信息检索教研室,狭义的检索系统又称为检索工具,是人们用来报道、存储和查找各类信息的系统(工具)。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。,安徽工业大学图书馆信息检索教研室,3.2.2 检索系统的分类,目录检索系统,全文检索系统,按照著录形式的不同,文摘检索系统,安徽工业大学图书馆信息检索教研室,缩微式,书本式、卡片式,按照载体形式的不同,机读式,安徽工业大学图书馆信息检索教研室,机械检索工具,手工检索工具,按照检索
13、手段的不同,计算机检索系统,安徽工业大学图书馆信息检索教研室,检索工具是随着信息检索技术的不断发展而发展的。随着时间的推移,有些检索工具曾在一定历史时期为信息检索的发展做出过重要贡献,但已经完成了历史使命而现在不再使用了,例如机械检索工具在当前信息检索利用中已经很少使用了。,安徽工业大学图书馆信息检索教研室,1)目录检索系统,目录检索系统:用于对出版物进行报道和对图书资料进行科学管理。常用目录检索系统:图书馆在线公共目录检索系统(OPAC)、中国高等教育文献保障系统(CALIS)联合目录公共检索系统,安徽工业大学图书馆信息检索教研室,图书馆在线公共目录检索系统(OPAC)举例,安徽工业大学图书
14、馆信息检索教研室,CALIS联合目录公共检索系统举例,安徽工业大学图书馆信息检索教研室,2)文摘检索系统,文摘检索系统:用于对信息题录和文摘的检索,检索结果一般是文献的来源信息。常用文摘检索系统:工程索引(EI)、引文索引(SCI),安徽工业大学图书馆信息检索教研室,EI检索界面,EI,检索词,选择字段,安徽工业大学图书馆信息检索教研室,EI检索结果,安徽工业大学图书馆信息检索教研室,3)全文检索系统,全文检索系统:全文也包括内容简短的事实和数据,全文检索系统集文摘检索与全文提供于一体。常用的全文检索系统:中国知网(CNKI)、Science Direct,安徽工业大学图书馆信息检索教研室,C
15、NKI检索界面,林钟高,安徽工业大学图书馆信息检索教研室,安徽工业大学图书馆信息检索教研室,3.3 检索语言,检索原理,检索语言,作用,概念,安徽工业大学图书馆信息检索教研室,由信息检索原理课知,信息检索包括信息的存储和检索两个方面。信息存储指的是编制检索工具和建立检索系统,信息检索则是利用这些检索工具和检索系统来获取所需要的信息。因此,信息的存储和检索是两个有着密切联系的过程。其关系如图所示。,安徽工业大学图书馆信息检索教研室,检索语言在信息存储与检索给出中的作用,输入,检索,输出,安徽工业大学图书馆信息检索教研室,信息检索系统必须在文献信息与用户提问之间,建立起一定的对应关系,因而就必须依
16、赖一种统一的交流“语言”,以此来描述文献信息的特征,同时,也以此来描述用户需求的特征。只有两者采用共同的“语言”,才能把文献信息特征的标识与用户需求特征的标识彼此对应、互相联系起来,完成检索的标识匹配和选择过程。,安徽工业大学图书馆信息检索教研室,3.3.1 检索语言的概念,信息检索语言是根据信息检索的需要而创制的人工语言,又称信息存储与检索语言、索引语言、标引语言、标引符号、标识系统等等。用于描述信息系统中信息的内容特征和外表特征,并可以表达用户提问。目前世界上有两千种左右的信息检索语言。如:中国图书馆图书分类法、汉语主题词表、Subject Headings for Engineering
17、、INSPEC Thesaurus等都是信息检索语言的一种。,安徽工业大学图书馆信息检索教研室,标引人员根据信息的内容特征,依据检索语言的规则对信息进行标引,将其整理、加工、存储于检索系统中。同时,检索人员根据需要检索的信息内容特征,依据检索语言从检索系统中获取所需信息。,安徽工业大学图书馆信息检索教研室,概念逻辑和知识分类是信息检索语言的基础。任何一种信息检索语言,都是表达一系列概括文献信息内容的概念及其相关关系的概念标识系统。因此,它们全都是建立在概念逻辑基础上的。在信息检索过程中,概念则是用各种信息检索语言的语词(标识)来表达的。为揭示一个事物与其他各种事物之间的联系与区别,达到检全和检
18、准的要求,信息检索语言不仅要表达一个个不同的概念,而且还要显示出各概念之间的逻辑关系。,安徽工业大学图书馆信息检索教研室,概念之间的关系有相容关系和不相容关系两类。相容关系中可分为同一关系、属种关系、交叉关系、整体与部分的关系、以及全面与某一方面的关系,此外还有外延不相排斥的并列关系。在不相容关系中可分为并列关系(外延互相排斥的)、矛盾关系和对立关系。,安徽工业大学图书馆信息检索教研室,3.3.2 检索语言的分类,外部特征书名/刊名著者名/团体著者出版事项代码/序号,内容特征分类语言 分类表主题语言 主题词表,安徽工业大学图书馆信息检索教研室,表示文献内容特征的检索语言,按构成原理划分,分类语
19、言:体系分类法组面分类法,主题语言:标题词语言叙词语言单元词语言关键词语言,安徽工业大学图书馆信息检索教研室,1)分类语言,分类语言:是以号码(一般为字母和数字的组合)为基本字符,用分类号和类目表达文献主题概念的检索语言。特点:是用分类号表达各种概念,根据概念之间的关系,把它们组织成一个逻辑体系。作用:反映知识的分类或者社会实践活动的职能分工,具有较好的系统性;把同一学科、同一专业、同一职能活动的文献集中在各个类目之下,满足族性检索(类检索)需要。常用的等级体系分类语言简称分类法。,安徽工业大学图书馆信息检索教研室,等级体系分类语言是按一定的观点,以科学分类为基础,用逻辑分类的原理,结合信息的
20、内容特征,运用概念划分与概括的方法,按照知识门类的逻辑次序从总到分,从上到下,从抽象到具体,从一般到特殊,从简单到复杂,层层进行概念划分,从而产生存在隶属关系的不同级别,逐级展开组成体现知识等级体系的分类表,并以分类表来标引、存储和检索信息。在分类表中,上位类包括下位类的总和,下位类隶属于其上位类,同位类互不相容,每一个类目分别以不同的符号(分类号)作标识,从而形成了以分类号为标记的一个严格有序的层次式结构体系。,安徽工业大学图书馆信息检索教研室,由于体系分类语言体现的是知识等级体系,因此,用体系分类语言标识文献能按学科或专业集中而系统地揭示信息,便于从学科或专业角度进行族性检索,并且查全率高
21、。,安徽工业大学图书馆信息检索教研室,分类语言的具体表现形式是分类表,信息检索系统中,常用的分类表有:中国图书馆分类法(简称中图法)中国科学院图书馆分类法(简称科图法)人民大学图书馆分类法(简称人大法)国际十进制图书分类法(Dewey Decimal Classification)(美国国会图书馆分类法(Library of Congress Classification)或者采用自行编制的分类法。分类表的作用:指导存储文献,正确标引出分类号;帮助从分类的角度检索某一类文献。,安徽工业大学图书馆信息检索教研室,安徽工业大学图书馆信息检索教研室,中图法分类表基本结构,安徽工业大学图书馆信息检索教
22、研室,索书号,G252.7/H66、TP311.5/H226,Head First设计模式(中文版),网络信息检索与利用,TP311.5H226,G252.7H68,安徽工业大学图书馆信息检索教研室,2)主题语言,主题语言:是一种描述语言,即用自然语言中的名词、名词性词组或句子描述文献所论述或研究的事物概念。例如:我们在搜索引擎中查找文献时输入的“汽车燃料”就是主题语言的一种。特点:直接用词语来表达各种概念。通过概念组配用于表达任何专指概念。具有较高的专指性,便于特性组配检索,直指性强。,安徽工业大学图书馆信息检索教研室,主题语言的分类,叙词:最有代表性的主题语言,由规范化的概念及其关系组成。
23、叙词表,关键词:题目、摘要、全文中出现的,对表述文献主题内容具有实质意义的词汇,是未经规范化的自然语言词汇。,安徽工业大学图书馆信息检索教研室,叙词语言的概念:,叙词语言是以自然语言为基础,规范化的基本概念,以概念组配为基本原理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。叙词是从信息内容中抽选出来的能够概括表达信息内容基本概念的名词或术语,是不可再分的基本概念单元。如:“反坦克地雷”中的“反坦克武器”和“地雷”;“面向公众的电子政务信息资源的开发与管理”中的“公众服务”、“信息资源”、“电子政务”等都是叙词。,安徽工业大学图书馆信息检索教研室,叙词语言的特点:,叙词语言具有
24、直观性、专指性强和组配性高等优点。尤其是组配性,显示出更强的多维检索功能。无论多复杂的文献主题概念,都可以通过叙词的组配,实现有效的检索。例如,“数控车床”这一概念,就可以用“数控机床”和“车床”的概念组配来表达。,安徽工业大学图书馆信息检索教研室,叙词表:,叙词表是将叙词按一定规则编制而成的,反映叙词的语义规范和语法规则。不同的叙词表其编制内容和方式都不同,如INSPEC叙词表有字顺表(Alphabetic display of thesaurus terms)和词族表(Hierarchical display of thesaurus terms),而汉语主题词表除叙词字顺表外,还有词族索
25、引、范畴索引、英汉对照索引等三个辅助索引。叙词字顺表是叙词表的主表,是正确选择叙词的依据。,安徽工业大学图书馆信息检索教研室,叙词表中的关联关系:,Y(用)USE 指引正式主题词D(代)UF 指引非正式主题词S(属)BT 指引上位主题词F(分)NT 指引下位主题词C(参)RT 指引相关主题词Z(族)CC 指引族首主题词(最上位词),安徽工业大学图书馆信息检索教研室,汉语主题词表是我国第一部大型的综合性的叙词表,由中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 概论 03 基本原理
链接地址:https://www.31ppt.com/p-5230010.html