欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    信息检索概论03基本原理ppt课件.ppt

    • 资源ID:5489690       资源大小:1.70MB        全文页数:168页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息检索概论03基本原理ppt课件.ppt

    安徽工业大学图书馆信息检索教研室,信息检索概论Introduce to Information Retrieval,课程介绍,第三章,第一章,第五章,第四章,第二章,主讲:吕昭前,第七章,第九章,课后练习,第六章,第八章,安徽工业大学图书馆信息检索教研室,第三章 信息检索基本原理与方法掌握航海工具箱,信息检索概论,安徽工业大学图书馆信息检索教研室,主要内容,3.1 信息检索原理3.2 检索系统3.3 检索语言3.4 检索技术3.5 检索策略3.6 信息检索评价,安徽工业大学图书馆信息检索教研室,信息检索作为一门学科,其历史可追溯到19世纪下半叶。但在20世纪中期以前,信息存储和传播主要以纸质文献为载体,信息检索活动也围绕着文献的获取和控制展开,因此,信息检索研究关注的是如何检索利用文献中记载的信息,文献检索一度成为信息检索的同义词。20世纪50年代开始了计算机应用时代,信息检索得到迅速发展并使用情报检索一词。由于汉语中“信息”较“情报”的含义更为宽泛,加上英文information可以理解为“信息”或“情报”,随着通讯技术与计算机技术的紧密结合,信息载体类型的多样化及传播手段的改进,情报检索研究和文献检索研究逐渐归入信息检索研究这一具兼容性的概念。,安徽工业大学图书馆信息检索教研室,随着信息学的快速发展,作为信息贮存、获取技术方法的信息检索的研究范围也日趋扩展,主要包括:信息检索原理,信息检索系统,信息检索语言与技术,信息检索评价方法等。本章首先对这些理论基础及概念做简要介绍。,安徽工业大学图书馆信息检索教研室,3.1 信息检索原理,信息检索(Information Retrieval)是在 1949 年国际数学会议上由 Galvin W.Mooers 首次提出,在其发表的把信息检索看作是时间性的通讯论文中指出:“信息检索是一种时间性的通讯形式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点”,并强调“信息接受者是最活跃的一方”。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。我们可以用一句话概括信息检索的基本原理,即对信息集合与需求集合的匹配和选择。,安徽工业大学图书馆信息检索教研室,3.1.1 信息检索的概念,信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”(information storage and retrieval),是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索仅指信息的查询,即从信息集合中迅速、准确地查找出所需信息的程序和方法。信息集合可以是数据库的全部记录,也可以是某种检索工具,还可以是某个图书馆的全部馆藏。信息检索也就是从数据库、检索工具以及馆藏中查找所需信息的活动。,安徽工业大学图书馆信息检索教研室,示例:3D计算机图形学,自动化技术、计算技术类TP,计算机应用-模式识别装置TP391.41,TP391.41/H293,TP,TP391.41,TP391.41/H293,书的信息存储过程,书的信息检索过程,安徽工业大学图书馆信息检索教研室,信息存储,存储标识,信息集合,安徽工业大学图书馆信息检索教研室,存储过程就是按照检索语言(主题词表或分类表)及其使用原则对原始文献信息进行处理,形成文献信息特征标识,为检索提供经过整序(即形成检索途径)的文献信息集合的过程。具体来说,文献信息的存储包括对文献信息的著录、标引以及编排正文和所附索引等。所谓文献信息的著录是按照一定的规则对文献信息的外表特征和内容特征加以简单明确的表述。文献信息的标引是就文献信息的内容按一定的分类表或主题词表给出分类号或主题词。,安徽工业大学图书馆信息检索教研室,信息检索,检索过程则是按照同样的主题词表(或分类表)及组配原则分析课题,形成检索提问标识,根据检索系统所提供的检索途径,从文献信息集合中查获与检索提问标识相符的信息特征标识的过程。因此只有了解文献信息处理人员如何把文献信息存入检索系统,才能懂得如何从检索系统中检索所需信息。,安徽工业大学图书馆信息检索教研室,这里,匹配的相似性标准一般是通过把信息集合和需求集合预先进行某种形式化的加工和表示来提供的。对于文本而言,最主要、最常用的匹配标准是由某个或若干个词汇表达的“主题”、“关键词”、分类号等。也就是说,存储与检索所依据的规则必须一致,标引者与检索者必须遵守相同的标引规则。这样,无论什么样的标引者,对同一篇文献的标引结果一致,不论是谁来检索,都能查到这篇文献。,安徽工业大学图书馆信息检索教研室,3.1.2 信息检索的原理,信息检索的基本原理是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。概括地说,信息检索的原理就是对信息集合与需求集合的匹配和选择。,安徽工业大学图书馆信息检索教研室,检索时将用户需求集合中的检索标识提交到检索系统中,与信息检索系统中存储的信息特征标识进行进行逐一比对,两者完全一致或基本一致时,即为检索命中信息,可按用户要求从检索系统中输出。为了在信息集合与需求集合之间建立起联系和沟通,以便能从信息集合中快速获取用户所需要的信息和知识,信息检索提供了一种“匹配”机制,这种机制的主要功能在于能快速把需求集合与信息集合依据某种相似性标准进行比较和判断,进而选择出符合用户需要的信息。,安徽工业大学图书馆信息检索教研室,这种“匹配”和“选择”机制的实现,在很大程度上依赖于信息检索系统所采用的信息检索模型的优劣。信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。,安徽工业大学图书馆信息检索教研室,最简单的信息检索模型是单项检索模型。它将文献集合中的每一篇文献用1个或多个主题词标引,提问式由单个主题词构成。系统对提问的响应是:检中或不检中。匹配标准是:若提问式中的主题词属于某文献标引词集合中的成员,则该文献为检中。反之,为不检中。此模型由于检索过程简单,较为人们熟知且广泛使用。但此种模型的检索效果往往不好,尤其当文献集合很大时,检中的文献很大部分是无用的文献。,安徽工业大学图书馆信息检索教研室,1957年,Y.Bar-Hillel最先探讨了布尔逻辑应用于计算机检索的可能性,10年后,布尔逻辑模型正式被大型文献检索系统所采用,并逐渐成为各种大型联机检索系统、甚至是网络搜索引擎的典型、标准检索模式。为弥补布尔逻辑模型的不足,相继也出现了向量空间模型、概率检索模型、模糊集合模型、扩展布尔逻辑模型、相关反馈模型等。,安徽工业大学图书馆信息检索教研室,目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅以部分自然语言处理。自然语言理解在信息检索中应用,将大大提高信息检索的精度和相关性。文本检索中常用布尔模型,向量空间、相关反馈模型常被用在多媒体检索、搜索引擎、自动分类、智能检索、数据挖掘等技术中。,安徽工业大学图书馆信息检索教研室,3.2 信息检索系统,3.2.1 检索系统的概念3.2.2 检索系统的分类,安徽工业大学图书馆信息检索教研室,3.2.1 检索系统的概念,所谓检索系统,是指按某种方式方法建立起来,具有信息检索功能的信息资源体系。它们由一定的设施和设备、信息资源和服务构成。例如:中国知网(CNKI)、在线公共目录检索系统(OPAC)、工程索引(EI)、Dialog等。,安徽工业大学图书馆信息检索教研室,计算机信息检索系统的逻辑构成主要指它所包括的功能模块或子系统及其相互关系。一个完整的信息检索系统,通常由以下几个功能模块组成:信息源选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。,安徽工业大学图书馆信息检索教研室,狭义的检索系统又称为检索工具,是人们用来报道、存储和查找各类信息的系统(工具)。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。,安徽工业大学图书馆信息检索教研室,3.2.2 检索系统的分类,目录检索系统,全文检索系统,按照著录形式的不同,文摘检索系统,安徽工业大学图书馆信息检索教研室,缩微式,书本式、卡片式,按照载体形式的不同,机读式,安徽工业大学图书馆信息检索教研室,机械检索工具,手工检索工具,按照检索手段的不同,计算机检索系统,安徽工业大学图书馆信息检索教研室,检索工具是随着信息检索技术的不断发展而发展的。随着时间的推移,有些检索工具曾在一定历史时期为信息检索的发展做出过重要贡献,但已经完成了历史使命而现在不再使用了,例如机械检索工具在当前信息检索利用中已经很少使用了。,安徽工业大学图书馆信息检索教研室,1)目录检索系统,目录检索系统:用于对出版物进行报道和对图书资料进行科学管理。常用目录检索系统:图书馆在线公共目录检索系统(OPAC)、中国高等教育文献保障系统(CALIS)联合目录公共检索系统,安徽工业大学图书馆信息检索教研室,图书馆在线公共目录检索系统(OPAC)举例,安徽工业大学图书馆信息检索教研室,CALIS联合目录公共检索系统举例,安徽工业大学图书馆信息检索教研室,2)文摘检索系统,文摘检索系统:用于对信息题录和文摘的检索,检索结果一般是文献的来源信息。常用文摘检索系统:工程索引(EI)、引文索引(SCI),安徽工业大学图书馆信息检索教研室,EI检索界面,EI,检索词,选择字段,安徽工业大学图书馆信息检索教研室,EI检索结果,安徽工业大学图书馆信息检索教研室,3)全文检索系统,全文检索系统:全文也包括内容简短的事实和数据,全文检索系统集文摘检索与全文提供于一体。常用的全文检索系统:中国知网(CNKI)、Science Direct,安徽工业大学图书馆信息检索教研室,CNKI检索界面,林钟高,安徽工业大学图书馆信息检索教研室,安徽工业大学图书馆信息检索教研室,3.3 检索语言,检索原理,检索语言,作用,概念,安徽工业大学图书馆信息检索教研室,由信息检索原理课知,信息检索包括信息的存储和检索两个方面。信息存储指的是编制检索工具和建立检索系统,信息检索则是利用这些检索工具和检索系统来获取所需要的信息。因此,信息的存储和检索是两个有着密切联系的过程。其关系如图所示。,安徽工业大学图书馆信息检索教研室,检索语言在信息存储与检索给出中的作用,输入,检索,输出,安徽工业大学图书馆信息检索教研室,信息检索系统必须在文献信息与用户提问之间,建立起一定的对应关系,因而就必须依赖一种统一的交流“语言”,以此来描述文献信息的特征,同时,也以此来描述用户需求的特征。只有两者采用共同的“语言”,才能把文献信息特征的标识与用户需求特征的标识彼此对应、互相联系起来,完成检索的标识匹配和选择过程。,安徽工业大学图书馆信息检索教研室,3.3.1 检索语言的概念,信息检索语言是根据信息检索的需要而创制的人工语言,又称信息存储与检索语言、索引语言、标引语言、标引符号、标识系统等等。用于描述信息系统中信息的内容特征和外表特征,并可以表达用户提问。目前世界上有两千种左右的信息检索语言。如:中国图书馆图书分类法、汉语主题词表、Subject Headings for Engineering、INSPEC Thesaurus等都是信息检索语言的一种。,安徽工业大学图书馆信息检索教研室,标引人员根据信息的内容特征,依据检索语言的规则对信息进行标引,将其整理、加工、存储于检索系统中。同时,检索人员根据需要检索的信息内容特征,依据检索语言从检索系统中获取所需信息。,安徽工业大学图书馆信息检索教研室,概念逻辑和知识分类是信息检索语言的基础。任何一种信息检索语言,都是表达一系列概括文献信息内容的概念及其相关关系的概念标识系统。因此,它们全都是建立在概念逻辑基础上的。在信息检索过程中,概念则是用各种信息检索语言的语词(标识)来表达的。为揭示一个事物与其他各种事物之间的联系与区别,达到检全和检准的要求,信息检索语言不仅要表达一个个不同的概念,而且还要显示出各概念之间的逻辑关系。,安徽工业大学图书馆信息检索教研室,概念之间的关系有相容关系和不相容关系两类。相容关系中可分为同一关系、属种关系、交叉关系、整体与部分的关系、以及全面与某一方面的关系,此外还有外延不相排斥的并列关系。在不相容关系中可分为并列关系(外延互相排斥的)、矛盾关系和对立关系。,安徽工业大学图书馆信息检索教研室,3.3.2 检索语言的分类,外部特征书名/刊名著者名/团体著者出版事项代码/序号,内容特征分类语言 分类表主题语言 主题词表,安徽工业大学图书馆信息检索教研室,表示文献内容特征的检索语言,按构成原理划分,分类语言:体系分类法组面分类法,主题语言:标题词语言叙词语言单元词语言关键词语言,安徽工业大学图书馆信息检索教研室,1)分类语言,分类语言:是以号码(一般为字母和数字的组合)为基本字符,用分类号和类目表达文献主题概念的检索语言。特点:是用分类号表达各种概念,根据概念之间的关系,把它们组织成一个逻辑体系。作用:反映知识的分类或者社会实践活动的职能分工,具有较好的系统性;把同一学科、同一专业、同一职能活动的文献集中在各个类目之下,满足族性检索(类检索)需要。常用的等级体系分类语言简称分类法。,安徽工业大学图书馆信息检索教研室,等级体系分类语言是按一定的观点,以科学分类为基础,用逻辑分类的原理,结合信息的内容特征,运用概念划分与概括的方法,按照知识门类的逻辑次序从总到分,从上到下,从抽象到具体,从一般到特殊,从简单到复杂,层层进行概念划分,从而产生存在隶属关系的不同级别,逐级展开组成体现知识等级体系的分类表,并以分类表来标引、存储和检索信息。在分类表中,上位类包括下位类的总和,下位类隶属于其上位类,同位类互不相容,每一个类目分别以不同的符号(分类号)作标识,从而形成了以分类号为标记的一个严格有序的层次式结构体系。,安徽工业大学图书馆信息检索教研室,由于体系分类语言体现的是知识等级体系,因此,用体系分类语言标识文献能按学科或专业集中而系统地揭示信息,便于从学科或专业角度进行族性检索,并且查全率高。,安徽工业大学图书馆信息检索教研室,分类语言的具体表现形式是分类表,信息检索系统中,常用的分类表有:中国图书馆分类法(简称中图法)中国科学院图书馆分类法(简称科图法)人民大学图书馆分类法(简称人大法)国际十进制图书分类法(Dewey Decimal Classification)(美国国会图书馆分类法(Library of Congress Classification)或者采用自行编制的分类法。分类表的作用:指导存储文献,正确标引出分类号;帮助从分类的角度检索某一类文献。,安徽工业大学图书馆信息检索教研室,安徽工业大学图书馆信息检索教研室,中图法分类表基本结构,安徽工业大学图书馆信息检索教研室,索书号,G252.7/H66、TP311.5/H226,Head First设计模式(中文版),网络信息检索与利用,TP311.5H226,G252.7H68,安徽工业大学图书馆信息检索教研室,2)主题语言,主题语言:是一种描述语言,即用自然语言中的名词、名词性词组或句子描述文献所论述或研究的事物概念。例如:我们在搜索引擎中查找文献时输入的“汽车燃料”就是主题语言的一种。特点:直接用词语来表达各种概念。通过概念组配用于表达任何专指概念。具有较高的专指性,便于特性组配检索,直指性强。,安徽工业大学图书馆信息检索教研室,主题语言的分类,叙词:最有代表性的主题语言,由规范化的概念及其关系组成。叙词表,关键词:题目、摘要、全文中出现的,对表述文献主题内容具有实质意义的词汇,是未经规范化的自然语言词汇。,安徽工业大学图书馆信息检索教研室,叙词语言的概念:,叙词语言是以自然语言为基础,规范化的基本概念,以概念组配为基本原理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。叙词是从信息内容中抽选出来的能够概括表达信息内容基本概念的名词或术语,是不可再分的基本概念单元。如:“反坦克地雷”中的“反坦克武器”和“地雷”;“面向公众的电子政务信息资源的开发与管理”中的“公众服务”、“信息资源”、“电子政务”等都是叙词。,安徽工业大学图书馆信息检索教研室,叙词语言的特点:,叙词语言具有直观性、专指性强和组配性高等优点。尤其是组配性,显示出更强的多维检索功能。无论多复杂的文献主题概念,都可以通过叙词的组配,实现有效的检索。例如,“数控车床”这一概念,就可以用“数控机床”和“车床”的概念组配来表达。,安徽工业大学图书馆信息检索教研室,叙词表:,叙词表是将叙词按一定规则编制而成的,反映叙词的语义规范和语法规则。不同的叙词表其编制内容和方式都不同,如INSPEC叙词表有字顺表(Alphabetic display of thesaurus terms)和词族表(Hierarchical display of thesaurus terms),而汉语主题词表除叙词字顺表外,还有词族索引、范畴索引、英汉对照索引等三个辅助索引。叙词字顺表是叙词表的主表,是正确选择叙词的依据。,安徽工业大学图书馆信息检索教研室,叙词表中的关联关系:,Y(用)USE 指引正式主题词D(代)UF 指引非正式主题词S(属)BT 指引上位主题词F(分)NT 指引下位主题词C(参)RT 指引相关主题词Z(族)CC 指引族首主题词(最上位词),安徽工业大学图书馆信息检索教研室,汉语主题词表是我国第一部大型的综合性的叙词表,由中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个,词族数3707个,一级范畴数58个,二级674个,三级1080个。,安徽工业大学图书馆信息检索教研室,电磁波测距 39CElectromagnetic distance measurement D 电子测量法 无线电测距 物理测距 F 光电测距 雷达测距 微波测距 S 精密测距 Z 测量*C 三边测量电磁簇射Electromagnetic showers Y 电磁级联簇射,叙词表编排体系结构举例,字顺表的结构:,款目主题词,范畴号,非正式主题词,英文主题词,下位主题词,上位主题词,族首词,相关词,正式主题词,非正式主题词,安徽工业大学图书馆信息检索教研室,关键词语言,关键词是从文献的标题、文摘和正文中直接抽取的,能够揭示和表达文献主题内容并具有实质意义的未经规范化处理的自然语言词汇。关键词语言以关键词作为文献内容的标识和检索依据。关键词语言属于自然语言,未经严格的规范化处理,不像标题词、叙词一样编有词表,一般只列有“非关键词表”(stop words list)来限制关键词的选择。,安徽工业大学图书馆信息检索教研室,关键词语言的优点是适用于计算机自动化编排各种关键词索引,从而加速文献的标引速度和缩短检索工具出版的滞后时间。如美国化学文摘的期关键词索引,就是在卷主题索引出版前提供了一条迅速、便利的关键词检索途径。由于关键词未经规范化处理,存在的明显缺点是检索质量较差,可能会在标引和检索之间造成歧义或误差,从而导致漏检或误检。,安徽工业大学图书馆信息检索教研室,检索语言由词汇和语法组成。词汇是指登录在分类表、词表、代码表中的全部标识,一个标识(分类号、检索词、代码)就是它的一个语词,而分类表、词表、代码表则是它的词典。语法是指如何创造和运用那些标识来正确表达文献内容和情报需要,以有效地实现情报检索的一整套规则。检索语言实质就是检索途径。检索途径分为:分类途径、主题途径、著者途径和其他途径。,安徽工业大学图书馆信息检索教研室,3.4 检索技术,信息检索常用技术有:布尔检索、截词检索、限制检索、全文位置检索、加权检索、多媒体检索。,安徽工业大学图书馆信息检索教研室,3.4.1 布尔逻辑检索,安徽工业大学图书馆信息检索教研室,布尔运算符优先级比较:有括号时:括号内的先执行;无括号时:NOT AND OR例:检索“唐宋诗歌”的有关信息。关键词:唐、宋、诗歌;检索表达式(以CNKI为例):TI=唐 and TI=宋 and TI=诗歌(TI=唐 or TI=宋)and TI=诗歌TI=唐 and TI=诗歌 or TI=宋 and TI=诗歌错误表达式:TI=唐 or TI=宋 and TI=诗歌TI=唐 or TI=宋 or TI=诗歌唐 and 宋 or 诗歌,布尔逻辑运算符优先级,安徽工业大学图书馆信息检索教研室,布尔逻辑式的变换处理*,逆波兰变换法(福岛法),准波兰变换法占用工作区最少的逆波兰表达式范式法任一布尔逻辑检索式都可以化成与之等价的析取(或合取)范式,安徽工业大学图书馆信息检索教研室,例:检索“打印机驱动程序”方面的文献。(以CNKI为例)查询关键词:打印机、驱动程序检索表达式:TI=打印机 AND TI=驱动程序,布尔逻辑检索举例,安徽工业大学图书馆信息检索教研室,例:检索“微型计算机在图书馆中的应用”方面的有关信息。(以CNKI为例),查询关键词:微型计算机、微机、图书馆检索表达式:(KY=微型计算机 or KY=微机)and TI=图书馆,(KY=微型计算机 or KY=微机)and TI=图书馆,安徽工业大学图书馆信息检索教研室,例:检索有关“非师范类大学生信息素养”方面的文献信息。(以CNKI为例),检索式:TI=大学生 and TI=信息素养 not 师范,安徽工业大学图书馆信息检索教研室,布尔逻辑算符小结,逻辑非缩小检索范围:逻辑非用于排除不希望出现的检索词,能够缩小命中文献范围,增强检索的准确性。逻辑与缩小检索范围:增加限制条件,增加检索的专指性,缩小提问范围,减少文献输出量,提高查准率。逻辑或扩大检索范围:增加检索条件,放宽提问范围,增加检索结果,起扩检作用,提高查全率。,安徽工业大学图书馆信息检索教研室,注意事项,在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not”有的用“*、+、-”。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些网络检索工具如搜索引擎甚至用“、,、-”(即空格、逗号、减号)来表示。在不同的数据库中,逻辑运算符的优先级规定也不相同,使用时应关注具体数据库的规定。,安徽工业大学图书馆信息检索教研室,3.4.2 截词检索,截词检索是指在检索词的合适位置加上截词符或通配符进行截断,表示检索词的某一部分允许有一定的词形变化,让计算机按照检索词的部分片段同索引词进行对比,以提供族性检索的功能。通配符和截词符主要用于西文电子资源的检索。各数据库使用的通配符和截词符大同小异,举例说明如下:,安徽工业大学图书馆信息检索教研室,EI的通配符和截词符:,安徽工业大学图书馆信息检索教研室,EBSCO的通配符和截词符,安徽工业大学图书馆信息检索教研室,3.4.3 字段限定检索,通过限制检索范围,达到优化检索结果的方法。不能完全确定检索词(关键词、主题词)在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制检索的范围。常用的字段代码有标题(TI)、文摘(AB)、叙词(DE)、识别词或自由词(ID)、作者(AU)、语种(LA)、刊名(JN)、文献类型(DT)、年代(PY)等。这些限制符在不同的数据库系统有不同的表达形式和使用规则。,安徽工业大学图书馆信息检索教研室,数据库中可供检索的字段通常分为基本检索字段和辅助检索字段。基本检索字段主要有TI(题名)、AB(文摘)、DE(叙词)、SU(主题词)、标识词(ID)和KW(关键词),适用于各种数据库。辅助检索字段主要有AU(著者)、JN(刊名)或JA(刊号)、LA(语种)、BN(国际标准书号)、SN(国际标准刊号)、CC(分类类目)、CS(机构)、DT(文献类型)或PT(出版物类型)、PY(出版年)、SO(来源出版物)等字段。,安徽工业大学图书馆信息检索教研室,常用的字段限制符有前缀字段限制符和后缀字段限制符。前缀字段限制符格式:字段名=检索词后缀字段限制符格式:检索词/字段名 检索词 wn 字段名字段限制符一般用于高级检索或专家检索。,安徽工业大学图书馆信息检索教研室,前缀字段限制符举例,ScienceDirect:,CNKI:TI=中国 and KY=生态文明 and(AU%胡+李)可以检索到“篇名”包括“中国”并且关键词包括“生态文明”并且作者为“李”姓和“胡”姓的所有文章。,安徽工业大学图书馆信息检索教研室,后缀字段限制符举例,财务管理/TI查找题名中包含“财务管理”的文献。EI中用后缀字段限制符“wn”,如:test bed wn ALL AND atm networks wn TI(window wn TI AND sapphire wn TI)OR Sakamoto,K*wn AU,安徽工业大学图书馆信息检索教研室,3.4.4 位置限制检索,位置检索(Proximity Searching、Adjacent Operators)又称邻近检索,主要是通过检索式中的位置限制符来规定多个检索词在结果中的相对位置。一般用于高级检索或专家检索。例如检索“生物防治”的文献,若用检索式“biological*control”检索,则会将“抑制生物”(control biological)的文献也查出来,这显然不是所需文献。位置限制符主要有:相邻位置算符(W)、(N),句子位置算符(S),字段算符(F)。,安徽工业大学图书馆信息检索教研室,(W)算符,)加一个自然数n,表示此算符两侧的检索词允许插入最多n个词,且词序不可变。如biological W0 control相当于检索biological controlCD W0 ROM相当于检索CD ROM或CD-ROM。tax W8 reform 可以是 tax reform、tax(8个单词)reform 但不能是 reform of income tax。,安徽工业大学图书馆信息检索教研室,(N)算符,N加一个自然数n,表示两词间可插入最多n个词,词序可变。如检索式environment N2 protection 可检索出“environment protection”、“environment of the protection”、“environment of water protection”、“protection of forest environment”tax N5 reform 可命中 tax reform 以及 reform of income tax,安徽工业大学图书馆信息检索教研室,(S)、(F)算符,(S)是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限。(F)表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限。用此算符时须指定所要查找的字段,如题名字段、文摘字段、叙词字段等。例如digital(F)computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息。,安徽工业大学图书馆信息检索教研室,在不同的数据库中,位置算符检索功能及算符不同,应参看数据库的使用说明。,安徽工业大学图书馆信息检索教研室,算符小结,布尔逻辑算符AND、OR、NOT,截词符和通配符*、?、$、#,字段限制符前缀、后缀,位置限制符W、N、S、F,安徽工业大学图书馆信息检索教研室,例1:汽车替代燃料,vehicle alternative fuel、substitutive fuel for automobiles、methanol gasoline、ethanol、gasohol,vehicle alternative fuel,(vehicle$alter fuel)or(substitutive fuel for automobiles)and(methanol gasoline or ethanol or gasohol),安徽工业大学图书馆信息检索教研室,安徽工业大学图书馆信息检索教研室,例2:在EBSCO数据库检索中,某一用户需检索有关“数字图书馆与信息检索、参考咨询”方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题包含信息检索“information retrieval”或参考咨询reference,请编制其检索策略(检索式)。检索式:,(TI digital librar*or AB digital librar*)and SU(reference or information N2 retrieval),安徽工业大学图书馆信息检索教研室,安徽工业大学图书馆信息检索教研室,3.4.5 多媒体检索(Multimedia Search),随着多媒体计算技术的迅猛发展,各种音频、图像、视频信息开始层出不穷,人们已不再满足于传统的文字检索,提出了对多媒体信息的检索需求,因此,基于内容的多媒体信息检索应运而生。基于内容的检索是指根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。它是通过在没有人类参与的情况下能自动识别或理解声音、图像、视频重要特征的算法来实现的。,安徽工业大学图书馆信息检索教研室,基于内容的声频检索包括以语音为中心,采用语音识别技术的语音检索;以音乐为中心,采用音乐音符和旋律等音乐特征的音乐检索;及以波形声音为对象的音频检索。基于内容的音乐检索系统主要研究音高、音长、音强等音乐特征的提取、识别和检索。包括音乐特征的规范化和提取、用户输入识别及特征提取、音乐特征的匹配检索及输出、相关反馈等。目前已成熟的系统有:MUSCLEFISH、新西兰数字图书馆研究项目组所开发的MELDEX、卡内基-梅隆大学开发的QPD等。,安徽工业大学图书馆信息检索教研室,基于内容的图像信息检索的主要工作集中在识别和描述图像的颜色、纹理、形状、空间关系上,对于视频数据,还有视频分割、关键帧提取、场景变换探测以及故事情节重构等问题。由此可见,这是一门涉及面很广的交叉学科,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。,安徽工业大学图书馆信息检索教研室,示例:Google Goggles,Google Goggles是谷歌公司于2009年12月7日发布的手机搜索应用,能通过图形图像检索出相关信息,是视觉检索的突破性应用,是搜索引擎向真正的智能化发展的一个标志性应用。用户使用Android操作系统的手机拍摄照片即可搜索相关信息。如果被拍摄的主体是风景,用户会得到相关的旅游和建筑信息;如果被拍摄的是书籍,用户将会搜到基本信息、价格比较和书评信息;如果对准某一件商品的条形码或是商标一拍,就可以找到与该产品相关的信息;,安徽工业大学图书馆信息检索教研室,如果用户想要收录某张名片上的所有资料,也只需按下拍摄键就可以提取相关信息。在拍下照片的一刹那,这款软件会将照片与数据库里的10亿张带有有效信息的图片进行比对,并迅速给出答案。而本次摄下的图像也会成为Google庞大的数字储备中的一部分。对于商业网点的识别,则连拍照都省略了。采用类似“增强现实”技术的方式,将摄像头指向该店铺,Android系统即可利用GPS、电子罗盘信息,给出该店铺名称和更多信息。,安徽工业大学图书馆信息检索教研室,3.4.6 超文本检索(Hypertext Search),超文本是一种信息的组织方法,它把不定长的基本信息单元存放在结点上,这些基本信息单元可以是单个字、句子、章节、文献,甚至是图像、音乐或录像,结点以链路方式链接,链路可以分为层次链、交叉引用链、索引链等,构成网状层次结构。超文本的特点是以联想式的、非线性的,链路的网状层次关系,允许用户在阅读过程中从其认为有意义的地方入口,直接快速地检索到所需要的目标信息。,安徽工业大学图书馆信息检索教研室,超文本检索时其内容排列是非线性的,按照知识(信息)单元及其关系建立起知识结构网络,操作时用鼠标去点击相关的知识单元,检索便可追踪下去,进入下面各层菜单。这种检索方式常用在多媒体电子出版物中,这类出版物不仅采用超文本,而且常采用超媒体(hypermedia),提供文本和图形接口,Internet上的Web便是典型例子。,安徽工业大学图书馆信息检索教研室,3.5 检索策略,检索策略就是在分析课题内容的基础上,确定检索系统、检索途径、检索表达式(检索词之间的位置关系、逻辑联系)、查找步骤等。在数据库和系统功能相同的前提下,检索策略是否考虑周全,以及在检索过程中能否根据实际情况修改原来的策略,使其更加切题,都会影响检索结果的查全率和查准率。所以检索策略的构建与调整对检索者来说十分重要。,安徽工业大学图书馆信息检索教研室,检索表达式是检索策略的具体表现。检索表达式也称“提问式”、“检索式”、“逻辑式”。它是将各检索词(关键词、主题词)之间用布尔逻辑符、关键词检索、位置算符检索、截词符检索和字段限制符检索等系统规定的组配符连接起来。制定正确恰当的检索策略,可以指导和优化检索过程,提高检索效率,全面、准确、快速、低成本地找到所需信息。检索策略体现在检索步骤中。,安徽工业大学图书馆信息检索教研室,问题1应按照什么步骤完成信息检索?,信息检索过程是一个检索操作过程,如选择数据库、确定关键词、构造检索式等?,这种对信息检索过程公式化的理解,不能帮助我们真正把握解决问题的思考方式,也就无法产生一个全局的检索思路,以至于最终无法有效实现检索目标。,信息检索实质是解决信息问题,信息检索的一般步骤实际上是提出问题和解决问题的过程。信息检索技能的提高要围绕三个层次,把握七项准则。,安徽工业大学图书馆信息检索教研室,3.5.1 信息检索三层次,信息检索从技能和能力综合来看,分为三个层次(如图):(1)熟悉信息资源、(2)掌握检索技术、(3)信息综合利用。随着学习的深入和实践应用的不同,不同的人一般处于不同的层次上。因而,学习信息检索,需要不断地根据这三个层次进行比较和对照,并加强学习和实践,努力提高检索能力。,安徽工业大学图书馆信息检索教研室,3.5.2 信息检索七准则,1.你得到什么检索结果,取决于你怎么提问。即课题分析的重要性和信息需求的正确表达,要求能将信息需求提取出合适的主题概念并能利用信息检索技术实现“人机对话”。2.去信息应该在的地方检索。即信息检索工具(如数据库)的选择。3.评价你的检索结果 信息可能是真的,但内容仍然会有错的。“尽信书则不如无书”,对检索结果的需要进行判断、选择和甄别,选取合适的内容为己所用。,安徽工业大学图书馆信息检索教研室,4.检索是一个多步骤的过程。信息检索是一个不断探索和发现的过程,通过不断的“人机对话”,从检索结果的反馈中不断得到启发和提示,并采用扩展检索、缩小检索、调整检索词和检索途径等方法,甚至重新选择检索工具,最终完成检索需求。希望一个检索策略就能完成检索任务的想法显然是没有了解信息检索的精髓,任何一蹴而就的想法都与信息检索的要求背道而驰。,安徽工业大学图书馆信息检索教研室,信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:,Information Need信息需求,Query信息提问,Retrieved Objects检出对象,Indexed Objects标引对象,Document Objects文献对象,Representation表述,Evaluat

    注意事项

    本文(信息检索概论03基本原理ppt课件.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开