第二章信息检索理论基础教材ppt课件.ppt
《第二章信息检索理论基础教材ppt课件.ppt》由会员分享,可在线阅读,更多相关《第二章信息检索理论基础教材ppt课件.ppt(66页珍藏版)》请在三一办公上搜索。
1、第二章 信息检索基础理论,本章要点 信息检索的概念及类型 信息检索语言和工具 信息检索技术及策略本章主要讲述信息与信息资源的基本内容; 信息检索的含义及主要类型; 信息检索语言和常用工具; 信息检索的方法、步骤、途径及信息检索的策略与效果评价。,第二章 信息检索基础理论 目录:,2.1 信息检索的含义及类型,2.3信息检索技术与策略,2.2 信息检索语言和工具,2.1 信息检索的含义及类型,2.1.1 信息检索的含义 广义的信息检索 (信息存储与检索,information storage and retrieval),包含了将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息
2、的全过程。狭义的信息检索,即根据需要,借助于检索工具,从信息集合中找出所需要信息的过程,相当于人们所说的信息查寻(information search)。,2.1 信息检索的含义及类型 2.1.1 信息检索的含义,1. 信息标引和存储过程,标引:根据文献的主题内容,按照某种规范化主题词典或词表,给予主题词和副主题词作为检索标识;或者根据文献的学科归属,采用某种文献资料分类法,给予分类号作为检索标识。信息标引是对大量无序的信息特征进行著录、组织,使之有序化。 信息存储是对有关信息进行选择,并按科学的方法组成检索工具和检索文档,建立信息数据库;即组织检索系统的过程。,2.信息的需求分析和检索过程,
3、分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即信息系统的应用过程。信息检索就是根据提问制定策略和表达式,利用信息数据库获取相关信息。,信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。,2.1.2 信息检索类型划分示意图,文献线索检索,全文检索,2.2 信息检索的语言和工具 2.2.1 信息检索语言,信息存储,信息检索,1、信息检索语言的概念,信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是一组有规则的、能够反映出信息内容及特征的标识符。检索语言是标引人员与检索人
4、员之间进行交流的媒介,也是人与检索系统之间进行交流的桥梁,实质上就是双方之间约定的共同语言。,2、信息检索语言的作用,文献信息,主题,主题,标引主题,标引检索,标引,标引,用户信息,2.2 信息检索的语言和工具 2.2.1 信息检索语言,信 息 检 索 语 言,分类语言,3.信息检索语言的种类,就其结构原理来划分,信息检索语言主要有 :,主题语言,代号语言,引文语言,等级体系分类语言,分面组配分类语言,标题词语言,元词语言,叙词语言,关键词语言,2.2 信息检索的语言和工具 2.2.1 信息检索语言,信 息 检 索 语 言,描述文献外部特征的语言,3.信息检索语言的种类,按照信息特征描述划分,
5、信息检索语言主要有 :,书名、刊名、篇名等,文献类型,文献出版类型,分类语言,描述文献内部特征的语言,著者、编者、译者等,号码(报告号、专利号、标准号等),主题语言,标题词语言,关键词语言,2.2 信息检索的语言和工具 2.2.1 信息检索语言,1)构成,4.信息检索语言的构成及其要素,表达基本概念意义的词汇,控制语言使用的语法,据此把基本的词汇组合起来表达更为复杂的概念意义,主要体现为各种标引规则、组配规则、引用次序等,从语言学的角度分析信息检索语言的构成应分为三个部分,用于组成词汇的形式化符号,通常有字母、数字或文字等。,2.2 信息检索的语言和工具 2.2.1 信息检索语言,2)要求,4
6、.信息检索语言的构成及其要素,专指性,检索语言应该能够描述文献和提问的特征,即要有充分的表达能力,能全面、准确地描述任何复杂 的文献信息以及提问内容。 具体要求如下:,唯一性,灵活性,2.2 信息检索的语言和工具 2.2.2 检索工具,1. 检索工具的定义与类型,检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。 按照检索手段的不同,可分为手工检索工具和计算机检索系统。 按照著录形式的
7、不同可分为:目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。,2.2 信息检索的语言和工具 2.2.2 检索工具,题录报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具。它与目录的主要不同点在于著录的对象不同,目录的著录对象是整部文献,而题录的著录对象是文献中的论文或部分内容。例如:美国化学题录、中文科技期刊题录数据库等。,目录通常是以文献的“本”、“种”、“件”等为单位,对一批相关文献外表特征的揭示和报道.例如:全国新书目、全国总书目、全国报刊简明目录等。,文摘是系统著录、报道、积累和揭示文献信息外表特征和内容特征的检索工具,是重要的二次文
8、献。它是对文献中的论文或内容进行浓缩,概括地描述其主要论点、数据、结论等,并注明其出处,按一定的规则编排起来的一种检索工具。文摘分三种:指示性文摘、报道性文摘和评论性文摘。例如:新华文摘、经济学文摘等 。,文 摘,按著录内容划分,题 录,目 录,索 引,索引是将文献信息中的题名、人名、地名、字句及参考文献等分别摘录出来,并注明出处,按一定的规则编排起来的一种检索工具。例如:经济科学论文索引社会科学引文索引等。,2.2 信息检索的语言和工具 2.2.2 检索工具,2. 数据库,1)数据库的概念,数据库(DB,Database)是长期储存在计算机内,有组织的、可共享的数据集合。数据库中的数据按一定
9、的数据模型组织、描述和储存,具有较小的冗余度,较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。,数据库管理系统(DBMS,Database Management System)是位于用户与操作系统之间的一个数据管理软件。,数据定义,用户通过它可以定义数据库中的数据对象;数据操纵功能,使用它可以实现如插入、删除和修改等数据库的基本操作;数据库的运行管理,包括数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复;数据库的建立和维护等。,基本功能,数据库系统(DBS,Database system)是指在计算机系统中引入数据库后构成的计算机应用系统。数据库系统一般由数据库
10、、操作系统、数据库管理系统及相关管理工具、应用系统、数据库管理员和用户构成。,书目数据库,2.2 信息检索的语言和工具 2.2.2 检索工具,2)数据库的类型,按服务模式划分,图像数据库,全文数据库,按信息处理层次划分,文摘数据库,按收录的文献类型划分,期刊论文数据库,书目及图书全文数据库,专利数据库,学位论文数据库,产品数据库,按收录文献信息的范围划分,综合性数据库,专业性数据库,文本数据库,数值数据库,声音数据库,视频数据库,多媒体数据库,单机数据库,联机数据库,网络数据库,按媒体信息划分,是数据库中数据组织存储的基本形式,是数据和信息的有序集合,由若干条记录组成,一个或若干个文档构成一个
11、数据库。通常一个数据库至少包括一个顺排文档和一个或多个倒排文档。,2.2 信息检索的语言和工具 2.2.2 检索工具,3)数据库的结构,文 档,记 录,字 段,是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库可以有一个或多个文档,一个文档由若干条记录构成,而一条记录由若干字段组成。在文摘数据库中,一条记录相当于检索刊物中的条文摘款目。,是记录的基本组成单元,是有关一篇文献或称一条记录的基本数据单元,每一个字段都反映该篇文献的一个方面的信息,组合在一起形成对一篇文献信息的内容特征和外表特征的完整描述。在文摘数据库中,一条记录应包含原始文献的题名、作者、出处、出版时间、分类号、文摘、
12、主题词或关键词等字段。每一个字段都有一个相应的标识符,以便计算机识别。,2.2 信息检索的语言和工具 2.2.2 检索工具,4. 计算机检索系统,检索系统由硬件和计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信息技术建立的存储和检索信信息的检索工具。软仵组成,硬件主要包括计算机主服务器、检索终端、数据输出设备等。软件主要包括检索程序和数据库等。检索软件是检索系统的灵魂,负责管理数据库和处理检索提问,它决定系统的检索能力。 计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。,1)光盘检索系统,光盘检索系统是指利用计算机、光盘驱动器和光盘数据库及其检索软件建立起来
13、的信息检索系统,由计算机、光盘数据库、检索软件等组成。,目前国内普遍采用光盘网络检索系统,它是由光盘服务器、计算机局域网、光盘库或光盘塔、检索软件等组成。,与手工检索相比,光盘检索的可检信息量大,一套四库全书印刷版有3 000多册,而光 盘版10多张盘片即可容纳下。光盘检索功能强大,检索入口多,检索速度快,检索及输出灵活方便。与联机检索相比,光盘检索价格低廉,检索方法简单容易,规格统一,容易复制,便于保存。其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时,一般是定期更新(快者1个月,慢者1年),因此信息的获得比国际联机检索慢。,2.2 信息检索的语言和工具 2.2.2 检索工具,2
14、)联机检索系统,回溯检索是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定时间范围内或特定时间以前的文献信息的一种联机检索方式。,是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计算机数据库中的信息资料。联机检索系统是一个典型的计算机检索系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程,由联机服务中心的主计算机、检索终端、通信网络、联机数据库、检索软件等组成。我国国内用户采用该方法查找国外计算机检索系统中的信息被称为国际联机检索。,联机检索系统主要有以下
15、四种服务方式:,定题检索是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现的新的文献信息的一种联机检索方式。,联机订购。联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系统可以为用户提供原始文献的联机订购服务。,电子邮件 联机检索系统为用户提供E-mail和电子邮政的功能。用户输入E-mail号码和通信内容,就可以在几秒钟内接收到本需耗时几天的信件投递。,2.2 信息检索的语言和工具 2.2.2 检索工具,网络检索是指通过因特网检索和获取网上电子信息。网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。一般由计算机服务器、
16、用户终端、通信网络、网络数据库等组成,其特点是方法简单、灵活、方便、时效性强、费用低。,3)网络检索系统,发出检索请求,返回检索结果,数 据 库,服务器,客户机,客户机/服务器请求与响应示意图,返回检索结果,匹 配 检 索,2.2 信息检索的语言和工具 2.2.2 检索工具,早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件传输服务(FTP)、电子邮件(Email)、电子公告栏(BBS)、新闻组(USENET)等。 具有WWW检索功能的检索系统是随着网上巨量信息的出现而开发的,常用的如网络数据库检索系统、搜索引擎、多媒体信息检索系统等。,3)网络检索系统,收录质
17、量,收录信息收录范围与信息质量标引质量,著录的详略,著录、标引的质量检索功能,检索语言易用性和效果满意度报道速度,信息报道的时效,检索工具评价标准,另外可读性和权威性可作为选择百科全书和词典等参考型工具的辅助指标,而网络检索必须考虑速度和检索费用。,2.3 信息检索方法,顺查法:时间上,远近 查全率高 倒查法:时间上,近远 查准率高 抽查法:研究的高级阶段 检索效率高追溯法(引文法) :A.一次文献参考文献一次信息参考文献 近远B.一次文献引用该一次信息的文献新的一次文献 实际是由“远近 ”越查文献越新交替法(综合法),常规法(工具法),2.3 信息检索的技术与策略,2.3.1 信息检索基本技
18、术 在计算机信息检索系统中,比较通用的有浏览、简单检索和高级检索等功能。 浏览功能是由信息工作者将各种信息按一定的方式组织起来,按信息的主题、分类等方式编制成树状结构体系,供用户层层点击,进入不同分支查看检索结果列表。 简单检索和高级检索是利用检索词(或检索式)进行检索,返回与之相符的检索结果。利用检索词(或检索式)检索时通常会用到布尔逻辑检索、截词检索、词间位置检索和限定字段检索等检索技术。,精确与模糊检索,2.3 信息检索的技术与策略 2.3.1 信息检索基本技术,基本技术,词间位置检索,加权检索,布尔逻辑检索,限定字段检索,限定范围检索,截词检索,1,2,3,4,5,6,7,检索技术及其
19、实现 1、布尔逻辑组配检索技术 布尔逻辑组配检索:是指利用标准的布尔逻辑关系词来限定检索词之间的逻辑关系的检索技术,它是现行计算机检索的基本技术。 主要的布尔逻辑关系词有3种:与(AND)、或(OR)、非(NOT),其优先级依次为NOT、AND和OR,改变优先级的方法是使用括号(),括号内的逻辑式优先执行。,用A和B表示两个检索词,布尔逻辑关系词的逻辑组配关系如图所示:,1.A and B 2. A or B 3.A not B, 逻辑与(逻辑乘) 用关系词AND或“*”表示,表示它所连接的两个检索词必须同时出现在结果中才满足检索条件。例如: “东南亚 * 经济危机”或 “东南亚 AND 经济
20、危机” “聚乙烯 * 复合材料 * 制备” Intelligent robot and control 逻辑与用来缩小文献检索范围,提高查准率,是具有概念交叉和限定关系的一种组配。, 逻辑或(逻辑加) 用关系词OR或“+”表示,表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件。 例如: “金融危机 OR 金融风暴” “自行车 + 单车 + 脚踏车” “计算机 or 电脑 or 微机” “airplane or aircraft or plane” 逻辑或用来扩大文献检索范围,提高查全率,是具有概念并列关系的一种组配。, 逻辑非(逻辑减) 用关系词not或“-”表示,表示它所连接的两
21、个检索词中应从第一个概念中排除第二个概念。 例如:“beverage not alcohol” “高等教育 - 成人教育” 逻辑非用来缩小文献检索范围,提高查准率。,2、截词检索技术 所谓截词检索,是指在检索式中用专门的截词符号(如“?”、 “*” 或“!”)表示检索词的某一部分允许有一定的词形变化,因此检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词,结果中只要包含其中任意一个就满足检索要求。 截词检索的作用是对检索词进行截词处理,解决一个检索词的单、复数问题,不同词性的问题以及英美词汇拼写差异的问题等。由于截词检索是隐含的布尔逻辑或的检索,因此能够防止漏检,提高
22、查全率。,(1)按截断部位可分为:,右截词中间截词左截词,右截词(后端截词、前端一致):允许检索词尾部有若干变化形式,例如“edit*” 就检出包含edit、editing、edition 、editor 、editorial 、editorialist 、editorialize 、editorship 、editorially等词汇的结果等; 中间截词:允许检索词中间有若干变化形式,例如“wom*n”就可以同时检索到含有woman和women的结果,又如“defen*e”就可以同时检索到defence和defense的结果;左截词(前端截词、后端一致):允许检索词的前端有若干变化形式,例如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 信息 检索 理论基础 教材 ppt 课件
链接地址:https://www.31ppt.com/p-1869268.html