信息存储与检索(第1章).ppt
《信息存储与检索(第1章).ppt》由会员分享,可在线阅读,更多相关《信息存储与检索(第1章).ppt(46页珍藏版)》请在三一办公上搜索。
1、第一章 绪论,授课教师:张起荣,信息存储与检索,本章目录,第一节 信息检索基本理论第二节 信息检索系统第三节 信息检索研究,信息存储与检索,第一节 信息检索基本理论,1.1.3 信息检索的类型,3,信息存储与检索,1.1.1 信息检索的概念,“信息检索”(Information Retrieval,IR,我国早期译为“情报检索”)一词最早出现于1952年,由美国学者穆尔斯()提出,从1961年开始在学术界和实践领域中得到广泛的应用1。信息检索这一概念首先假设包含相关信息的文献或记录已经按照某种有助于检索的顺序组织起来。信息检索就是对信息项进行表示、存储、组织和存取的全过程。对信息项的表示和组织
2、应该能够为用户提供其感兴趣信息的方便存取。遗憾的是,对用户信息需求进行全面而准确的描述不是一件轻而易举的事情。,信息存储与检索,1.1.1 信息检索的概念,在万维网环境中考察以下假设的用户信息需求:找到包含能满足以下两个条件的有关某一学院网球队相关信息的所有网页(即文献):(1)该网球队隶属于美国的一所大学;(2)该网球队参加过美国大学生体育协会(NCAA)举办的网球锦标赛。为了保证查找结果的相关性,检索到的网页必须包括该网球队在过去3年里在全国比赛中的名次及其教练的电子邮箱,地址或电话号码等信息。,信息存储与检索,1.1.1 信息检索的概念,在目前的Web搜索引擎界面中,人们不可能直接采用这
3、种对用户信息需求进行完整描述的方式来检索信息,用户必须首先将这些信息需求转换为搜索引擎(或IR系统)能够处理的查询式来查询。这种转换以其最普遍的形式生成一组关键词(或索引词),而这些关键词能够对用户信息需求的描述进行概述。,信息存储与检索,1.1.1 信息检索的概念,随着Internet的形成、发展和普及,信息检索才被越来越多的人所知。就信息检索这个概念而言,不同的使用者对它有着不同的理解和解释,大体可以分为两类:第一类是广义的。对于专门从事信息检索及其系统的研究、开发和设计的少数人来说,“信息检索”的完整含义是“信息存储与检索”。也就是说,把“信息检索”当做“信息存储与检索”的简称。这里所谓
4、的信息检索,包括存储和检索两个过程。信息存储是指将有用信息按照一定的方式组织和存放起来;信息检索是指当用户需要这些信息时,再把它们从存放的地方查找和提取出来。因此,对于广义的信息检索来说,存储和检索缺一不可。本书采取信息检索的广义用法,这就要求不仅要知道如何检索,也要知道如何存储,因为如何存储决定了如何检索。,信息存储与检索,1.1.1 信息检索的概念,第二类是狭义的。对于普通用户来说,在大多数情况下,“信息检索”可以用英文Information Searching来表达,其准确的含义是“信息查询”或“信息搜索”。也就是说,所谓信息检索,是指按照一定的方式从现有的信息集合或数据库中,找出并提取
5、所需要的信息。可见,狭义的信息检索仅指检索这一个过程,而不关心信息是如何存储的。,信息存储与检索,1.1.2 信息检索的原理,信息检索的基本原理可以用下图表示,信息存储与检索,1.1.2 信息检索的原理,从上图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中(对于自然语言检索系统来说,不存在存储与检索的间接交汇处)。,信息存储与检索,从由此可见,信息存储和信息检索的直接交汇处是至关重要的,由此形成了信息检索的一致性匹配作用机理,
6、如图1-2所示。,1.1.2 信息检索的原理,信息检索的一致性匹配作用机理包括5个机理:(1)提取机理(2)表示机理(3)比较机理(4)判断机理(5)选择机理,信息存储与检索,(1)提取机理。从现实的信息和现实的需求中提取出能够揭示特定信息和特定需求的语法特征和语义特征。这些特征可以归纳成内容(内部)特征和形式(外部)特征,前者包括特定信息和特定需求的类别(如学科、专业)、主题等;后者包括信息和需求的名称(提名)、作者(责任者)、时间、编号等。(2)表示机理。用适当的符号表示信息和需求的各种特征。符号是广义的,可以是文字、数字和符号,也可以是图形、图像、视频和音频。比如,用分类号表示信息和需求
7、的类别,用关键字表示信息和需求的主题。,1.1.2 信息检索的原理,信息存储与检索,(3)比较机理。在检索项类型(如提名、作者、分类、关键词)相同的情况下,对代表特定信息的特征符号与代表特定需求符号进行对比。比较的实质是相似性比较或一致性比较,即包括完全一致、部分一致和不一致,也包括等于、不等于、大于、小于。比如,对于两个词或词组来说,它们可以是完全一致、前方一致、后方一致、中间一致;对于两个编号来说,它们可以是相等、大于、小于。(4)判断机理。在比较的基础上,对信息是否符合需求以及符合的程度加以判断。两者相符合的信息被检索出来(命中),不相符合的信息被拒绝(不命中)。从符合程度来看,可以是完
8、全符合,也可以是部分符合。在部分符合中,还可以进一步细化。原则上,凡是符合需求的,尽管它们符合的程度有所不同。,1.1.2 信息检索的原理,信息存储与检索,(5)选择机理。对于检索出来的结果,按照一定的标准加以选择,带有推荐首选或着重使用的意义。选择的实质是排序,排序有多种标准和方法,如相关度、权值和(加权检索),1.1.2 信息检索的原理,(5)选择机理。对于检索出来的结果,按照一定的标准加以选择,带有推荐首选或着重使用的意义。选择的实质是排序,排序有多种标准和方法,如相关度、权值和(加权检索)、时间(新颖性)、重要作者或单位等。信息检索的一致性匹配作用机理的实质是简化现实的信息和现实的需求
9、之间的匹配。把内容与形式都非常复杂的信息简化成信息特征的符号化表示,再把内容与形式都非常复杂的需求也简化成需求特征的符号化表示,将这两个非常简单的特征符号化表示进行比较、判断和选择,从而变复杂为简单,化模糊为清晰,大大提高了匹配效率。然而,这种简化也会带来一些弊病,造成误检和漏检。,信息存储与检索,1.1.3 信息检索的类型,(一)按照信息检索的对象性质划分(1)文献检索。文献检索的对象是文献。例如:检索有关“太阳能电池”方面的文献。这里所说的“文献”是指文献单元,即包含一个完整内容的单元,如一篇论文、一本图书、一份报告等,而忽略其物理载体(如一次文献、二次文献、三次文献)等。进一步说,这里的
10、“文献”可以是完整的原始文献,也可以是原始文献的替代品,如一条目录款目、一条文献款目或一条索引款目。归根结底,文献检索的目标是检索出原始文献或原始文献的替代品。供文献检索使用的数据库是文献数据库,包括目录、文献、索引、全文等数据库。,信息存储与检索,1.1.3 信息检索的类型,(一)按照信息检索的对象性质划分(1)文献检索。文献检索的对象是文献。按照文献内容的完整性,文献检索又可以进一步分为书目检索和全文检索。书目检索,是指检索对象为原始文献的替代品,即文献线索,而不是原始文献本身,要想阅读原始文献,还必须依据文献线索去进一步找到和获取原始文献。书目检索通常借助于文献数据库、索引数据库、目录数
11、据库来完成。书目检索的首要目标是检索出包含用户所需信息的书目记录,其数据库则由被存储文献的书目记录构成。,信息存储与检索,1.1.3 信息检索的类型,(一)按照信息检索的对象性质划分(1)文献检索。文献检索的对象是文献。按照文献内容的完整性,文献检索又可以进一步分为书目检索和全文检索。全文检索,是指检索对象为原始文献本身,主要是对全文中的字、词、句、段等进行检索,检索出来的结果就是原始文献,进而可以直接阅读和使用原始文献。全文检索通常借助于全文数据库来完成,其首要目标是找出能满足用户所需信息的某个实际文本。全文数据库包含文献的实际文本,最终的检索结果也是实际文本。全文检索的完整含义不限于检索结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 存储 检索

链接地址:https://www.31ppt.com/p-6549507.html