【教学课件】第七章信息检索技术.ppt
《【教学课件】第七章信息检索技术.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第七章信息检索技术.ppt(56页珍藏版)》请在三一办公上搜索。
1、,第七章 信息检索技术,信息检索的概念信息检索数据库检索语言和检索效果评价信息检索的基本流程,第一节 信息检索的概念,1、检索的意义信息具有共享性,信息资源共享(information resource sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索(searching)。信息的检索、利用和创造是一个循环和增值的过程,人们通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具(数据库),再
2、提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。,2、检索的基本原理,信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)相关的信息。匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。,信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:,3、检索点,检索
3、点(access point)是检索的出发点,以前常用“检索途径”(approach)这一术语。每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。反映文献信息内容特征:分类检索和主题检索;反映文献外部特征:作者、名称和号码检索等。,1)分类检索(classification),分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(classification system)。分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具
4、,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。较权威的图书分类法有:中国图书馆图书分类法美国国会图书馆分类法(Library of Congress Classification)杜威十进分类法(Dewey decimal Classification system),2)主题检索,主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词有多种类型:有规范词和自由词,有单元词和多元词,有先 组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。,3)作者检索,
5、作者(author)检索是从文献的作者姓名出发来检索其文献。“作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者(translator)等 此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(authors affiliation)。,4)名称检索,名称(title)检索点是从各种事物的名称出发来检索文献信息。这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如个人电话簿(white pa
6、ges)或公司电话簿(yellow pages),查找的是号码信息。,5)号码检索,号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码(特殊的号码检索),等等。它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。,图书期刊的号码,国际标准书号ISBN:International Standard Book Number国际标
7、准刊号ISSN:International Standard Serial NumberISBN号:十位分四段构成,例如:047181086x其中:0:组号(语种、地区),组号有:0(英、美、加拿大、南非等英语区),1(其它英语区),2(法语区),3(德语区),4(日本),5(俄语区),7(中国),8(印度等),9(新加坡等东南亚地区)。471:出版社编号81086:图书序号x:一位效验码(x代表10)。,ISSN号:,ISSN有八位数字组成,例如:10058230其中:1005-823:前七位为出版物序号,0:最后一位为校验码。由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形
8、成了更多的可检索点,比如:文献类型、文献属性、参考文献、语种、出版年份等检索点,它们提供了更多的检索途径。,4、检索手段,从技术手段上分:手工检索(手检)和计算机检索(机检)手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval)工具,早些有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分有限,检索结果往往不尽人意。,计算机检索(computer-based retrieval),它通过
9、数据库系统来实现的。检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。,计算机检索的优势,计算机检索明显优于手工检索,主要表现:检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性。,第二节 信息检索数据库
10、(工具),检索工具(数据库)的功能 检索工具(数据库)的分类检索工具(数据库)的构成,检索工具(数据库)的功能,事实检索、目录检索、文摘索引检索。其关联关系如下图:,1)事实检索,事实检索是对包括事实(fact)、数值(numeric data)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案。它回答的问题诸如:“我国最近一年在SCI上被收录的文献量是多少?”“有哪些海外华人得过诺贝尔奖?”工具:字典、词典(dictionary)百科全书(encyclopedia)年鉴(annual,yearbook,almanac)手册(handbook,manual)名录(biog
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件 教学 课件 第七 信息 检索 技术
链接地址:https://www.31ppt.com/p-5660225.html