信息检索教程-第六章.ppt
《信息检索教程-第六章.ppt》由会员分享,可在线阅读,更多相关《信息检索教程-第六章.ppt(34页珍藏版)》请在三一办公上搜索。
1、信 息 检 索 教 程,王立清 主编,普通高等教育”十一五”国家级规划教材,计算机信息检索是随着计算机的出现而发展起来的。计算机检索经历了脱机检索、联机检索、光盘检索及网络信息检索等阶段。计算机检索以其检索效率高、检索效果好而在信息检索中得到了广泛的使用。,第6章 计算机检索概述,6.1.1 计算机信息检索的含义计算机信息检索指人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。计算机信息检索的过程包括信息存储过程和信息检索过程,其本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。,第6章 计算机检索概述,第6章 计算机检索概述,计算机信息检
2、索,6.1.2 计算机信息检索发展简史计算机信息检索的发展经历了四个阶段:,第6章 计算机检索概述,6.1.3 计算机信息检索的分类计算机信息检索包括许多类型,依据不同的划分标准,可以分为不同的类型:1.根据所检索数据库的形式分,第6章 计算机检索概述,书目检索,数据检索,事实检索,全文检索,2.根据计算机检索服务方式分,第6章 计算机检索概述,日常检索,回溯检索,定题检索,3.根据检索方式分,网络检索,光盘检索,联机检索,脱机检索,6.1.4 计算机信息检索的特点 1.检索范围大。2.检索速度快。3.检索功能强,组配灵活。4.检索途径多。5.数据更新及时,时效性强。6.检索结果输出形式多样。
3、,第6章 计算机检索概述,6.2.1 检索策略的含义和作用 所谓检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划。其中关键在于构造能够确切表达信息需求的检索式。,第6章 计算机检索概述,6.2.2 检索表达式检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。检索式构造的优劣关系到检索策略的成败。检索表达式主要有逻辑表达式、加权表达式和其他表达
4、式。其中,最为常用的是逻辑表达式。,第6章 计算机检索概述,6.2.2.1 逻辑表达式逻辑表达式是指利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。有逻辑与“AND”、逻辑或“OR”、逻辑非“NOT”。,第6章 计算机检索概述,逻辑表达式的构造中,根据不同的信息需求、不同的检索策略,其检索式构造也不一致。一般来说,对于以查全为目标的检索课题,在检索式的构造过程中,用“与”连接的概念组面不能太多,应增加用“或”连接的相关检索词。对于以查准为目标的检索课题,其检索式的构造一般可采用增加逻辑与的使用。,第6章 计算机检索概述,6.2.2.2 加权表达式 所谓加权检索,是指在检索提问中,根据
5、每个检索词在检索要求中的重要程度,分别给予一定的数值加以区别,即赋权,这个数值称权值,然后对含有这些检索词的文献进行加权计算,其和在规定的阈值以上的,即确认为命中文献。采用这种方法表达信息需求的称为加权表达式。加权检索可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,在提高查全率和查准率方面均有一定的作用。但就具体应用来说,加权检索的使用远不及布尔逻辑表达式广泛。,第6章 计算机检索概述,例如,用加权表达式来表示查找“中国高等教育的发展趋势”的信息需求,可以写为:中国(5)高等教育(5)发展趋势(5)阈值W=15括号内的数字5即是权值。具体检索时,对同一条记录内包含并且匹配这三个检索
6、词的权值相加,超过阈值15时,就作为命中文献输出。逻辑上还是“与”的关系。如“论中国高等教育的发展趋势”这篇文献,各检索词权值相加是15(中国5,高等教育5,发展趋势5),就是命中文献之一。而“中国高等教育的现状”,检索词权值相加为10(中国5,高等教育5),小于阈值15,即为非命中文献。,第6章 计算机检索概述,6.2.2.3 位置检索表达式位置检索表达式,也称邻近检索。通过位置算符来表示两个检索词(或短语)之间的距离和位置关系。不同的检索系统可能会采用不同的位置算符,目前应用广泛的主要是:,第6章 计算机检索概述,W,nW,N,nN,6.2.2.4 截词检索表达式 截词检索表达式指在检索式
7、中用专门截词符号表示检索词的某一部分允许有一定的词汇变化。截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。不同检索系统采用的截词符不完全相同,一般常采用“?”、“*”等。,第6章 计算机检索概述,后截词,又称右截词、前方一致,允许检索词尾部有若干变化形式。例如,检索式comput?将检出包含computer、computing、computerized、computerization等词汇的结果。中间截词,允许检索词中间有若干变化形式,例如wom*n就可同时检索到含有woman和women的结果。前截词,又称左截词、后方一致,允许检索词的前端有若干变化形式,例如检索
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 教程 第六
链接地址:https://www.31ppt.com/p-5230006.html