计算机检索技术及搜索引擎应用.ppt
《计算机检索技术及搜索引擎应用.ppt》由会员分享,可在线阅读,更多相关《计算机检索技术及搜索引擎应用.ppt(129页珍藏版)》请在三一办公上搜索。
1、第二讲 计算机检索技术及搜索引擎应用,必须找?哪里找?如何找?,第一节 计算机检索技术,计算机检索的实质:匹配运算计算机检索技术,检索提问,检索表达式,扫描、匹配,识别,数据库,检索词的组配技术,计算机检索技术,检索表达式的构成规则,检索词:主题词、关键词、名称、分类号分子式等。,检索表达式:运用各种运算符,把检索词连接组配。,布尔逻辑,位置逻辑,截词,字段限制,加权,计算机检索技术,其他,1.1,1.2,1.3,1.4,1.6,1.5,1.1 布尔逻辑检索技术,布尔逻辑检索技术就是利用布尔逻辑算符进行检索项的逻辑组配,用以表达检索者的提问概念。布尔逻辑算符指规定检索词之间相互关系的运算符号,
2、在检索表达式中起着逻辑组配的作用,复杂概念的检索式,1.1 布尔逻辑检索技术,常用的布尔逻辑运算符:逻辑“与(AND)”逻辑“或(OR)”逻辑“非(NOT)”运算顺序,逻辑“与”,运算符:AND 或*用于交叉概念或限定关系的组配,实现检索词概念范围的交集。表达式:,A and B 或 A*B,And两侧的检索词必须同时出现在检索字段中,检出同时含有检索词A和检索词B的记录,逻辑“与”,作用缩小检索范围,提高查准率。举例 检索“人口控制”或者“控制人口”方面的文献信息。人口 and 控制,返 回,逻辑“或”,运算符:OR 或+用于检索词并列关系(同义词、近义词)的组配,实现检索词概念范围的并集。
3、表达式:,A or B 或 A+B,在文献记录中只要含有检索词A和检索词B中的任何一个即算命中,检索出的记录含有检索词A或者检索词B,逻辑“或”,作用扩大检索范围,防止漏检,提高查全率。举例 检索“计算机”方面的文献信息。计算机 or 电脑使用的注意事项 如果检索词涉及表达整体概念,要针对具体情况分别列出每个表达部分概念的检索词,否则将出现漏检。,返 回,逻辑“非”,运算符:NOT 或-一种排斥关系的组配,用来从原来的检索范围中排除不需要的概念。表达式:,A not B 或 A-B,适用于排除含有某个指定检索词的记录,检索出的记录含有检索词A,但同时不含检索词B,逻辑“非”,作用缩小检索范围,
4、增强检索的准确性。但使用不当,易排除有用文献信息,从而导致漏检 举例 检索有关能源方面的文献信息,但不包括核能。energy not nuclear使用的注意事项 两个关系紧密的检索词不宜用not,返 回,1.1 布尔逻辑检索技术,优先级高,优先级低,布尔逻辑运算符的运算顺序,返 回,1.2 位置逻辑检索技术,位置逻辑检索 利用位置逻辑算符限定检索词之间的位置,或指定检索词在记录中某一特定位置进行检索。位置算符又称邻接运算符。位置逻辑检索的作用 表达各个检索词之间的顺序与相对位置关系。与布尔逻辑检索的区别 使用布尔逻辑检索时,计算机只判断参加运算的检索词在数据库记录中出现与否,不能确定检索词之
5、间的相对位置关系。而通过与位置算符配合使用可以减少检索误差。,1.2 位置逻辑检索技术,Dialog系统中的几种位置算符 同词位检索(W)(With/Word)、(nW)(N)(NEAR)、(nN)同字段检索(F)(Field)(L)(Link)其他位置算符(S)(Subfield)(C)(Citation),1.2.1 同词位检索,允许在连接的两个词之间最多夹入n个其他单元词,只强调插入单元词个数没限定插入单元词的具体范围,同时词序不能颠倒,此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除可以有一个空格或一个标点符号或一个链接号外不得夹有任何其他单词或字母,1.2.1 同词
6、位检索,允许两个检索词之间最多可以插入n个单词,且这两个检索词的词序任意,此算符两侧的检索词必须紧密相连,所连接的词间不允许插入任何其他单词或字母,但词序可以颠倒,(N)举例,检索式 chemistry(N)physics,命中,含有chemistry physics或physics chemistry的文献,返 回,检索式 economic(2N)recovery,(nN)举例,命中,含有economic recovery或recovery of the economic的文献,返 回,(W)/()举例,检索式 American()Literature,命中,有关American Liter
7、ature或American,Literature的文献,返 回,(nW)举例,检索式 knowledge(1W)economy,命中,有关knowledge economy或knowledge-based economy的文献,返 回,2.2.2 同字段检索,表示此算符两侧的检索词必须同时出现在同一字段内。如:篇名字段、文摘字段、叙词字段等,但两词的词序中间插入的次数不限。,表示两个检索词之间存在从属关系或限制关系。如果其中一个为一级主题词,另一个就为二级主题词。,(L)举例,检索式 control(L)stability,命中,标题含有control和stability两个检索词的文献记录
8、。,返 回,(F)举例,检索式 economic(F)knowledge,命中,标题为“the Economic Impact of Knowledge-Based”的文献记录。,返 回,原因:,算符两侧的检索词在同一标题字段中,1.2.3 其他位置逻辑检索,(S)(Subfield)表示在此算副辆车的检索词必须出现在同一个子字段中,顺序不变,中间可插入词数不限。举例(basic or cobol or pascal)(S)(program*or compil*),Basic(S)program*basic(S)compil*Cobol(S)program*cobol(S)compil*Pas
9、cal(S)program*pascal(S)compil*,1.2.3 其他位置逻辑检索,(C)(Citation)表示两侧的检索词只能出现在同一条记录中,且对它们的相对位置或次序没有任何限制,作用和布尔算符and完全相同,1.2.4 位置逻辑检索技术,严谨,宽松,返 回,1.3 截词检索技术,实质 截词检索就是用截词符号将检索词截断,用检索词的片段进行匹配运算。注意 在截断时,截断的词干不能太短,词干一般应在3个字符以上,以免增加检索时间,产生误检。,1.3 截词检索技术,截词形式 按截词的字符数量有限截断、无限截断按截词的位置右截断、左截断、中间截断,1.3.1 按截词数量截断,有限截断
10、 指限定截去有限个字符。截断符号?截断1个字符?截断2个字符 依此类推。举例 输入:product?结果:含有product、products的记录,1.3.1 按截词数量截断,无限截断 检索词词干可变化两个以上字符时,连续使用若干个“?”或“*”代替变化字符。用法可同时查找含有该词干的所有文献记录,亦可用于年代的查找。,1.3.2 其他截断方式,1.把截词符号置放在一个检索词的中间;2.中截断不允许有限截断,1.将截词符号放在一个字符串左方,表示其左的有限或无限个字符不影响该字符串的检索;2.实质:后方一致检索,1.最常用的截词检索技术;2.放在字符串右方,表示其右有限或无限个字符不影响该字
11、符串的检索;3.实质:后截断是前方一致检索,后截断,前截断,中截断,举例,举例,举例,返 回,后截断举例,输入:computer*检索结果,computeracycomputerisecomputerizationcomputers,后截断注意事项,后截断主要使用于如下几种情况:检索词的单复数的描述;如:book?同根词的表达;如:chemi*可以检索出chemical、chemistry、chemist等同根词 年代的表达;如:20?(21世纪),199?(20世纪90年代)作者如:Moyer*可以检索出所有姓Moyer的作者,返 回,前截断举例,输入:*computer检索结果microc
12、omputerminicomputer,返 回,中截断举例,输入:organi?ation检索结果organizationorganisation中截断主要使用于如下几种情况:检索词的拼写方式存在美式、英式之分;检索词在某个元音位置出现的单复数不同;如:man与men作用扩大检索范围,提高检全率,减少检索词的输入量,返 回,1.4 字段限制检索技术,在检索系统中,通常有一些缩小或约束检索结果的方法,称为限制检索。限制检索的方式,1.4.1 字段限制检索,特点及作用使检索出的文献信息达到一定的专指度。将检索词限制在记录的某个特定字段内检索,不但可以减轻机器负担,提高运算速度,还可以使检索结果更准
13、确。用法将需要检索的内容限制在相关的字段内。如:作者姓名作者字段关键词关键词或题名字段,1.4.1 字段限制检索,字段种类基本字段:表达文献内容特征的字段辅助字段:表达文献外表特征的字段字段检索形式1.通过菜单选择检索字段2.用命令的方式输入字段限制算符,篇名字段、文摘字段、叙词字段、分类类目等,作者、机构、文献类型、语种等,返 回,1.4.2 使用限制符检索,Web检索方式通常通过菜单选择检索字段,在联机Web高级检索中,还可以用表示语种、文献类型、出版国家、出版年代等额字段标识符来限制检索范围。在Dialog系统中,用专门的字符表示不同字段。,1.4.2 使用限制符检索,前缀限制字符AU=
14、限查特定作者JN=限查特定刊名LA=限查特定语种PN=限查特定专利号PY=限查特定年代后缀限制符/TI限在题目中查/AB限在文摘中查/DE限在叙词标引中查,查找2004年出版的英文或法文的宏观经济学方面的期刊 检索式:(macroeconomics/de,ti,ab)AND PY=2004 AND(LA=EN OR FR)AND DT=Serial,返 回,1.5 加权检索技术,与其他检索技术的区别基本方法 1.在每个检索词后面给定表示重要程度的数值,称为权 值。2.检索时,查找这些检索词在数据库记录中是否存在3.计算存在的检索词的权值总和。4.权值之和达到或超过预先给定的阙值,即为命中,返
15、回,1.6 其他辅助检索技术,1.6.1 信息的浏览式检索与链接技术 1.6.2 检索结果的翻译和多语种(或跨语种)检索技术 1.6.3 检索结果的后处理技术,1.6.1 信息的浏览式检索与链接技术,用 户,在计算机检索系统中,“浏览”方式的实现主要得益于超文本链接技术的成功应用。,某种信息组织结构(或导航机制),链 接,信 息,访问、探寻,提 供,1.6.1 信息的浏览式检索与链接技术,搜索引擎目前,基于浏览式检索的技术方法已在网络搜索引擎中得到了广泛应用,以Yahoo为首创的一类网络搜索引擎就是通过分类目录导航机制实现对同络信息的浏览式检索的。此外,超文本链接技术在传统的基于关键词匹配的信
16、息检索系统中,也越来越显现出重要的应用价值。,1.6.1 信息的浏览式检索与链接技术,参考文献链接(Cited Reference),相关记录链接(Related Records),被引次数链接(Times Cited),被引次数链接举例,在系统检索结果列表中,该链接点首先给出该文献的被引用次数,单击该链接点,系统会进一步显示引用该篇文献的所有其他文献;,点击,参考文献链接举例,该链接点不仅可以显示该检索结果文献所使用的参考文献数量,单击它还可显示这些参考文献的具体列表;,点击,相关记录链接,通过该链接点可以查看在不同年份中与当前所检索的记录共同引用同一篇(或多篇)参考文献的一组文献,即相关记
17、录,并按共同引用参考文献的多少排序。,1.6.1 信息的浏览式检索与链接技术,外部链接 与原始文献的链接;与图书馆馆藏OPAC系统的链接,了解该文献 记录所在期刊的馆藏情况;与其他数据库服务系统的链接。,返 回,1.6.2 检索结果的翻译和多语种(或跨语种)检索技术,目前检索结果翻译这一检索辅助功能主要出现在网络搜索引擎中。目前,一些大型、综合性搜索引擎在检索结果翻译方面已经展开研究,并开始提供这一服务功能。与检索结果翻译问题密切关联的另一个问题是多语种(或跨语种)检索问题。检索结果的翻译功能毕竟有限,更重要的应是多语种(或跨语种)检索功能的实现。鉴于自然语言理解的困难性,真正意义上的多语种检
18、索实现技术目前仍处于研究中。,返 回,1.6.3 检索结果的后处理技术,排序输出最常用(或默认)的排序标准:相关度(relevance)排序,,检索结果条目,用户检索请求,匹 配,结 果(按匹配程度大小从高到低排序),1.6.3 检索结果的后处理技术,联机聚类联机聚类技术可以动态地把检索结果集合划分、安排到一个由聚类计算面生成的类目等级结构中,用户通过在这一目录结构中进一步浏览其感兴趣的结果,可以节省大量的联机时间。去重合并存在原因:1.国际联机检索系统的多数据库(或跨数据库)检索;2.网络搜索引擎的信息检索。目前,独立搜索引擎对检索结果中的重复信息很少进行过滤处理。不过,元搜索引擎则普遍具有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 检索 技术 搜索引擎 应用
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6023761.html