计算机信息检索基础ppt课件.ppt
《计算机信息检索基础ppt课件.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索基础ppt课件.ppt(61页珍藏版)》请在三一办公上搜索。
1、文献信息检索 Information Retrieval,第二讲 计算机信息检索基础,“信息爆炸”知识的门类和数量迅速倍增知识的载体和传输方式日新月异 每日新增网页近百万张最新统计:全球网站数量愈突破2.5亿个 文献增速 70年代每7年翻一番 1999年每1年半翻一番 2010年每10小时翻一番,利用计算机对信息和数据的高速处理能力来实现信息的存储与检索。,一、 计算机信息检索原理,计算机信息检索:用户利用数据库获取所需信息的过程。即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。,计
2、算机信息检索特点,检索速度快效率高,检索方便实现资源共享,检索内容新数量大,手段灵活途径多样,快速准确地获得结果,缺点:收费、有时间限制、回溯性差,无法查久远的或最新的文献。,二、检索软件类型,检索软件即用户与系统对话的界面, 可分为以下两种:,指令检索示例,肝肿瘤 and (铜 or 铁) and py=2005,菜单检索示例,三、数 据 库,数据库定义,数据库结构,数据库类型,1.数据库定义,相互关联的数据在计算机外存储器上有序的集合.,2、数据库结构 Framework of Database,字段名称及代码,基本字段: 字段名称 段码文摘(Abstracts) AB题目(Title W
3、ord) TI主题词(Descriptor) DE标识词(Identifier) ID辅助字段: 作者 (Authors) AU 作者单位(Corporate Source) CS 刊名(Journal Name) JN 年代( Publication Year ) PY,3、数据库类型 types of databases,文献数据库,书目数据库(bibliographic database),存储二次文献,其检索结果是文献的线索而非原文。 如BKSY,全文数据库(full text database),存储一次文献提供原始文献全文,数值数据库(numeric database),主要存储用
4、数值表达的量化信息 WHO 的世界卫生统计数据,事实数据库(fact database),主要存储三次文献(what、where、when、who、why、how)类信息中国大百科全书Marriam Webster Dictionary提供的大不列颠百科全书免费查询,多媒体/超文本数据库multimedia/hypertext database,同时存储声音、图像、文字等的超文本信息。,检索者如何让计算机实现自己的检索意图?,四、检索提问表达式,检索提问表达式检索词运算符,(一)、检索词,数码类 2007(年) C19H33NO2HCL(分子式) 343.94 (分子量) D665.2(分类号
5、) GNGY(基因代码)54-16-089 (化学物质登记号),字词类 获得性免疫缺陷综合征 AIDS 刘伟 中国行政管理 云南大学 3一乙酰基一5一羟甲基,布尔逻辑符,字段限定符,位置运算符,通配符,短语符,(二)、运算符,questions,铁(痕量元素);李铁(人名);铁道医学杂志(刊名);上海铁道医学院,铁路医院(作者地址),查找作者“黎明” 的文章,结果包括了“黎明”及“黎明”的文章,英语单复数的变异 、英美拼法的不同、同义不同性词(词干相同后缀不同);音译外来词中文取词的不同,布尔逻辑运算符Boolean Operators,逻辑与,A AND BA*B,缩小检索范围,提高专指性。
6、,示例,糖尿病与高血压,A AND B,逻辑或,A OR BA+B,扩大检索范围,提高查全率。,示例,政治、经济、宗教与伦理学的关系,A,C,B,(A OR B OR C) AND D(A+B+C)*D,D,政治,经济,宗教,伦理学,逻辑非,A NOT BA-B,缩小检索范围,提高查准率。,示例,非共产主义人生观 B821.2(人生观、人生哲学中除共产主义人生观外的那一部份),A:人生观、人生哲学B:共产主义人生观,A not BA-B,逻辑运算次序,布尔逻辑运算次序 布尔逻辑的运算就象数学中的四则运算的“先乘除后加减”一样,也有优先级的问题,它的优先级从高到低依次为: 非(NOT)与(AND
7、)或(OR) 当然,括号最优先。因此,括号也称为优先符。优先符可以改变布尔逻辑的正常运算次序。 如:信息+情报 NOT 经济 (信息+情报)NOT 经济 检索结果不同。,示例,胃炎、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性 (不要 cagA ,vagA),(胃炎 or 胃溃疡 or 胃肿瘤) and (幽门螺杆菌 or 幽门弯曲杆菌)not (cagA or vagA),布尔逻辑的运算可以进行同类项的合并。如:A*B+A*CA*(B+C) 然而,在使用布尔逻辑时,必须注意以下几条交换规则: A*B=B*A A+B=B+A A-BB-A,2. 截词检索,以符号取代检索词(中、尾)的部分字符,从而检出
8、相同词干和相同词根的词。截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 又如 computer?以computer词干开头的词 可以检索出:computer、computers、computing、computerize、computerise注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的截词符,大多数为“?”。,词中替代:,示例 1,示例 2,词尾截断:,computer、computers、computing、computerize、computeris
9、e,Comput*,3、 限制检索,在信息检索系统中,为了满足某种检索条件或达到某种精确程度,通常使用一些缩小或限定检索结果的方法。针对特定年代、特定类 别、特定检索点等作限制,包括前缀限制符和后缀限制符。,后缀限制符例如:/TI 限在题目中查/AB 限在文摘中查/DE 限在叙词标引中查,前缀限制符例如:AU= 限查特定作者JN= 限查特定刊名 LA= 限查特定语种PN= 限查特定专利号PY= 限查特定年代,网络信息检索中可对文献信息类型进行限制 如在谷歌和百度搜索引擎中 检索特定的文献类型: “报告 filetype:pdf ” 检索指定网址内的信息: “报告 site:” 以后会看到一些数
10、据库通常都有年代/类型等的选择,4. 短语检索符 (phrase),检索符 “ ”用于检索固定短语或专有名词在短语或专有名词前后加双引号,系统将其按词组对待,不再将其分割按单词检索。,示例,“4-methoxy-salicylaldehyde”(4-甲氧基水杨醛)“文科文献信息检索”,运算符小结,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。布尔逻辑检索、截词检索、短语检索、字段检索几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,五检索策略,什么是检索策略在分析检索课题需求的基础上明确检索范围,选择检索途
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机信息 检索 基础 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1438686.html