计算机信息检索基础.ppt
《计算机信息检索基础.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索基础.ppt(75页珍藏版)》请在三一办公上搜索。
1、第二章 计算机信息检索基础,陈 强,“信息爆炸”知识的门类和数量迅速倍增知识的载体和传输方式日新月异 每日新增网页近百万张 2010年全球网站数量突破11亿,2012年16.44亿 文献增速 70年代每7年翻一番 1999年每1年半翻一番 2013年每8小时翻一番,一、计算机信息检索原理,计算机信息检索:用户利用数据库获取所需信息的过程。即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。,计算机信息检索特点,检索速度快效率高,检索方便实现资源共享,检索内容新数量大,手段灵活途径多样,快
2、速、准确地获得结果,缺点:收费、有时间限制、回溯性差,无法查久远的或最新的文献。,检索特征标识=系统中的信息特征标识,二、检索软件类型,检索软件即用户与系统对话的界面,可分为以下两种:,指令检索示例,肝肿瘤 and(铜 or 铁)and py=2005,菜单检索示例,三、数 据 库,数据库定义,数据库结构,数据库类型,1.数据库定义,相互关联的数据在计算机外存储器上有序的集合.,2、数据库结构 Framework of Database,文档(File),数据库中一部分记录的集合,综合性数据库多按学科划分文档,记录(Record),数据库的基本信息单元,每条记录都描述了原始信息的各项外表特征和
3、内容特征。,字段(Field),组成记录的数据项(检索项),一个字段代表一项特征。,文档,记录,字段,字段名称及代码,基本字段:字段名称 段码文摘(Abstracts)AB题目(Title Word)TI主题词(Descriptor)DE标识词(Identifier)ID辅助字段:作者(Authors)AU 作者单位(Corporate Source)CS 刊名(Journal Name)JN 年代(Publication Year)PY,3、数据库类型 types of databases,文献数据库,书目数据库(bibliographic database),存储二次文献,其检索结果是文献
4、的线索而非原文。如BKSY,全文数据库(full text database),主要存储一次文献提供原始文献全文,数值数据库(numeric database),主要存储用数值表达的量化信息 WHO 的世界卫生统计数据,事实数据库(fact database),主要存储三次文献(what、where、when、who、why、how)类信息中国大百科全书Marriam Webster Dictionary提供的大不列颠百科全书免费查询,多媒体/超文本数据库multimedia/hypertext database,同时存储声音、图像、文字等的超文本信息。,检索者如何让计算机实现自己的检索意图?
5、,四、检索提问表达式,检索提问表达式检索词运算符,(一)、检索词,数码类 2007(年)C19H33NO2HCL(分子式)343.94(分子量)D665.2(分类号)GNGY(基因代码)54-16-089(化学物质登记号),字词类 获得性免疫缺陷综合征 AIDS 刘伟 中国行政管理 云南大学 3一乙酰基一5一羟甲基,布尔逻辑符,字段限定符,位置运算符,通配符,短语符,(二)、运算符,questions,铁(痕量元素);李铁(人名);铁道医学杂志(刊名);上海铁道医学院,铁路医院(作者地址),查找作者“黎明”的文章,结果包括了“黎明”及“黎明”的文章,英语单复数的变异、英美拼法的不同、同义不同性
6、词(词干相同后缀不同);音译外来词中文取词的不同,布尔逻辑运算符Boolean Operators,逻辑与,A AND BA*B,缩小检索范围,提高专指性。,示例,糖尿病与高血压,A AND B,逻辑或,A OR BA+B,扩大检索范围,提高查全率。,示例,政治、经济、宗教与伦理学的关系,A,C,B,(A OR B OR C)AND D(A+B+C)*D,D,政治,经济,宗教,伦理学,逻辑非,A NOT BA-B,缩小检索范围,提高查准率。,示例,非共产主义人生观 B821.2(人生观、人生哲学中除共产主义人生观外的那一部份),A:人生观、人生哲学B:共产主义人生观,A not BA-B,逻辑
7、运算次序,布尔逻辑运算次序 布尔逻辑的运算就象数学中的四则运算的“先乘除后加减”一样,也有优先级的问题,它的优先级从高到低依次为:非(NOT)与(AND)或(OR)当然,括号最优先。因此,括号也称为优先符。优先符可以改变布尔逻辑的正常运算次序。如:信息+情报 NOT 经济(信息+情报)NOT 经济检索结果不同。,示例,胃炎、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性(不要 cagA,vagA),(胃炎 or 胃溃疡 or 胃肿瘤)and(幽门螺杆菌 or 幽门弯曲杆菌)not(cagA or vagA),布尔逻辑的运算可以进行同类项的合并。如:A*B+A*CA*(B+C)然而,在使用布尔逻辑时,必须
8、注意以下几条交换规则:A*B=B*A A+B=B+A A-BB-A,2.截词检索,以符号取代检索词(中、尾)的部分字符,从而检出相同词干和相同词根的词。截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:截词符?中截一字符,后截断n个字符 如 wom?n 可以检索出:woman,women 又如 computer?以computer词干开头的词 可以检索出:computer、computers、computing、computerize、computerise注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的截词符,大多数为“?”。,%*后方一致(前截断):
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机信息 检索 基础
链接地址:https://www.31ppt.com/p-6342278.html