网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx
《网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx》由会员分享,可在线阅读,更多相关《网络信息资源信息开发与利用 第2章 信息检索基础知识课件.pptx(84页珍藏版)》请在三一办公上搜索。
1、网络信息资源开发与利用 第2章 信息检索基础知识,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,北京交通大学出版社,December 4, 2022,1 信息检索的基本概念,1.1 信息检索的涵义从广义上讲,信息检索包括两个过程,一是信息存储(information
2、 storage),即信息的标引、加工和存储过程:二是信息检索(information retrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程即用户的信息需求和信息存储的信息集合进行比较和选择的过程,December 4, 2022,信息存储和检索过程的基本原理,输出,一次信息,信息特征,检索语言,信息特征标识,检索结果,信息需求,检索提问,检索提问标识,分析,标引,标引,输入,检索,信息检索系统(工具),存储过程,检索过程,分析,December 4, 2022,计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储
3、存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具以及从检索系统或工具中检索所需信息的过程。,1.2 计算机信息检索,December 4, 2022,用户,输入检索需求,分析转换处理需求,数据库检索=概念词的相关匹配运算,概念词典控制词表,信息源,筛选录入,分类、词索引文档预处理,计算机信息检索的基本原理,December 4, 2022,1.3 信息检索的类型,按信息检索的内容划分文献检索 数据检索事实检索概念检索,按信息检索的组织方式划分,全文本检索多媒体检索超文本检索,超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索
4、强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。,WWW,December 4, 2022,2 检索系统,检索系统(retrieval system)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。,December 4, 2022,2.1 检索系统的功能模块,信息源选择与采集子系统对通常的计算机检索系统来说,信息选择与采集主要由人工完成,但对于网络信息检索系统来说,则主要通过网络搜索机器人Robot自动进行,并且可以定期更新。标引子系统标引处理的类型:人工赋词标引、机器标
5、引、无标引(或全标引);标引要求:不漏标(全面)、不错标(准确)、不滥标(简练)。建库子系统工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。,December 4, 2022,2.1 检索系统的功能模块,词表管理子系统主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。用户接口子系统一般有5种界面风格:命令/指令语言(command language)、菜单选择(menu selection)、表格填充(form fill-in)、直接操纵(direct mani
6、pulation)、自然语言(natural language)。 提问处理子系统检索系统(数据库)的核心,负责处理用户输入的检索词或提问式,并将它们与数据库中存储的数据进行匹配运算,然后把运算结果返回给用户。,December 4, 2022,2.2 文档记录字段,检索系统的基本组织形式由三个层次构成。文档( file ):检索系统至少包括一个顺排文档(sequential files)。有的还包括一个倒排文档(inverted files)。记录(record):文档的基本单元,由若干字段组成的信息单元,是对某一信息实体的全部属性进行描述的结果。字段(field):是记录的基本单元,它是对
7、信息实体的具体属性进行描述的结果。,December 4, 2022,2.2 文档记录字段,检索系统的基本组织结构关系:数据库 database 文档 file, archive 顺排文档 记录Record 字段Field倒排文档(索引index),December 4, 2022,3 检索语言,检索语言(retrieval language)是文献信息标引和检索提问而约定的人工语言。 检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。 在存储的过程中用于标引信息称为标引语言; 用于编制索引就称为索引语言; 用于信息检索则称为
8、检索语言。,December 4, 2022,3.1 检索语言的种类,分类语言(classification language)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。 主题分类语言 其特征是一个主题充当一个类目,类目象主题词表一样按字顺排列,而不是按逻辑顺序排列。 优点:以事物分类,能将相关的内容全部集中在一起。对交叉学科的主题揭示非常有利。 科学分类语言 学科分类语言是以知识分类为基本,按照学科性质及从属、层次关系来组织资源,类目排序以字顺为标准。 优势:类目容量大,内容更有针对性,学术性更强,符合科技工作者族性检索的要求。 图书
9、分类语言 目前采用的主要有杜威十进分类法(DDC)、国际十进分类法(UDC)、美国国会图书馆分类法(LCC)和中国图书馆图书分类法(中图法),December 4, 2022,主题语言(subject language)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言(code language)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息
10、主题概念的检索语言。,December 4, 2022,关键词语言(keyword) 标题词语言(heading) 单元词语言(uniterm) 叙词语言(descriptor),December 4, 2022,分类语言,分类语言中最常见的是体系分类语言,它按照学科体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂 的逻辑次序逐级展开。专利分类表中国科学院图书分类法中国图书馆图书分类法杜威十进分类法 (国外),December 4, 2022,中国图书馆图书分类法,基本部类:1、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学3、社会科学4、自然科学5、综合性图书,基本
11、大类: (22个) A 马列主义毛泽东思想邓小平理论 N 自然科学总论 B 哲学 O 数理化科学 C 社会科学总论 P 天文学、地理 D 政治、法律 Q 生物科学 E 军事 R 医学、卫生 F 经济 S 农业科学 G 文化、科学、教育、体育 T 工业技术 H 语言、文字 U 交通运输 I 文学 V 航空、航天 J 艺术 X 环境科学 K 历史、地理 Z 综合性图书,December 4, 2022,中国图书馆图书分类法,F 经济F1 世界各国经济概况、经济史、经济地理F11 世界经济、国际经济关系F12 中国经济F13/17 各国经济F2 经济计划与管理F20 国民经济管理F21 经济计划F2
12、2 经济计算、经济数学方法F23 会计F239 审计F24 劳动经济F25 物资经济,December 4, 2022,F27 企业经济F29 城市与市政经济F3 农业经济F4 工业经济F7 贸易经济F72 中国国内贸易经济F73 世界各国国内贸易经济F74 国际贸易F75 各国对外贸易F8 财政、金融F81 财政、国家财政F82 货币F83 金融、银行F84 保险,December 4, 2022,中国图书馆图书分类法,T 工业技术 TB 一般工业技术 TL 原子能技术 TD 矿业工程 TM 电工技术 TE 石油、天然气工业 TN 无线电电子学、电讯技术 TF 冶金工业 TP 自动化技术、计
13、算机 TG 金属学、金属工艺 TQ 化学工业 TH 机械、仪表 TS 轻工业、手工业 TJ 武器工业 TU 建筑科学 TK 动力工程 TV 水利工程,December 4, 2022,图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分。 字母部分按英文字母固有的次序排列。例: B2中国哲学 B3世界哲学 E27各种武装力量 E512苏联军事 TM92电气化、电能应用 TU201建筑设计原理 分类号中的阿拉伯数字依小数制排列。例: B021辩证唯物主义的物质论 B022辩证唯物主义的意识论 B022.2客观规律性与主观能动性 D035.
14、37交通公安管理 D035.4监察、监督,分类号的排列次序,December 4, 2022,分类号的排列次序 (续),数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例: TP312AL ALGOL程序语言 TP312BA BASIC程序语言 TP312CO COBOL程序语言 总论复分号“-”要排在数字“0”的前面。例: H-61,H0, H31-61,H310, 总论复分号“-”要排在组配符号“:” 的前面。例: H31,H31-62,H31:F,H31:I,H319, H319.4,H319.4-44, H319.4:B,H319.4:C,,December 4, 20
15、22,读者实际利用图书馆时,往往需要知道书刊的分类号和索书号(又称索取号)。索书号是图书馆赋予每一种馆藏图书的号码,是读者查找图书非常必要的代码信息。它的第一部分是分类号,第二部分是书次号。索书号的两部分之间有一个空格或一条斜线“/”。书次号或者是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。 不同的索书号确定排列先后顺序的步骤是,先比较分类号码;如分类号码相同再比较著者号码或顺序号码。分类号比较:先英文字母排,后阿拉伯数字按小数制排。分类号中“-”排在0之前,例如:先排F-43再排F0。分类号的数字排列比较采用对位比较法,字符序列以ASCII字符集为依据
16、。比如:B11、B111、B112、B12,书次号的数字排列比较采用自然顺序排列方法,即1,2,3,.,9,10,11,.,99,100,101,。,分类号和索书号,December 4, 2022,重新排列以下索取号的顺序,TP3/1044 TP3-43/3060 TP311.13/1713 TP311.13/9091 TP393/4027 TP393/7732 TP393-43/4723,December 4, 2022,主题语言,关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言。 例如:“国际联机检索概论”
17、中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。 标题词语言是最早使用的一种主题语言,它以规范化的自然语义作为标识,来表达信息涉及的主题概念,并将全部标识按字母顺序排列。 例如:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑” 来叙述,第三篇文章用“微机” 来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用“微型计算机”作标题词(实际上是“主标题词”,根据主题词表决定)。,December 4, 2022,主题语言,单元词语言是在标题词语言基础上发展起来的一种规范化
18、检索语言。单元词(uniterm)是一种最基本的、不能再分的词汇单位,亦称元词。它也是从文献内容中抽出,并经过规范化处理,代表一个独立的概念。 例如:“计算机”、“软件”、“固相”、“相”。 叙词语言是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。只有经过规范化处理,满足一词一义一型要求的词才能称为叙词(descriptor)。 例如:在叙词语言的检索系统中用“计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换即可查全。,December 4, 20
19、22,主题语言,主题语言(标题词、单元词、叙词)的规范化处理:词义规范:对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译名(激光与莱塞)、简称与全称(如中国与中华人民共和国)、不同写法(如X射线与爱克斯射线)等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)。词类规范:即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。词形规范:即对词的繁简体、词序、字母符号等的规定。,December 4, 2022,代码语言,代码语言是指对事物的某方面特征,用某
20、种代码系统来表示和排列事物概念,从而提供检索的检索语言。 例如:根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用用户从分子式出发,检索相应的化合物及其相关的信息。,December 4, 2022,自然语言,自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。抽取出来的词包括自由词、关键词、事物名称、科学术语、俗名、商品型号和缩写等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点。 例如:如有人输入:how to control drivers of hard disk ,检索系统会自动提取检
21、索词,然后进行过滤和检索 。 注意:Google和专业数据库的检索语言区别。,December 4, 2022,4 检索方法及检索途径,4.1 检索方法查找(Searching)就是实施检索策略、搜寻所得文献信息的过程。以下几种方法,无论是计算机还是手工检索,都是常用的方法。 “拉网法” 在不了解查询某一专题信息的URL地址时,可从提供信息总目的Web 页面开始浏览,沿着专题链接层层查找,直至找到有关的内容为止。然后用“书签”保存这个页面的URL,转向另一个分支。这种方法可以迅速获得较多的相关地址,然后进行筛选。就使用引擎而言,国外专家也建议先用链接页面多、响应时间快的引擎。,December
22、 4, 2022,引文法(跟踪法) 文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指明了与用户需求最密切的文献线索,往往包含了相似的观点、思路、方法,具有启发意义。,December 4, 2022,引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被哪些其它文献引用过,以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。由远及近地追寻,越查资料越新,研究也就越深入,但这种查法主要依靠专门的引文索引,如
23、 科学引文索引、社会科学引文索引 。,December 4, 2022,另一种较为普遍的查法是由近及远地追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。这种方法适合于历史研究或对背景资料的查询, 其缺点是越查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。因此,最好是选择综述、评论和质量较高的专著作为起点,它们所附的参考文献筛选严格,有时还附有评论。,December 4, 2022,常规法,所谓常规法就是利用常规检索工具查找有关文献的方法,是信息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工具层出不穷,有
24、很大的挑选余地。用户应根据自己的检索知识和条件选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。,December 4, 2022,排除、限定和合取法,这实际上是将信息加工的方法融入检索中去。思维中使用排除这一概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定。排除的结果必然是限定,反之亦然。,December 4, 2022,4.2 信息检索的途径 所谓检索途径就是检索时切入信息群体的路径。检索途径有两大类,一类是用信息的外部特征,如题名
25、、责任者、某种序号、机构名等作为检索标识;另一类是用能够描述信息内容的分类号、关键词、主题词等作为检索标识。在数据库中检索时,几乎所有的字段都可以作为检索的途径。,December 4, 2022,检索语言与检索途径的关系,December 4, 2022,分类检索 这种检索是根据信息内容的学科分类来进行的。最大的优点能保证信息的系统性,而且具有较好的族性检索功能。 分类检索的要点:1。对待检课题的概念及学科间的各种关系清楚;2。正确掌握相关课题的分类名称、分类号,手工检索中掌握工具的分类排检。,December 4, 2022,分类检索的步骤:,1。分析待检课题,确定其学科,并弄 清学科间的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络信息资源信息开发与利用 第2章 信息检索基础知识课件 网络 信息资源 信息 开发 利用 检索 基础知识 课件

链接地址:https://www.31ppt.com/p-1549893.html