科技文献检索的原理.ppt
《科技文献检索的原理.ppt》由会员分享,可在线阅读,更多相关《科技文献检索的原理.ppt(100页珍藏版)》请在三一办公上搜索。
1、2.1科技文献检索的原理,什么是信息检索广义:信息检索(informationretrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。所以,它的全称又叫信息存储与检索(information storage and retrieval)狭义:仅指该过程的后半部分,即从信息集合中找出所需信息的过程,相当于人们所说的信息查询(information search),一:根据检索手段的不同,信息检索可分为:,手工检索光盘检索联机检索网络检索(网络检索是信息检索的发展方向),二:根据检索对象形式的不同,信息检索又可分为,文献型信息检索(document ret
2、rieval):是以文献(包括题录、文摘和全文)为检索对象的检索。凡是查找某一主题、时代、地区、著者、文种的有关文献,以及回答这些文献的出处和收藏处所等,都属于文献型信息检索的范畴。完成文献型信息检索主要借助于各种书目型数据库和全文数据库等。数值型信息检索(data retrieval):是以数值或数据为对象的一种检索,包括某一数据、公式、图表,以及某一物质的化学分子式等。完成数据型信息检索主要借助于各种数值数据库和统计数据库。事实型信息检索(fact retrieval):是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索,其检索结果主要是客观事实或为说明事实而提供的相关资
3、料。如:2001年月通过的奥运会主办城市的结果与过程。完成事实型检索主要借助于各种指南数据库和全文数据库。,三:检索语言,标引员与检索员之间的约定语言提供检索所需的文献特征检索语言可分为两大类:分类法 主题法,1.分类法,按学科门类区分图书,用分类号来表达文献主题内容,以分类表作为文献分类标引的工具。典型的如:中国图书馆分类法(中图法)中国科学院图书馆图书分类法(科图法)国际十进分类法,将图书分为马列毛泽东思想、社会科学、自然科学、综合三大类。检索标识即分类号,由字母和数字组成 采用等级列举表达从属关系上位类目与下位类目的关系:上位类目一定包含各个下位类目,下位类目一定带有上位类目的属性。分类
4、号越长,表示的学科范围越窄。为了清楚醒目,通常分类号的第三位数字后,隔以.,如F279.712,TQ032.4,检索语言分类法中图法,R,S,T,医药、卫生,农业科学,工业技术,社会科学,自然科学,机械、仪表,建筑科学,综合,一般工业技术,矿业工程,石油,冶金工业,无线电、电子学、电讯技术,自动化计算,化学工业,轻工业、手工业,金属学,武器工业,动力工程,原子能技术,电工技术,水利工程,图3 1 中 图 法 展 开 图,检索语言分类法中图法,O 数理化 一级类目 O1 数学 二级类目 O3 力学 二级类目 O31 理论力学 三级类目 O311 运动学 四级类目.1 质点运动 五级类目 O4 物
5、理学 二级类目,检索语言分类法,主要特点就是按学科专业性质集中图书区分不同性质的图书集中性质相同的图书性质相近的放在相近的位置按照远近亲疏的关系把图书组成为一个有条理的体系提供从学科分类查找图书的途径。,中图法索书号(call number),索书号又称为排架号反映了某种图书在整个图书组织中的排列次序和在书库中的具体位置(架位)组成:分类号书次号 分类号:按学科分类图书 书次号:同类书的排列,书次号的两种取法:,种次号:按图书到馆的先后顺序给予号码。缺点:会使同一著者的同一类著作排放在不同位置著者号:按著者名称(代码)来区分同一分类号下的不同文献,中图法图书的排架顺序,按索书号排架先顺序分类号
6、:如果分类号相同再顺序书次号,2.主题语言,以自然语言为基础用表达概念的词来提示文献的内容标识符是文字。如直接使用“金属陶瓷”、“感光材料”、“载重汽车”进行标引。按主题词的字顺编排查找方便、直观不受学科从属关系的约束能较好地满足特性检索的要求,主题法与分类法比较检索标识不同,分类法检索标识人为定义的标引文献时,把语言文字所构成的概念转换成号码检索时,检索者要在号码中找出相当于文字形式的概念。主题法检索标识借用自然语言中表达概念的词,直观易记,便于掌握。,例聚丙烯纤维的生产工艺,例:查找聚丙烯纤维的生产工艺的文献分类法:首先找到所属的分类号TQ346.2才能查到相关文献。主题法:一篇聚丙烯纤维
7、生产工艺的文献标引时,直接用主题词“聚丙烯纤维”及“工艺”标引。检索时,只需直接用“聚丙烯纤维”与“工艺”二个主题词组配检索,就能查到相关文献。,检索标识符的排列方法不同,主题法检索标识符按主题词的字顺排列不受体系约束增补新词方便能及时反映学科的发展分类法检索标识符按类号的逻辑次序排列,即按学科体系排列,其体系固定,难以增补新概念迟后于学科发展。,揭示事物的角度不同,主题法着眼于特定事物以某一特定事物为中心,揭示与它相关的部分或全部问题有利于特性检索。分类法学科体系为主研究事物属于什么学科、以及它与其他事物间的相互关系利于族性检索。,对文献的集中与分散的角度不同,主题法同一主题的文献集中在一个
8、标题下同一学科的文献分散在不同的标题中分类法同一学科的文献集中在一个类目下同一主题的文献分散在不同的类目中特别因学科发展而引起的相互渗透,使有些文献很难放在一个学科内。,例化学分析,主题法在“化学分析”这一主题下,集中了所有“化学分析”的文献,分类法“化学分析”这一主题的文献被分散在各学科中,如在“金属学”“分析化学”“农业化学”“原子能技术”等学科领域中都可能有“化学分析”文献。,对于专指的主题的揭示不同,主题法采用概念的组配或概念的提级来表达主题。分类法不能组配标引对专指的主题概念只能提级标引表达,例标引有关“聚丙烯纤维”方面的文献,主题概念聚丙烯纤维分类法只能标到分类号“TQ 346.2
9、”而关于聚丙烯纤维的各个研究方面无法细分需表达其各个研究方面时,只能提级仍以TQ 346.2标引。主题法可采用“聚丙烯纤维”与“工艺”,“加工成型”“性质测试”“聚合”等词组配以获得更专指的概念。,主题词字顺排列,所以前后主题词之间往往是孤立的,不能表示学科体系的从属关系、不能显示前后词之间的内容上的联系。例“双联开关”这个主题词在主题词表中存在,但该词的前一词是“双联炼钢”,后一个词是“双列杂交”。这三个彼此相邻的词在内容上是毫无联系的。这种排列法相对于分类法讲,其族性检索就差一些了。,主题词法与分类法的比较,主题词种类,关键词 单元词 标题词 叙词,主题词种类关键词(keyword),直接
10、来源于从文献篇名、正文和文摘 为具有实际意义的词语禁用词(stop-term)如冠词,介词,副词等除外 关键词法属自然语言,主题词种类关键词问题,同义词标引-引起漏检主题检索体系是按主题词字顺排列的,而用于标引的关键词呈现出多种字面形式同义词时,将使同一主题的文献分散到不同的字顺位置,使查全率受到影响。例:飞机 Airplane Aircraft Planes,主题词种类关键词,多义词标引引起误检 多义词 cell 电池 细胞 检索词 cell 查找细胞方面的文献 结果:电池、细胞两方面的文献同时被检出,两个完全不同的概念,规范化主题词单元词,词义已是单元概念不可再分 规范词例:单元词汽车,温
11、度表,电动机 非单元词载重汽车 载重工具 汽车,规范化主题词标题词,主标题词除用单个名词或动名词外,还有下列三种形式:,正叙式倒叙式并列式,主标题词正叙式,正叙式:直接采用事物的名称、现象、方法或过程等词COMPUTER PROGRAMMING LANGUAGES(计算机程序语言)ELECTRIC POWER SYSTEMS(电力系统)ELECTRON GUNS(电子枪)IMAGE PROCESSING(图像处理)MATERIALS SCIENCE(材料科学),主标题词倒叙式,倒叙式:将事物的名称放在前,后加修饰性的词说明其范围。COMPUTER,ANALOG(模拟计算机)COMPUTER,D
12、IGITAL(数字计算机)OSCILLATORS,MICROWAVE(微波振荡器),并列式:将各自独立但又有某些联系的事物或概念并列起来如:PATENTS AND INVENTION(专利与发明)ROCKET AND MISSILES(火箭与导弹)SILICON AND ALLOYS(硅和硅合金),主标题词并列式,标题词与关键词、单元词的不同,表达主题概念:关键词和单元词用单个词标题词用一对词,而且这一对词的组配关系是固定的,规范化主题词叙词,是指表示单元概念的规范化词语来源:单元词先组词先组词是以“适当先组”的原理,把在一定学科领域中,经常出现的组合词选作先组词,以减少查找时不必要的组配如:
13、活性的(active)碳(carbon)活性碳(active carbon)碎裂(fragmentation)弹药(ammunition)杀伤弹药(fragmentation ammunition),主题标引,赋予二次文献检索标识主题词主题标引的步骤:分析文献内容 形成主题概念 标引主题词 将标引主题词按字顺排列 使论述同一主题内容的文献集中在一起,主题标引,通常,一篇文献所要表达的主题概念或要涉及的问题不止一个,所以与分类号不同,标引一篇文献的主题词通常不止一个。例:图书工程材料的断裂与疲劳 涉及主题概念:工程材料、断裂、疲劳,主题标引,标引主题词:工程材料、断裂、疲劳这样从这三个主题词中的
14、任何一个入手,都可以查到这本书,主题词表,分类表 图书分类的依据 主题词表 对文献进行主题标引的依据 单元词表、标题表、叙词表下面对叙词表进行简单介绍在叙词法中,文献的主题概念可以用多个叙词表示,因此可以形成任意合乎逻辑的组配和众多的检索途径。很适用于计算机情报检索。,2.2科技文献检索的工具,一:检索工具的定义检索工具是人们用来存储、报道和查找文献的工具。二:检索工具的作用1:保证查全率和查准率2:缩短检索过程,节省时间3:可以多角度查询4:消除文字障碍三:检索工具的形式书本式,卡片式,微缩式,机读式,四:检索工具的类型,目录型检索工具文摘型检索工具题录型检索工具文献指南和书目之书目机读型检
15、索工具,五:计算机检索的发展历程脱机检索联机检索国际联机检索单机光盘检索光盘网络检索Web信息资源检索,1.脱机检索(50年代末60年代中期),这时是计算机检索的原始时期,计算机由电子管组成,主要存储介质是磁带、磁鼓,只能进行简单的检索。(第一台计算机诞生于1946年,美国的宾夕法尼亚州)专业检索人员定期批量处理用户的情报要求用户不能立刻获得检索结果检索结果为题名,作者,文摘等。在脱机检索阶段,计算机主要进行文献目录、索引、文摘等前处理工作。,2.联机检索(60年代末70年代初),1963年-1964年间,美国洛克希德导弹与宇航公司的情报实验室建立了”人机“对话的联机情报检索系统(DIALOG
16、的前身),此后在60年代末到70年代初联机检索系统得以快速发展。国际著名的DIALOG系统、ORBIT系统、MEDLINE系统都是从这个时期发展起来的。多个检索终端,通过通讯线路与联机检索系统中央计算机(主机)联接利用分时技术,使多个用户可同时与主机以“对话”方式进行检索用户可随时浏览检索结果由于这个阶段的计算机网络主要是通过电话线联接,因而联机检索受到地区的限制,3.国际联机检索(70年代中期),卫星通讯技术的出现,使得联机检索系统打破了地域限制。而数据库生产的迅速发展及微机大量的涌现,更使得国际联机检索蓬勃发展。用户利用终端设备,通过国际卫星通讯网与世界各地的大型计算机情报检索系统中央计算
17、机直接进行“人机对话”,查找世界各国的情报文献资料。联机检索系统进入发展的黄金时期。,国际联机检索的贡献,方便和加速了世界情报资源的交流与利用过去千里迢迢不能找到看到的情报资料,现在利用国际联机情报检索终端,只用几分钟就可以从几年到几十年几万种期刊中查到实现了人类情报资源的共享。优点:信息量大、快速、方便 数据库内容更新快,4.单机光盘检索(80年代-),CD-ROM技术促使计算机检索成本迅速下降(一张光盘可存贮600MB兆字节机读数据、成本价格便宜,而一张DVD光盘的容量最少可达4.7G)光盘检索系统普通的微机上配备光盘驱动器及光盘数据库及检索软件,5.光盘网络检索(90年代),以太网技术的
18、出现推动了网络版光盘数据库的出现。光盘网络是一种计算机网络,如图书馆局域网实现多用户光盘资源共享例如:美国“化学文摘”(CA)从19871991年的五年累积索引(含文摘)光盘数据库共6张,价值40.5万元。,6.Web信息资源检索(90年代末),进入90年代后,随着网络技术的发展,尤其是互联网的迅猛发展,使计算机检索进入一个崭新的时期。检索方法更简单,检索结果更全面经过40多年的发展,从早期的书目信息到后来的全文本信息,到今天的网络与多媒体信息,网络信息资源已成为现代社会不可缺少的资源财富。其处理技术从简单的字段与关键词检索到全文检索,再到今天成为网络主流的超文本与多媒体处理。处理技术的演进与
19、发展,一方面使网络信息资源的内容从单一的书目到图文并茂的多媒体,更富有吸引力和使用价值;另一方面,超文本的广泛利用改变传统的信息组织的线性方法,使电子资源的组织更接近于“自然”,大大方便了用户的使用,使电子资源的利用变得非常容易,用户不需要太多的检索知识与技术。,现代计算机网络检索数据库的种类,1.按访问方式网络数据库可分为:光盘局域网数据库。传统的联机数据库。拨号,专线,费用昂贵。异军突起的Internet网络数据库。内容最丰富,包括图书馆的馆藏目录、数字图书馆、专业数据库、电子图书、电子期刊,搜索引擎,2.按是否收费网络数据库可分为:,商业数据库:内容系统、丰富、全面。图书馆通过购买获得的
20、都是商业数据库,如:Ei Village、中国期刊网全文数据库。免费数据库:逊于商业数据库。一般是由政府部门开发,提供相关信息;或是暂未成熟收费的商业数据库。如:美国能源部的官方网站,提供免费的DOE报告全文检索和下载;再如:http:/国家知识产权局的官方网站,可免费检索专利(带专利全文),并提供知识产权方面的信息。,3.按提供的内容网络信息资源可分为:,参考型数据库。指引用户到另一信息源以获得原文或其他细节的一类数据库。包括各种书目数据库和引文数据库。这种数据库具有参考和评价的功能,多用于查新、开题。如:SCI、EI、维普的中文期刊数据库全文数据库。指存储文献全文或其中主要部分的数据库。如
21、新闻消息全文库、法律法规全文库、博硕论文全文库等。事实型数据库。直接提供事实或数值的数据库。如:万方的企业产品数据库、彼得森大学指南等。电子图书。计算机利用计算机检索并下载阅读的图书。如:书生之家、超星数字图书馆、各种数字图书馆等。电子期刊。直接在网上就可以检索和阅读的期刊。如:万方数字化期刊,中国期刊网全文数据库,science online等电子报纸。如:人民日报的网络版。其它类型。如电子公告版(bbs),网络论坛、新闻等,,2.3 科技文献检索的 途径、方法和步骤,一:检索途径,书名途径著者途径序号途径分类途径主题途径,二:检索方法1 直接法(常用法),直接法是指直接利用检索工具(系统)
22、检索文献信息的方法,这是文献检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。顺查法顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。倒查法倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。抽查法抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。,2 追
23、溯法(引文法),追溯法是指利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大信息来源的方法。它还可以从查到的“引文”中再追溯查找“引文”,像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。缺点:查全率、查准率较低,易误检漏检,追溯法原始文献,追溯法原始文献所附的参考文献,3 综合法,综合法又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求
24、时为止。综合法兼有常用法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。,检索技术,布尔逻辑运算符逻辑 与 或 非位置运算符截词运算符字段限定检索加权检索,计算机检索的步骤,确定检索目标选择数据库编制检索提问式上机检索整理检索结果并对检索效率进行评价,1确定检索目标,要进行信息检索,首先必须确定信息检索的目标,即对信息用户的需求进行具体的分析,这种分析应主要包括以下内容:明确检索的目的 明确用户是要查新、查参考资料还是查询论文被收录或引用情况等,以便对检索的查准、查全和时间范围的指标要求有一个大致的了解,从而制定出符合情况的检索策略。课题分析 对课题内容进行分析,找出核心
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科技 文献 检索 原理
链接地址:https://www.31ppt.com/p-6010817.html