《Lesson01科技信息检索基础知识副本.ppt》由会员分享,可在线阅读,更多相关《Lesson01科技信息检索基础知识副本.ppt(49页珍藏版)》请在三一办公上搜索。
1、2023年5月29日6时36分,科技信息检索与论文写作,1,科技信息检索与论文写作,朱向前Email:Tel:13838560907电气信息工程学院,2023年5月29日6时36分,科技信息检索与论文写作,2,课程学习目的,培养和强化信息素质,即信息意识、信息技能和信息道德三个方面的信息能力,(1)运用信息工具获取信息的能力,(2)处理信息的能力,(3)创造和表达信息的能力,(4)信息免疫能力,1.关于信息检索,2023年5月29日6时36分,科技信息检索与论文写作,3,课程学习目的,掌握论文写作的一般方法与技巧,培养开展科学研究的基本能力,为写好毕业论文做准备,(1)端正写作态度,(2)构建
2、学术道德,(3)掌握写作规范,(4)提高写作能力,2.关于论文写作,(5)培养创新能力,2023年5月29日6时36分,科技信息检索与论文写作,4,本课程学习内容,科技信息检索,科技论文写作,科技信息检索的基础知识(2学时),常用的中文信息检索系统(2学时),常用的外文信息检索系统(2学时),世界著名的三大检索工具(2学时),特种文献信息的检索与利用(2学时),科技论文写作的基础知识(2学时),科技论文的写作与规范(2学时),学位论文的写作(4学时),Latex使用指南(2学时),2023年5月29日6时36分,科技信息检索与论文写作,5,参考书,考察方式,平时考勤:40,文献综述:60,赵飞
3、,吕瑞花.科技信息检索与论文写作实用教程.北京:兵器工业出版社,2005.任胜利.英文科技论文撰写与投稿.北京:科学出版社,2004.徐庆宁等.信息检索与利用.上海:华东理工大学出版社,2004.周勤,周洪波.信息检索实用教程.北京:北京理工大学出版社,2009.王培义、蔡丽萍.信息检索教程.北京:北京邮电大学出版社,2010.,2023年5月29日6时36分,科技信息检索与论文写作,6,Lesson 01 科技信息检索基础知识,信息与文献,信息检索及其系统,检索语言,信息检索的方法与技术,2023年5月29日6时36分,科技信息检索与论文写作,7,1 信息与文献,科研人员进行科学研究活动,先
4、从取得科技文献开始,最终以发表科技文献结束。其中经历了获取科技信息、使用科技信息和传递科技信息3个过程。这样就产生了一个科技信息交流的循环系统,1.1 信息的概念,基本含义是音讯、消息;通信系统传输和处理的对象,泛指消息和信号的具体内容和意义(辞海)。广泛定义:人们对外部世界感知、认识过程中产生的一切数据、事实和消息。信息作为一个科学概念被使用,是近年来的事情。“信息”一词译自英文Information,学术界普遍主张从哲学角度去认识信息、把握信息,认为“信息是物质的存在方式和运动状态所蕴含的间接存在物的标语”。,从信息的识别、加工处理、储存、传播等环节观察,信息具有以下特征:可识别性可揭示性
5、可记存性可转换性可传播性共享性,2023年5月29日6时36分,科技信息检索与论文写作,8,从图书学、情报学的角度定义,信息应是文献、资料、情报、知识、数据以及消息与新闻等的总称,信息的记录和传播分为:非文献方式和文献方式。非文献方式也称为非正式交流过程。优点:传播速度快、选择性和针对性较强;缺点:传播范围受限制。文献方式,也称为信息交流的正式过程,是借助于各种文献进行的信息交流,优点:高可靠性和广泛性;缺点:速度稍慢。目前信息及其依附的物质载体主要是文献。这里所探讨的信息检索,主要指的是文献检索,知识,知识是人类对自然界、人类社会及思维方式与运动规律的认识,是人的大脑通过思维重新组合的系统化
6、的信息集合。知识是信息的一部分,信息是构成知识的原料。知识的属性1)意识性2)信息性3)实践性 4)规律性5)继承性6)渗透性知识的类型根据国际经合组织的定义,人类现有的知识可分为四大类:1)Know what(知道是什么)关于事实方面的知识;2)Know why(知道为什么)关于自然原理和规律方面的知识;3)Know how(知道怎么做)关于技能或能力方面的知识;4)Know who(知道谁有知识)关于到哪里寻求知识的知识;,2023年5月29日6时36分,科技信息检索与论文写作,9,情报,“情报”一词最早产生于军事领域,指传递着的、有特定效用的知识。辞源:军中集种种报告,并预见之征兆,定敌
7、情如何,而报于上官者,曰情报。情报是使人原有的知识结构发生变化的那一小部分知识英国情报学家布台斯克。特征:知识性、传递性、实用性(时效性)功能:提高认识能力、帮助解决特定问题、增加竞争力,2023年5月29日6时36分,科技信息检索与论文写作,10,文献,记录知识的一切载体的统称。即用文字图像、符号、音频、视频等手段记录人类知识的各种载体(如纸张、胶片、磁带、磁盘、光盘等)。构成文献信息文献的内容,核心;文献载体载体,符号赖以依附的“寄主”;符号系统信息的携带者;记录方式(手段)代表文献的符号进入载体的方法和过程四要素缺乏任何一种都不可能形成文献,2023年5月29日6时36分,科技信息检索与
8、论文写作,11,2023年5月29日6时36分,科技信息检索与论文写作,12,1.2 文献的概念及类型,文献就是用文字、图形、符号、声频或视频等技术手段,记录信息的物质载体。(文献著作总则(GB/T 3792.1-1983):记录有关知识的一切载体)。是人类认识世界、获取知识信息的重要资源,现代文献由文献信息、文献载体、符号系统和记录方式四要素构成。文献信息是文献的内容,符号系统是信息的携带者,载体是符号赖以依附的“寄主”,而记录方式则是代表文献的符号进入载体的方法和过程,四要素缺乏任何一种都不可能形成文献(知识、载体(媒介)、记录手段(文字、图形等)。,由于不同的文献传递着不同的信息,采用不
9、同的载体材料,运用不同的制作方式,因此,文献的类型就多种多样,1.按照文献的载体形态划分,(1)印刷型(Printed Form),(2)缩微型(Micro Form),(3)声像型(Audio-visual Form),(4)电子型(Electronic Form),(5)实物型,2023年5月29日6时36分,科技信息检索与论文写作,13,2.按照文献的出版形式划分,(1)图书(Book),在正式出版的图书封底,都有一个ISBN号,即国际标准书号(International Standard Book Number),它是一个10位定长的号码,例如ISBN7-5013-1289-3,划分为
10、4个部分:,第一部分是地域号码(国家、地区、语言区),例如7指中国、0和1指英语国家、2指法语区、3指德语区、4指日语区等第二部分是出版社号码,由国家标准书号中心负责分配,其位数视申请出版社图书出版量多少而异第三部分是书号,由出版社负责管理分配第四段为校验码,其数值由前九位数字依次以10-1加权之和并以11为模计算得到ISBN号码的前3部分是变长结构,但总长度不变,2023年5月29日6时36分,科技信息检索与论文写作,14,(2)期刊(Journal Periodical),国际标准刊号ISSN和国内统一刊号CN,ISSN(国际标准连续出版物编号,International Standard
11、 Serial Number)是根据国际标准ISO3297制定的连续出版物国际标准编码,其目的是使世界上每一种不同题名、不同版本的连续出版物都有一个国际性的唯一代码标识,该编号是以ISSN为前缀,由8位数字组成。8位数字分为前后两段各4位,中间用连接号相连,格式:ISSN XXXX-XXXX,前7位数字为顺序号,最后一位是校验位。ISSN由设在法国巴黎的国际ISDS中心(International Serial Data System-ISDS International Center)管理。1975年起建立世界性的连续出版物标准书目数据库,目前已有近200个国家和地区出版的65万种期刊(包括
12、已停刊的)登记入库,成为国际上最权威的期刊书目数据网络系统。我国于1985年建立了ISSN中国分中心(设在北京图书馆),负责中国期刊ISSN号的分配与管理,目前已有近5000种中文期刊分配了ISSN号并进入了国际ISSN数据系统。ISSN通常都印在期刊的封面或版权页上,(3)报纸:报刊邮发代号是国家邮政部门编定的代表某一种邮发报刊的专用号码,有助于简化发行业务处理和进行科学管理。邮发代号由两部分号码组成中间用“-”连接,前一部分代表出版地所属的省(直辖市、自治区),报纸用双号,杂志用单号;后一部分号码代表报刊的发行号码,报纸、杂志均由各省(市、区)局分别从1号起顺编。例如:北京为1、2;河南为
13、35、36,2023年5月29日6时36分,科技信息检索与论文写作,15,(4)科技报告(Technical Report),(5)会议文献(Conference Paper),(6)专利文献(Patent Document),(7)学位论文(Thesis,Dissertation),(8)标准文献(Standard),(9)政府出版物(Government Document),(10)其他类型资料 档案文献、产品资料等,2023年5月29日6时36分,科技信息检索与论文写作,16,3 按照文献被加工整理的深度划分,(1)一次文献(Primary Document),(2)二次文献(Secon
14、dary Document),(3)三次文献(Tertiary Document),是指著者以自己的科学实验、生产实践的成果而撰写的文献,它是报道新发明、新创造、新技术、新知识的原始创作,也称为原始文献。图书、期刊论文、科技报告、专利说明书、会议论文、学位论文等都是一次文献。一次文献是科技工作者科研工作中的重点参考文献,是将分散的、无组织的一次文献,经筛选后,按其内容特征(例如著者、序号等)进行加工、编辑成有系统的文献,如文摘、索引、书目等检索工具,因此也称为检索工具。它专供检索一次文献而用。二次文献具有系统性、简明性和检索性。二次文献不对一次文献的内容作学术性分析与评价,只提供一次文献的线索
15、。科技工作者只要选择最适合其检索需要的检索工具,即可迅速、准确、全面地查获所需要的一次文献的线索,从而得到一次文献,在合理利用二次文献的基础上,选用一次文献的内容,根据一定的需要和目的,进行分析、综合、评论而编写出来的文献。如专题述评、动态综述、学科年度总结、学科进展、辞典、手册、百科全书等。三次文献有的以图书形式出版,有的以期刊论文的形式出版。它们具有综合性、参考性,能直接提供检索答案,2023年5月29日6时36分,科技信息检索与论文写作,17,1.3 文献的特点,(1)数量多、增长快,(3)交叉重复,(2)形式多、文种多,(4)失效快、寿命短,(5)文献总体质量下降,2023年5月29日
16、6时36分,科技信息检索与论文写作,18,1.4 数字信息,数字信息(Digital Information)狭义上被称为电子信息(Electronic Information),是指以数字形式生产和发行的信息,即能够被计算机识别的、不同序列的“0”和“1构成的形式。数字信息包括文字、图像、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。利用网络传递的数字信息资源称为网络信息资源(Networked Information Resources),网络信息资源主要有以下几种类型:,(1)联机馆藏目录,(2)联机数
17、据库,(3)电子图书,(4)期刊索引与文献索引,(5)全文资料,(6)电子报纸,(7)计算机软件,2023年5月29日6时36分,科技信息检索与论文写作,19,2 信息检索及其系统,2.1 信息检索的概念,狭义的“信息检索”是指从信息集合中查找所需信息的过程,广义的信息检索的概念应包括两个方面:一是将信息按一定的方式组织存储起来 二是根据用户的需要找出有关信息因此信息检索的全称应该是“信息存储与检索”(Information Storage and Retrieval),对用户而言,后者更为重要,2023年5月29日6时36分,科技信息检索与论文写作,20,2.2 信息检索的类型,按照不同的标
18、准,可以将信息检索划分为不同的类型,按照信息的存储和检索手段,可以将信息检索划分为手工检索、机械化检索与计算机检索三种,按照检索对象的形式来划分,可以将信息检索划分为书目检索、数据检索、事实检索、全文检索和多媒体检索等,2023年5月29日6时36分,科技信息检索与论文写作,21,(1)书目检索,书目检索是以提供和确定文献来源信息为主要内容,即以二次文献为检索对象,信息用户通过检索获得的是与检索课题相关的一系列文献线索,然后再通过阅读决定取舍,在书目数据库中一般不提供原始文献。书目检索是目前发展较充分的一种检索,可以将其划分为目录检索与文献检索两种,目录(Catalogue)对文献的描述比较简
19、单,是以一本或一种出版物(例如一本图书、一种期刊等等)为其著录对象,它不揭示出版物的内容,只着眼于报道实有的文献或收藏文献的情况。可分为图书目录、报刊目录、馆藏目录等,其中最为常见的是馆藏目录或馆藏联合目录。在网络上运行的联机公共检索目录OPAC(Online Public Access Catalogue)可提供联机目录查询,Internet把许许多多的图书信息中心连接起来,提供地区性乃至全球性的目录检索服务。如世界最大的图书馆自动化网络OCLC(Online Computer Library Center)向全球用户提供2万多图书馆的馆藏信息,文献检索(Document Retrieval
20、)系统提供对参考文献的检索,检索结果往往是一些可提供研究课题使用的参考文献的线索,即来源信息(Source),但不是文献本身(原文),所以说它是一种间接的相关性检索。因此,这就涉及到一个获取全文的问题。原始文献包括全文的原件及其复印件,通常由馆藏单位提供。用户可以通过Internet互联网查阅各信息单位的馆藏情况,并通过馆际互借、联机借阅、联机订购以及电子传送等系列服务实现资源共享。从性质上来说,文献检索是相关性检索,2023年5月29日6时36分,科技信息检索与论文写作,22,(2)数据检索(Data Retrieval),数据检索(Data Retrieval)是以数值或图表形式表示的数据
21、为检索对象的信息检索,又称数值检索。即检索工具或检索系统中存储的是大量的数据,信息用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。数据检索与文献检索有许多共同之处,文献检索的许多方法也使用于数据检索,(3)事实检索(Fact Retrieval),事实检索(Fact Retrieval)是以文献中抽取的事项为检索内容的信息检索,又称事项检索,其检索对象既包括事实、概念、思想、知识,也包括一些数据信息,但要针对查询需求,由检索系统进行分析、推理后再输出最终结果,数据检索和事实检索都是确定性检索,(4)全文(Full-text)检索,全文(Full-text)检索是以文
22、献所含的全部信息作为检索内容,是当前计算机信息检索的发展方向之一,2023年5月29日6时36分,科技信息检索与论文写作,23,2.3 信息检索系统与检索工具的概念,信息检索系统是指将信息按规定的方式组织和存储起来,并根据信息用户的需要,找出有关信息的过程。信息检索系统是信息用户与信息资源之间必要的中介,广义的检索工具是指用来报道、存储、查询文献信息的一切工具和设备。它以各种类型的一次文献为素材,在广泛收集并进行严格筛选后,通过特定的信息工作方法,分析和提取文献的外部特征和内容特征,用选定的文献描述语言对这些外部及内容特征进行描述和标引,形成文献信息的单元款目,然后将这些单元款目按照特定的规则
23、进行组织编排。它可分为手工检索工具、机械检索工具和计算机检索工具等。因此,广义的检索工具与检索系统是相同的,狭义的检索工具主要指手工检索工具,也就是印刷型的书本式检索工具,2023年5月29日6时36分,科技信息检索与论文写作,24,2.4 电子信息检索系统的组成、类型与结构,1 电子信息检索系统的组成,电子信息的检索,是指采用一定的技术手段,根据一定的准则,在数据库或其他形式的网络信息资源中自动找出用户所需要的相关信息。目前,电子信息检索系统主要指的是计算机信息检索系统,电子信息检索系统由硬件、软件和数据库三部分组成,(1)硬件(Hardware):和计算机检索有关的各种硬件设备的总称,(2
24、)软件(Software):与计算机检索相关的数据库系统软件及相关应用软件,(3)数据库(Database):按一定方式、以数字形式存储、可以通过计算机存取、相互关联的数据集合,2023年5月29日6时36分,科技信息检索与论文写作,25,数据库有参考数据库、全文数据库和事实数据库等几种,参考数据库(Reference Database):指包含各种数据、信息或知识的原始来源和属性的数据库。目前,参考数据库主要针对印刷型出版物开发,目的是指引用户快速、全面地鉴别和找到相关信息。参考数据库主要包括书目数据库、文摘数据库和索引数据库。书目数据库主要是针对图书的内容进行报道与揭示,如各图书馆的馆藏机
25、读目录数据库;文摘和索引数据库则是针对期刊论文、会议论文、专利文献和学位论文等进行内容和属性的认识和加工,例如美国工程索引等数据库。参考数据库的一个最重要用途是用于搜集文献线索、快速全面地查找某个学科、领域或主题的文献信息,全文数据库(Full-Text Database):指收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和商业信息等为主。例如“学术期刊图书馆”(ProQuest Academic Research Library)等。随着网络技术的发展,基于互联网开发的全文数据库(Web-Based Full-Text Database)以及全文服务有了飞速
26、发展,事实/数值型数据库(Factual Database):指包含大量数据、事实,直接提供原始资料的数据库,可分为数值数据库(Numeric Database)、指南数据库(Directory Database)等,相当于印刷型文献中的工具书,2023年5月29日6时36分,科技信息检索与论文写作,26,2 电子信息检索系统的类型,按照存储设备和用户检索方式,可以将电子信息检索系统划分为联机数据库检索系统、光盘数据库检索系统和网络数据库检索系统三种,(1)联机数据库检索系统,联机检索(Online Retrieval)指用户利用计算机终端设备,通过通信线路或网络,将信息需求按系统规定的检索命
27、令和查询方式发送到联机检索中心的数据库中,系统将用户的请求与数据库中的数据进行匹配运算,再将检索结果送回用户检索终端,联机检索系统由联机检索中心、通信设施和检索终端三部分组成。其中联机检索中心是该系统的中枢部分,联机检索系统具有数据库数量多、信息量大、内容丰富、数据库更新快、数据库和系统集中式管理、安全性好等优点,但是联机检索的费用高,检索界面单一。目前世界上比较有名的联机检索系统有:美国DIALOG系统、美国ORBIT和BRS系统和 STN系统,2023年5月29日6时36分,科技信息检索与论文写作,27,(2)光盘数据库检索系统,光盘数据库通常是指CD-ROM(Compact Disc R
28、ead-Only Memory)数据库,即只读光盘数据库。光盘数据库由最初的单机光盘数据库发展到现在的联机光盘数据库。联机光盘数据库是指多用户的局域网系统,即通过网络连接多个用户终端,用服务器管理多组光盘数据库及其检索系统。联机光盘数据库检索系统具有用户检索界面直观、友好、检索环境宽松、检索功能强、检索效率高等优点,但是信息量没有联机检索数据库多,数据更新慢,(3)网络数据库检索系统,网络数据库(Web-Database)检索系统是指用户在自己的客户终端上,通过互联网和浏览界面对数据库进行检索。网络信息检索是最能够体现Internet特色的新型信息检索工具,也是目前网络环境下的水平最高的信息服
29、务方式。网络数据库的内容不仅有文本,还有大量的图像、动画、声音等,数据库一般每周更新,检索功能强大,索引多,检索环境更加宽松,用户不需要具备专业的情报检索能力,都可以很方便地使用。但是,由于访问是通过网络进行的,因此,安全性较差,另外,由于数据库的开发费用较高,因此,网络数据库的总体费用一般高于光盘数据库,2023年5月29日6时36分,科技信息检索与论文写作,28,3 计算机检索系统的结构,信息检索系统一般由字段、记录、文档和辅助部分四项组成,(1)字段(Field):书目数据库中基本的信息单位著录在计算机中称为字段,比如说著者字段、题目字段、文摘字段等。每个字段的左侧都以两个字符的缩写表示
30、该字段的含义。这些字段可以分为3种类型:,存取号AN(Accession Number):是计算机为数据库的每篇记录给定的登记号,基本索引字段(Basic Index):是记录中主要用来表达文献内容特征的字段。常见的有篇名(Title),文摘(Abstract),叙词(Descriptor),受控词(Controlled Terms),自由标引词(Identifier)、非控词(Uncontrolled Terms)等,辅助索引字段(Auxiliary Index):主要是一些表达文献外表特征的字段。常见的有著者(Author),期刊名称(Journal Name),出版年份(Publicat
31、ion Year),语种(Language)、出版物识别代码(Coden)、国际标准刊号(ISSN)、文献类型(Document Type)、分类代码(Classification Code)、机构名称(Corporate Source)等,2023年5月29日6时36分,科技信息检索与论文写作,29,(2)记录(Record):一条记录相当于一条著录项目,它是由字段组成的,(3)文档(File):若干逻辑记录组成的信息集合称之分文档。它有顺排文档和倒排文档之分,顺排文档(Linear Files):全部同类型文献记录的集合形成数据库。如果数据库的每一篇文献记录都是顺序地按线型结构排列,则构成
32、“线性文档”。线性文档中的文献记录是按其存取号大小顺序排列的,故又称为“顺排文档”,如果没有索引文档配合,要对顺排文档进行机检,计算机就要逐一扫描数据库中的每条记录,这样逐篇查阅这些顺排文档进行检索是很费时间的,检索效率太低。为了提高检索效率,就要建立索引文档,也称为“倒排文档”,倒排文档(Inverted Files):对数据库重新组织,将每个可检索字段中一切有意义的检索词(或代码)按一定顺序排列,即构成倒排文档。倒排文档又可分为:,a 基本索引文档:由数据库全部记录的基本索引字段中,提取出所有的检索词,按字顺排列构成的集合,称之为“基本索引倒排文档”,比如主题词索引、分类号码索引等均是基本
33、倒排文档,b 辅助索引文档:由数据库全部记录的辅助索引字段中,提出所有的检索词、数字,加上相应的前缀代码,按字母或数字顺序排列构成的集合,称之为“辅助索引倒排文档”,比如著者索引、号码索引等均是辅助倒排文档,2023年5月29日6时36分,科技信息检索与论文写作,30,2023年5月29日6时36分,科技信息检索与论文写作,31,2.5 信息检索系统的评价,信息检索系统的质量影响着检索系统的使用效果,如何对检索系统进行评价,可以从下面几个方面考虑:,检索功能:主要是指系统提供给用户的各种检索途径和检索入口,可供选择的越多,对用户来说就越方便。例如,是否提供浏览功能、简单检索、复杂检索、自然语言
34、检索手段等,检索技术:是指系统是否允许用户使用各种检索技巧,以便更准确和快速地找到自己所需要的信息,检索结果:是指用户是否得到了内容全面、下载和使用都比较方便的检索结果,用户服务:是指除了检索功能之外,系统还为用户提供哪些服务,例如是否可以记录检索历史、是否提供主题词表、是否提供最新期刊目次报道等,2023年5月29日6时36分,科技信息检索与论文写作,32,覆盖面是指检索系统收录文献范围所覆盖的学科面和出版物类型及数量;摘贮率是指检索系统收录的文献信息数量与其覆盖面内全部文献信息数量的比率;报道数是指一定时间内报道文献信息的数量,及时性:是指检索系统报道新出现文献信息的速度,一般用“时差”来
35、衡量。“时差”是指从一次文献发表到相应的二次文献发表之间的时间。检索系统的时差越短,越可以使信息及时得到报道,在信息爆炸的今天,检索系统报道的及时性是非常重要的,文摘著录质量:摘录质量主要是揭示文献主题的内容是否恰当充分,提供的信息是否确切,能否使科技工作者获得文献的主题信息,判断文献是否符合自己的要求,全面性:是指检索系统收录的文献信息是否全面,可以用覆盖面、摘贮率和报道数三个指标来衡量,2023年5月29日6时36分,科技信息检索与论文写作,33,3 检索语言,3.1 文献的组织,文献的组织就是各种文献集合成系统,以体现它们之间的联系。只有经过组织成为有序的文献,才能被找到,并被再次利用,
36、文献的组织有两种含义:(1)按文献的某些特征直接将文献的载体加以组织排序;(2)通过目录、索引等对文献进行间接的组织,是深一层次的加工。文献经过著录形成反映其内容和形式特征的条目,按不同的特征将它们组织成相应的目录、索引等检索工具,它们具有揭示、报道文献的功能,文献的组织大体上按两种方式组织:(1)按内容组织;(2)按形式组织。按内容组织是组织文献的第一原则,该原则是根据学科即知识体系来划分、组织文献。按形式组织,是指按文献的出版形式或按文献的特定功能、应用等来组织,关于文献的组织原则在情报学中被称为检索语言,2023年5月29日6时36分,科技信息检索与论文写作,34,3.2 检索语言的概念
37、,所谓的检索语言就是组织文献与检索文献时所使用的共同语言。即文献存储时,文献的内容特征(如分类、主题)和外表特征(如书名、刊名、篇名、号码、著者等)按照一定的语言来加以描述,检索文献时的提问也按照一定的语言来加以表达,这种在文献的存储和检索过程中,共同使用、共同理解的语言就是检索语言。检索语言在文献的检索过程中起着十分重要的作用。掌握检索语言是掌握检索技能的基础,3.3 检索语言的种类,检索语言可分为两大类:分类法、主题法,分类法:按学科门类区分图书,用分类号来表达文献主题内容,以分类表作为文献分类标引的工具。典型的如:杜威十进分类法、中国图书馆分类法(中图法)、国际十进分类法、美国国会图书馆
38、分类法,主题法:以自然语言为基础,用表达概念的词来提示文献的内容,标识符是文字。如直接使用“金属陶瓷”、“感光材料”、“载重汽车”进行标引,2023年5月29日6时36分,科技信息检索与论文写作,35,2023年5月29日6时36分,科技信息检索与论文写作,36,中国图书馆图书分类法,将图书分为社会科学、自然科学、综合等五大类。类目展开之式如下页图示,由字母和数字组成,采用等级列举表达从属关系,分类号越长,表示的学科范围越窄,为了清楚醒目,通常分类号的第三位数字后,隔以.,如F279.712,TQ032.4,上位类目与下位类目的关系:上位类目一定包含各个下位类目,下位类目一定带有上位类目的属性
39、,2023年5月29日6时36分,科技信息检索与论文写作,37,2023年5月29日6时36分,科技信息检索与论文写作,38,O 数理化 一级类目 O1 数学 二级类目 O3 力学 二级类目 O31 理论力学 三级类目 O311 运动学 四级类目.1 质点运动五级类目 O4 物理学二级类目,2023年5月29日6时36分,科技信息检索与论文写作,39,主题词法与分类法的比较,2023年5月29日6时36分,科技信息检索与论文写作,40,4 信息检索的方法,4.1 信息检索的方法,引文追溯法是指以论文作者在文章最后所附的参考文献为基础,进行逐一追踪查找的方法。该方法获得的文献针对性强,数量较多,
40、在没有检索系统或检索工具不齐备的情况下用此法能够获得一些所需要的文献。不足之处是所获得的文献不够全面,而且往前追溯年代越远,所查获的文献越陈旧,间接检索法是指利用检索系统查找文献的方法,这是一种常规的科学检索方式。根据不同课题要求,不同的设备条件,可以选择最适当的方案来实施检索,其内容包含检索课题的分析、检索策略的制定、检索技术的应用等方面,综合法实际上是间接检索法和引文追溯法的综合,即在查找文献时,先利用检索系统查出一批文献,通过精选将其有用的文献后所附的参考文献进行追溯,这样交替循环进行,可以获得对课题比较准确、全面的了解,查找文献的方法有引文追溯法、间接检索法和综合法三种,2023年5月
41、29日6时36分,科技信息检索与论文写作,41,4.2 信息检索技术,1.布尔逻辑算符(Boolean Logical Operators),布尔逻辑检索就是采用布尔代数中的逻辑“与”、逻辑“或”、逻辑“非”等逻辑算符,将情报提问转换成逻辑表达式,(1)逻辑“与”(AND或*):一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高查准率。“A and B”表示被检索的文献记录中必须同时含有概念A和B才算命中,(2)逻辑“或”(OR或+):一种用于并列概念的关系组配,它可以扩大检索范围,有利于提高查全率。“A or B”表示被检索的文献记录中只要含有A或B中的任一个概念就算命中,(3
42、)逻辑“非”(NOT或-):一种用于排除某种概念的关系组配,它同样可以缩小检索范围。“A not B”表示被检索的文献记录中只含有概念A,不含有概念B。使用逻辑“非”时要慎重,否则会把有用的文献给漏检了,在不同的检索系统里,布尔逻辑的运算次序是不同的,因此会导致检索结果的不同。通常的运算顺序是NOT、AND、OR,但是可以根据需要,用括号规定或改变执行顺序。一般在检索系统的帮助文件中都会有这类说明,布尔逻辑算符、位置逻辑算符、截词算符,2023年5月29日6时36分,科技信息检索与论文写作,42,布尔算符中的逻辑“与”只要求两个检索词必须同时出现在同一篇文献中,而没有限定算符两侧检索词之间的位
43、置关系,有时难免造成误检,例如,查找“细菌对染料破坏”方面的文献,检索词:细菌、破坏、染料;使用逻辑“与”组配,检索结果:命中同时用这三个词标引的文献有“细菌对染料的破坏”方面的文献,也会有“染料对细菌的破坏”方面的文献,要排除后一部分的文献,就需用位置算符限定词与词之间的位置关系,2023年5月29日6时36分,科技信息检索与论文写作,43,2 位置逻辑算符(Position Operators),位置逻辑算符也叫全文查找逻辑算符、相邻度检索算符,是一种多个单元词之间位置逻辑的比较检索方法,即用位置算符来规定算符两边的词出现在文献中的位置,位置算符在西方数据库中出现的较多,多在全文检索中应用
44、。它比布尔逻辑算符更能表达复杂专深的概念,可以提高检索深度和查准率。关于位置逻辑算符可参见下表,2023年5月29日6时36分,科技信息检索与论文写作,44,(W):“With”的缩写,词序不许颠倒,两词之间不许插词,只许空格或连字符号。例:CD(W)ROM 将命中CD ROM或CD-ROM;solar(W)energy 检出 solar energy,(nW)算符:“n words”的缩写,(nW)是从(W)算符引伸出来,检索词之间允许插入0-n个词,词序不许颠倒。例:anticorrosion(1W)paint,可检出 anticorrosion paint 和 anticorrosion
45、 of paint;例:检索“材料磨损”(WEAR OF MATERIALS)方面的文献,检索式是WEAR(1W)MATERIALS,(N)算符:“Near”的缩写,词序可以颠倒,两词之间不许插词例:cross(N)section,可检出 cross section 和 section cross,(nN)算符:(nN)是从(N)算符引伸出来,检索词之间允许插入0n个词,词序可以颠倒,(F)算符:“Field”的缩写,算符两侧的检索词必须在同一字段内,词序及两词间插入的词数不限,(S)算符:“Sentence”和“Sub-field”的缩写,算符两侧的检索词必须在同一句子词序及两词间插入的词数
46、不限,2023年5月29日6时36分,科技信息检索与论文写作,45,3 截词算符(Truncation),所谓截词,是指检索者将检索词在他认为合适的地方截断,截词检索,就是用截断的词的一个局部进行的检索,并认为凡是满足这个词局部中的所有字符的文献都是命中的文献。截词检索是利用了计算机固有的指定位对比判断功能,使不完整的词能够与标引词进行比较、匹配的一种检索。主要用于西文数据库中词干相同的派生词的检索,可以提高查全率。常用的截词符号有“?”、“*”或“”等,2023年5月29日6时36分,科技信息检索与论文写作,46,非限制性截词:“?”加在词干或不完整的词上,对词的完整意义进行检索,compu
47、ter?代表 Computer,computers,computerized等,限制性截词:analy?er 命中记录中将出现analyzer 和analyser;work?命中记录中将出现,work,works,worker,workers,working,2023年5月29日6时36分,科技信息检索与论文写作,47,4.3 信息检索的步骤,1 分析研究课题,明确检索要求,手进行文献检索之前,首先要针对课题进行一番分析、研究,确定涉及学科范围、查、语种和文献类型,明确检索的目的。如果需要掌握课题的详尽信息,那么应该更多检索全面、彻底,这时可以考虑使用光盘数据库或者网络数据库;如果需要掌握课题
48、分析是下一步制定检索策略的前提和基础,2.制定检索策略,通过课题分析,明确检索需求和目的,形成若干个既能代表信息需求又具有检索意义的主题概念后,就可以有针对性地选择相关信息资源,制定相应的检索策略了,具体有以下一些内容:,(1)选择检索系统:针对课题需要,选择联机数据库检索、光盘数据库检索或网络数据库检索,并且根据检索课题的需要,选择一种或多种检索数据库,2023年5月29日6时36分,科技信息检索与论文写作,48,(2)选择检索途径和检索标识:可以根据检索课题内容上的要求,从数据库的分类或者主题等途径进行检索,也可以根据已知的外部信息,例如作者、文献序号等,从数据库的外表特征途径检索,(3)
49、构造检索式(Formula):在计算机检索系统中,需要将表达检索课题的标识用逻堆运算符、位置运算符等进行组配,并选择检索字段和检索提问的先后次序,(4)对检索策略进行调整:当检索结果比较少的时候,可以增加一些检索词、调整组配算符、取消或者放宽一些检索限定、增加或修改检索入口点等手段来扩检,以提高查全率;当检索结果很多的时候,可以采取与扩检相反的方法来缩检,提高查准率,2023年5月29日6时36分,科技信息检索与论文写作,49,4.4 检索结果的评价,关于检索结果的评价,主要是评价检索效率。查全率、查准率、漏查率和误查率是评价检索效率的四个常用指标,1 查全率R(Recall Ratio):指从检索系统中检索出来的有关某课题的文献信息数量J系统中相关文献总量的比率,2 查准率P(Precision Ratio):指从检索系统中检索出来的有关某课题的文献信息量与检索出来的文献信息总量的比率,3 漏查率O(Omission Ratio):,4 误查率M(Miss Ratio):,上式中,a表示检索出的相关文献数量,b表示检索出的不相关文献数量,即误检的献数量,c表示未检索出的相关文献数量,即漏检的文献。a+c表示检索系统中存储的相关文献数量,a+b表示检索出的文献总量,查全率和查准率是衡量检索效果的两个主要指标。显然,查全率高,漏查率必低;查准率高,误查率必然低,
链接地址:https://www.31ppt.com/p-5017642.html