数字文献检索基础库.ppt
第一章,数字文献检索基础库,2023/9/11,数字文献检索,2,第1章 数字文献检索基础,1.1 数字文献及其检索概述 1.2 数字文献的检索技术 1.3 数字文献的检索策略 1.4 检索效果评价,2023/9/11,数字文献检索,3,1.1 数字文献及其检索概述,1.1.1 文献及数字文献概述 1.文献的概念 2.文献的类型 3.数字文献的概念 4.数字文献的特点1.1.2 数字文献的检索语言 1.数字文献检索 2.数字文献检索语言,2023/9/11,数字文献检索,4,1.文献的概念,世界上最早的文献:产生于距今大约1000040000年前的旧石器时代。最古老的文献:石刻图像、楔形文字文献、纸草文献、克里特线性文字文献、甲骨文献等。文献定义:记录有知识的一切载体。文献构成:由知识、载体和记录方式3个要素构成,知识是内容,载体是形态,记录方式是构成文献的手段,三者不可分割。,2023/9/11,数字文献检索,5,2.文献的类型,文献有多种分类方式(1)按文献出版形式和内容划分 图书 报刊 科技报告 政府出版物 会议文献 学位论文 专利文献 标准文献 产品样本 其他零散资料(2)按文献载体形式划分 印刷型文献 缩微型文献 视听型文献 机读文献(3)按文献加工层次分 零次文献 一次文献 二次文献 三次文献,2023/9/11,数字文献检索,6,3.数字文献的概念,数字文献指以数字形式把文字、图像、声音和动画等多种形式的信息,存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。主要的类型有:按表现形式:数据库、电子图书、电子期刊、电子报纸等 按性质和功能:一次数字文献、二次数字文献和三次数字文献 按生产途径和发布:商用电子资源、网络公开学术资源和特色资源 按生产方式:原生数字文献和复合数字文献 按数据传播范围:网络信息资源和单机信息资源 按存储介质:磁介质和光介质,2023/9/11,数字文献检索,7,全文数据库,1)数据库,是以一定的组织方式存储在一起的相关数据的集合,是数字文献最早的形式,也是数字文献的主要构成部分,包括全文数据库、文摘/题录数据库和参考数据库等类型。全文数据库,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例以及商业信息等为主。如国内著名的全文数据库有中国知网的中国期刊全文数据库、重庆维普的中文科技期刊数据库等;国外有ProQuest系统、EBSCOhost 系统以及Springer Link系统等,2023/9/11,数字文献检索,8,文摘/题录数据库,是指包含各种数据、信息或知识的原始来源和属性的数据库。它报道文献信息的存在,揭示文献信息的内容。按数据库内容,可划分为书目数据库、文摘数据库和索引(题录)数据库。书目数据库主要是针对图书进行内容及存储地址的报道与揭示的,如各图书馆的馆藏机读目录数据库;文摘和索引数据库则相对期刊论文、会议论文、专利文献和学位论文等进行内容和属性的认识与加工,它提供确定的文献来源信息,供人们查阅和检索。科学引文索引(SCI)、社会科学引文索引(SSCI)、工程索引(EI)和科学技术会议录索引(ISTP)是世界上最权威的四大索引,均属文摘/题录数据库。,2023/9/11,数字文献检索,9,参考数据库,是指包含大量事实、数据,以及其他类型文献信息的数据库,具体有数值数据库、指南数据库、术语数据库、视频数据库、英语学习数据库和考试系统等。数值数据库,指以数值为主要内容的数据库,如统计数据库、化学反应数据库等;指南数据库,是有关机构、人物等相关信息的简要描述,如公司名录、产品目录等;术语数据库,即专门存储名词术语信息、词语信息等的数据库,如电子版百科全书、网络词典等。视频数据库,是指能够以多媒体方式播放的相关信息内容的数据库,如爱迪科森网上报告厅、超星学术视频等;英语学习系统,主要是指以英语学习为主要内容的数据库,如新东方多媒体学习库、冰果英语和EBSCO的学生英语学习中心(SRC)等;考试系统是指提供试题和模拟考试的数据库系统,如银符考试系统、起点考试系统等。,2023/9/11,数字文献检索,10,电子图书、电子期刊和电子报纸,电子图书:直接以数字形式出版的图书或印刷型图书的数字化形式,是以电子版的方式(其载体主要为光盘或网络等)呈现的,并通过计算机或电子图书阅读器进行阅读的一种电子文献。如国外的NetLibrary、Ebrary;国内的超星电子图书、书生电子图书和方正Apabi电子图书等。电子期刊:是指所有以电子形式存在的期刊,包括印刷型期刊的电子版、无印刷版的网络型电子期刊。与纸本期刊并行的电子期刊,如著名的科学(Science)、自然(Nature)、Elsevier/Wiley/Springer/Kluwer等出版商的电子期刊等;纯电子期刊,如数字图书馆杂志(D-Lib Magazine)。电子报纸:指综合运用多媒体技术、网络技术和通信技术,完成出版、发行、利用全过程的新闻媒体。电子报纸的内容可以是文字、表格、彩色图形、图像,甚至是声音、动画等的多媒体信息。,2023/9/11,数字文献检索,11,4.数字文献的特点,1)高度的共享性。2)类型的多样性。3)检索的便利性。4)信息的时效性。5)信息的不安全性。,2023/9/11,数字文献检索,12,1.1.2 数字文献的检索语言,1.数字文献检索:是指通过检索系统,采用一定的技术手段,根据一定的原则,在数据库或其他形式的数字文献中自动找出用户所需相关信息的过程。广义的检索包括信息的存储和检索两个过程,狭义的检索仅包括用户的信息检索过程。在数字文献检索发展过程中,先后经历脱机检索、联机检索、光盘检索和网络检索四个阶段。目前,网络检索已成为广大用户获取信息的主要方式。,2023/9/11,数字文献检索,13,广义的信息检索过程,2023/9/11,数字文献检索,14,2数字文献检索语言,检索语言,是信息存储与检索过程中用于描述文献特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。文献具有外部特征和内容特征。外部特征有题名(书名、篇名和刊名)、著者(个人、团体)、号码(专利号、标准号、国际标准书号ISBN和国际标准刊号ISSN等)、机构名(责任者所属机构、出版发表机构)以及时间等;内部特征指文献内容所属的学科和文献内容的研究对象。,2023/9/11,数字文献检索,15,文献检索语言与检索途径关系,2023/9/11,数字文献检索,16,中图法结构,2023/9/11,数字文献检索,17,TB 一般工业技术TD 矿业工程TE 石油、天然气工业TF 冶金工业TG 金属学与金属工艺TH 机械、仪表工业TJ 武器工业TK 能源与动力工程TL 原子能技术TM 电工技术TN 无线电电子学、电信技术TP 自动化技术、计算机技术TQ 化学工业TS 轻工业、手工业TU 建筑科学TV 水利工程,工业技术所含学科较多,其下位类用二个大写英文字母表示,2023/9/11,数字文献检索,18,H31英语 H32/H37各种常用外国语 均可仿H31分H32法语H33德语H34西班牙语H35俄语H36日语H37阿拉伯语,H3 常用外国语,2023/9/11,数字文献检索,19,H311语音H311.9朗诵法、演讲术H312文字H313语义、词汇、词义H313.1基本词汇H313.2同义词、多义词、反义词H313.3熟语、俗语H313.5外来语H313.6略语H313.9词源H314语法H314.1构词法H314.2词类H314.3句法H315写作、修辞H315.9翻译H316词典H317方言H319语文教学,H31 英语,2023/9/11,数字文献检索,20,H319.1教学改革H319.2教学计划、教学大纲H319.3教学法英语学习方法入此。仿H193分H319.4读物以提高阅读能力为目的各科简易读物、对照读物、注释读物入此。H319.6习题、试题H319.9会话 口语、会话教材、听说读练习、视听教学入此,H319 语文教学,2023/9/11,数字文献检索,21,R1预防医学、卫生学 R2 中国医学 R3 基础医学 R4 临床医学 R5 内科学R6外科学R71 妇产科学R72 儿科学R73 肿瘤科学R74 神经病学与精神病学R75 皮肤病学与性病学 R76 耳鼻咽喉科学 R77 眼科学 R78 口腔科学 R79 外国民族科学 R8 特种医学 R9 药学,R 医药、卫生,2023/9/11,数字文献检索,22,R2 中国医学,R21 中医预防、卫生学 R22 中医基础理论 R24 中医临床学 R25 中医内科 R26 中医外科 R271 中医妇产科 R272 中医儿科 R273 中医肿瘤科 R274 中医骨伤科 R275 中医皮科 R276 中医五官科 R277 中医其他学科 R278 中医急症学 R28 中药学 R29 中国少数民族医学,2023/9/11,数字文献检索,23,R3 基础医学,R31 医用一般科学 R32 人体形态学 R33 人体生理学 R34 人体生物化学、分子生物学 R35 人体生物物理学 R36 病理学 R38 医学寄生虫学 R392 医学免疫学 R394 医学遗传学 R395 医学心理学、病理心理学,2023/9/11,数字文献检索,24,R4 临床医学,R44 诊断学 R45 治疗学 R47 护理学 R48 临终关怀学 R49 康复医学,2023/9/11,数字文献检索,25,1.2 数字文献的检索技术,1.2.1 布尔逻辑检索技术 1.2.2 截词检索技术 1.2.3 位置检索技术 1.2.4 字段检索技术,2023/9/11,数字文献检索,26,1.2.1 布尔逻辑检索技术,检索词:是单字匹配?还是词组匹配?或者是句子匹配?举例:私营企业人力资源研究如何检索?布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法 主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT),2023/9/11,数字文献检索,27,逻辑与,逻辑与也称逻辑乘:使用符号“and”或“*”表示所连接的两个检索词必须同时出现在结果中才满足检索条件。检索式可表达为:A and B 或 A*B。如“图书馆 and 服务”,要求结果必须同时包含“图书馆”和“服务”。使用“逻辑与”技术,可以增加限制条件,缩小检索范围,增强检索的专指性,提高信息检索的查准率。检索式中,逻辑与连接的检索词越多,检索结果就越少。,2023/9/11,数字文献检索,28,逻辑或,逻辑或也称逻辑和:使用符号“or”或“+”表示所连接的两个检索词中任意一个出现在结果中就满足检索条件。检索式可表达为:A or B 或 A+B如“文献 or 知识”,要求结果包含“文献”或包含“知识”或同时包含“文献”和“知识”。使用“逻辑或”技术,常用于连接同义词、相关词等,可以扩大检索范围,防止漏检,提高信息检索的查全率。,2023/9/11,数字文献检索,29,逻辑非,逻辑非也称逻辑差:使用符号“not”或“-”表示所连接的两个检索词中应从第一个概念中排除第二个概念。检索式可表达为:A not B 或 A-B如“文献 not 图书”,要求结果必须包含“文献”但不包含“图书”。使用“逻辑非”技术,可以剔除不需要的概念,缩小检索范围,提高信息检索的查准率;但这种方式也会排除掉相关信息,影响检索信息的查全率。,2023/9/11,数字文献检索,30,举例,例如检索:“打印机驱动程序”查询关键词:打印机、驱动程序检索表达式:打印机驱动程序例如检索:“微型计算机”方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机微机,2023/9/11,数字文献检索,31,举例,例:检索“唐宋诗歌”的有关信息关键词:唐、宋、诗歌;检索表达式:(唐+宋)诗歌;唐*诗歌 宋*诗歌;错误表达式:唐+宋*诗歌;唐*宋*诗歌;唐+宋+诗歌;唐*宋+诗歌;,2023/9/11,数字文献检索,32,注 意,布尔逻辑检索技术应用非常广泛,但在实现方式上有所差异,即所使用的逻辑符号可能是不同的。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些搜索引擎甚至用“、,、-”(即空格、逗号、减号)来表示。一般情况下请按以下规则使用逻辑符号,但并非所有数据库和搜索引擎都是如此,具体请参考所用数字资源。中文数据库用:*+-and or not西文数据库用:and or not搜索引擎用:,-,2023/9/11,数字文献检索,33,1.2.2 截词检索技术,主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化。原因:在检索中,常会遇到一些词干相同、词义相近的检索词或有英、美不同拼写法的词。作用:为使检索时不遗漏相关词,扩大检索范围,提高查全率,常使用截词检索。截词符一般用“?”、“*”、“$”和“!”等,不同的系统,不同的数据库,其代表的含义可能有所不同。截词方式根据截词的位置不同,分为前截断、后截断、前后截断和中截断;根据截断的数量不同,分为有限截断和无限截断。,2023/9/11,数字文献检索,34,截词位置,前截断(左截断、后方一致):允许检索词前有若干变化。如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。后截断(右截断、前方一致):允许检索词尾有若干变化。如comput*将检索出computer、computing、computerised、computerized、computerization等结果。前后截断(中间一致):词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如*computer*可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。中间截断(前后一致):允许检索词中间有若干变化。例如wom*n可检索出woman、women。英美的不同拼法,defen*e可检索出defence、和defense的结果。,2023/9/11,数字文献检索,35,请 注 意,在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?”,有的用“*”,有的用“#”,用的用“”等。即便常用的“?”和“*”在不同的数据库中其用法也是不一定相同的。在允许截词的检索工具中,一般是指后截断,部分支持中间截断,左截断比较少见。我们将要使用的一些数据库,一般用“?”代表一个字符,用“*”代表任意一个字符串。,2023/9/11,数字文献检索,36,1.2.3 邻近检索技术,邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。例如检索“生物防治”的文献,若用检索式:“biological and control”检索,则会将“抑制生物”“control biological”的文献也查出来,这显然不是所需文献。主要有相邻位置算符(W)、(nW)、(N),(nN),2023/9/11,数字文献检索,37,1.(W)算符,(W)算符:表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。如 biological(W)control 相当于检索 biological control CD(W)ROM 相当于检索 CD ROM或CD-ROM。,2023/9/11,数字文献检索,38,2.(nW)算符,(nW)算符:(nW)是n words的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变。如wear(1W)material相当于检索wear materials、wear of materials等词。,2023/9/11,数字文献检索,39,3.(N)和(nN)算符,(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。(nN)表示两词间可插入最多n个词,词序可变,如检索式environment(2N)protection 就可检索出包含“environment protection”、“environment of the protection”、“environment of water protection”、“protection of forest environment”等内容的结果Information(1N)retrieval 可检出:information retrieval retriveal of information,2023/9/11,数字文献检索,40,请 注 意,邻近检索对提高检索的查全率和查准率有重要作用。不同的系统,不同的数据库,截词符号虽然含义相同,但形式可能有所不同。有的可能有括号,有的可能没有。小写n有时在大写的W、N前面,有时在大写的W、N后面。常见的形式有:(W)、W、();(N)、N;(nW)、nW、(Wn)、Wn;(nN)、nN、(Nn)、Nn;,2023/9/11,数字文献检索,41,1.2.4 字段检索技术,字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。基本检索字段及代码主要有:如题名(TI)、主题词叙词(DE)、文摘(AB)和ID(标识词)等,适用于所有数据库。一般基本检索字段放在检索词(或检索式)后,用“”、“:”或“in”等连接。辅助检索字段及代码主要有:作者(AU)、语种(LA)、刊名(JN)、来源出版物(SO)、出版年代(PY)和文献类型(DT)等。辅助检索字段放在检索词(或检索式)前,用“=”、“=”、“”或“”等连接。注意:不同的数据库其字段代码可能不同。,2023/9/11,数字文献检索,42,字段代码表,2023/9/11,数字文献检索,43,1.3 数字文献的检索策略,检索策略就是在分析信息需求内容实质的基础上,为实现检索目标而制定的一个合理的检索方案。1.3.1 信息需求分析 1.3.2 数据库的选择 1.3.3 检索词的确定 1.3.4 检索表达式的构造,2023/9/11,数字文献检索,44,1.3.1 信息需求分析,1明确检索目的2分析所需信息学科属性和主题概念3确定检索的信息类型和时间范围,2023/9/11,数字文献检索,45,1.3.2 数据库的选择,数据库选择要考虑所选择数据库是否与信息需求结合紧密、学科专业对口、覆盖信息面广、报道及时、揭示信息内容准确以及检索功能是否完善等问题。具体选择数据库可借鉴国外称之为“4C”的原则:内容(Content)。范围(Coverago)。时效(Currency)。费用(Cost),了解所选数据库的收费标准。,2023/9/11,数字文献检索,46,1.3.3 检索词的确定,确定检索词要考虑满足课题检索要求和数据库输入词的要求,检索词选择得恰当与否,会直接影响检索效果。检索词可分为四类:一是表示主题的检索词,如标题词、单元词、叙词或关键词。二是表示作者的检索词,如作者姓名、机构名等。三是表示分类的检索词,如分类号等。四是表示特殊意义的检索词。如专利号、ISBN号、ISSN号或分子式等。检索词的选择与确定需要遵循下列两个原则。第一,根据检索课题所涉及的学科内容选词。第二,对检索词进行处理。,2023/9/11,数字文献检索,47,1.3.4 检索表达式的构造,检索表达式是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种检索算符组配构成,确定检索词之间的概念关系和位置关系,准确表达课题需求的内容。检索表达式需要能够完整而准确地反映用户需求的主题内容,适应所查数据库的索引体系和检索用词规则,同时必须符合检索系统的概念及限制条件的规定。在检索式的构造中,检索算符主要包括前面提到过的布尔逻辑算符、截词算符、位置算符、字段算符以及括号等。不同的数据库往往采用不同的符号或文字来描述词与词之间的组配关系。,2023/9/11,数字文献检索,48,1.4 检索效果评价,1.4.1 概述 1.4.2 查全率 1.4.3 查准率,2023/9/11,数字文献检索,49,1.4.1 概述,一个理想的检索系统,应该是用户需要什么信息,它就能向用户提供什么信息;用户需要多少信息,它就能提供多少信息;其检索结果不多也不少,而又使用方便,反馈信息的速度也很快。但是,目前实现这样的检索系统还存在许多困难。实际上,检索效果就是看检索出的相关文献或信息有多少。不同的检索系统,其检索效果是不一样的。同样的检索系统,如果具有不同的检索能力,其检索效果也是不一样的。对检索效果进行评价,就能为改善检索系统性能提供明确的参考依据,进而更有效地满足用户的信息需求。对检索系统进行评价时,其判定检索效果的主要指标是查全率和查准率。,2023/9/11,数字文献检索,50,1.4.2 查全率,查全率,是指检索系统检出的与某课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比。当进行检索时,检索系统把文献分成两部分,一部分是与检索策略相匹配的文献,并被检索出来,用户根据自己的判断将其分成相关的文献a和不相关的文献b;另一部分是未能与检索策略相匹配的文献,根据判断也可将其分成相关文献(遗漏)c和不相关文献(正确地拒绝)d。一般情况下,检索出来的文献数量为(a+b),相对整个系统的规模来说,是很小的,而未被检出的文献(c+d)的数量则非常大。查全率(检出的相关文献数/系统中相关文献总量)100 100,2023/9/11,数字文献检索,51,提高查全率的基本方法,1)扩大检索课题的目标,使用主要概念,排除次要概念。2)降低检索词的专指度。可以从词表或检出文献中选一些上位词或相关词补充到检索式。例如用“清洁能源”替代“风能”、“核能”和“太阳能”等。3)跨库检索。例如使用国家科技图书文献中心的数据库或google来实现对不同类型文献的一次性检索。4)逐步扩大检索途径的检索范围。例如使用中文科技期刊数据库逐步提高查全率的字段依次是“T题名”“K关键词”“R文摘”“U任意字段”。5)取消限定条件。例如避免使用某些检索途径,如信息类型、语种、地理范围和年代范围。6)西文检索尽量使用截词检索技术,如librar*。7)扩大算符的检索范围,逐步提高查全率的算符依次是:(W)(N)(S)(F)(L)(NOT)(AND)(OR)。,2023/9/11,数字文献检索,52,1.4.3 查准率,是指检索系统检出的与某课题相关的文献信息数量与检出的文献信息总量之比。当进行检索时,检索系统把文献分成两部分,其中一部分是与检索策略相匹配的文献,并被检索出来,用户根据自己的判断将其分成相关文献a和不相关文献b,查准率(检出的相关文献数/检出的文献总数)100 100,2023/9/11,数字文献检索,53,提高查准率的方法,1)精确确定检索课题的目标,使用专业词汇。2)提高检索词的专指度,增加或换用下位词和专指度较强的自由词。3)选择专业性检索工具,例如使用产品数据库、特种搜索引擎。4)逐步缩小检索途径的检索范围。例如使用中文科技期刊数据库,逐步提高查准率的字段依次是“U任意字段”“R文摘”“K关键词”“T题名”。该数据库还能限定期刊范围:全部期刊-重要期刊-核心期刊。5)用不太常用的检索途径。例如信息类型、语种、地理范围、年代范围、作者或号码作为限定条件。6)缩小算符的检索范围。逐步提高查准率的算符与逐步提高查全率的算符顺序刚好相反。,