文献检索理论与方法.ppt
1.信息的概念信息、知识与文献,信息是指客观世界中不断发生和被传递的可以表征事物特征的事实或数据;知识是一种高度概括的、理性化和系统化的有序信息;文献则是记录有知识内容的一切人工载体。换句话说,信息可以上升为知识,知识可以被记载为文献。,信息资源概述,1.1.2 信息、情报与竞争情报,现代情报与传统情报区别传统情报是与军事联系在一起的。现代情报:是急需要知道的信息和知识。常见术语:科技情报,科技信息;中国科技情报研究所,中国科技信息研究所;情报检索,信息检索。,1.1.3 信息意识、信息能力和信息素质,1 信息意识:主要是指对信息的敏感性和主动性。2 信息能力:信息获取、信息整合、信息评价、分析和利用能力。3 信息素质 信息知识,信息意识、信息能力和信息道德等方面。,1.2 信息源和信息资源,1.2.1 实物信息源/信息资源1.2.2 口头信息源/资源1.2.3 机构信息源/资源1.2.4 文献信息资源 1 纸张 手稿、书信、报告、报纸和期刊等。2 感光胶片 摄影作品、幻灯片、微缩胶卷、电影胶卷等。此外还有磁盘、光盘、电存储介质等。1.2.5 网络信息资源 文献检索系统、数据库、数字图书馆、论坛和博客等。,1.3 科技文献类型,1.3.1 图书 是文献的主要出版形式,包括其纸质品和复制的电子版。图书可以分为普通图书、专著、教科书、工具书、汇编、会议录和标准等。专著:作者对某个科研成果或某个专题知识体系所进行的概括总结,以作者本人或他人已经发表的各种资料为素材,经过整理加工以后写成的。系统成熟和可靠。,汇编:是多篇相互独立但又有联系(同一专题或同一作者)的文献集合体。其它的还有会议录、报告、标准等图书。1.3.2 报刊 报纸:日报、周报等。是了解新闻,政策法规的主要来源。期刊:分为周刊、半月刊、月刊、双月刊、季刊等。,寻找或引用期刊论文,一定要鉴别期刊论文的篇名、作者和出处,出处包括刊登该论文的期刊名称、年号,卷号(Volume或Vol.、期号(Issue,Number或No.)以及论文的页码。科技期刊按内容可以分为学术性期刊、技术性期刊课科普性期刊,1.3.3 会议论文 是指在各种学会上发表的论文。主要以图书和期刊的形式出版。1.3.4 学会论文1.3.5 学位论文 主要是指在大学或科研院所中的硕士论文和博士论文。它们都是就某一专题进行研究的成果总结。有理论、有实践、有数据,是重要的科技信息。,1.3.6 科技报告,报告(Report),包括调研报告、考察报告、可行性报告以及各种科技报告,其中最有价值的是科技报告。科技报告:是科研人员从事专题研究取得了成果,向科研资助单位提交的总结报告或阶段性进展报告。内容新颖,数据可靠。一般不公告出版,只有本单位和资助单位保管。,1.3.7 专利文献,专利文献(patent literature)包括专利说明书、专利局公报和专利证书等,它是国家实行专利制度下的产物,是很重要的且很容易获得的科技信息资源。1.3.8 标准文献 包括技术标准、检验规程、建设规范或建造规范等,它是国家实行标准化制度的产物。,其它的还有:产品资料,档案以及政府出版物等。,3.科技文献的类型:按文献的出版形式划分:图书;报刊;会议论文;学会论文;学位论文;科技报告;专利文献;标准文献;产品资料;政府出版物;档案;电子文献。,按文献加工层次划分零次文献:未发表的手稿、书信等资料。一次文献:作者本人的研究成果。二次文献:一次文献加工成的目录、题录或文摘。三次文献:通过二次文献对一次文献进行加工整理综述,年鉴、手册和百科全书等。,按文献获取难易程度划分白色文献:能正常采购获取的文献灰色文献:不能能正常采购获取的文献黑色文献:从外部不能获取的处于保密状态不向外公开交流的文献。,科技文献信息资源保障体系,我国的三大图书馆系列1 公共图书馆系列2 高校图书馆系列3 科学图书馆系列主要有:中科院、社科院、农科院等系统内的各级图书馆,中国科技信息研究所及其各省市的科技信息研究所等。,1.4.2 中国高等教育文献保障系统1.4.3 国家科技图书中心1.4.4 中国科学院文献情报系统,1.5 文献回溯与文献跟踪,文献回溯:依靠的工具是各种学术论文(期刊论文、会议论文、学位论文等)和科技报告中所附的参考文献表。1.5.2 文献类型辨识文献类型和著录格式,参见国标(GB/T7714-2005)图书类型:作者。书名M.出版地:出版者,出版年。会议录:会议录编者。会议录书名,会址,会期C。出版地:出版者,出版年。,期刊:论文作者.论文题目J.刊名,年,卷(期):起止页码.国外文献中文后的参考文献和国内著录格式不一样(1)专著、会议录、论文汇编等图书(2)专著、会议录、论文汇编等图书的个别章节和论文(3)期刊论文,(4)学位论文(5)学会论文、科技报告、专利说明书,文献跟踪,文献跟踪和核心期刊通过各种指标评价得出的学科核心期刊,就是刊载该学科文献数量最多、水平最高且受欢迎的几种期刊。,1.3 信息资源检索原理,信息资源检索,通俗的说是查找资料。信息检索是建立在索引的基础之上,而在编制索引之前先进行信息采集并建立数据库。信息检索包括信息储存(storage)和检索(retrieval)。信息储存:包括信息采集(建立数据库)和信息标引(提取标识建立索引数据库)。检索:通过索引数据库去查找数据库中的信息。,1.3.1 数据查询的原理1.3.2 网页搜索的原理1.3.3 文献检索的工作原理采集各种文献,将文章的篇名、作者、关键词、摘要等信息,通过手工输入或计算机输入,录入到数据库主文档中中。数据库建成后,通过计算机自动分词标引软件,利用检索词建立索引数据库。检索时,自动检索系统把用户提出的检索词送到索引数据库中,与索引数据中的检索词进行对比,如有匹配的结果,就显示出所要的结果。比如题录,文摘甚至下载全文。,文献数据库,1 书目数据库:著录图书的简单信息,诸如书名、作者、出版社、出版年等字段。比如图书馆的联机公共查询目录。2 题录数据库:著录图书的简单信息,比如有篇名(标题)、作者、作者单位、文献出处(期刊名)、关键词的字段。例如上海图书馆的全国报刊索引。3 文摘数据库:著录文献的详细信息,除了与题录数据库相同的字段外,还有摘要字段。4 全文数据库 除了与文摘相同外,还增加了全文字段或指向全文字段的链接。比如中国知网,维普数据库等。,1.4 信息检索语言,检索语言就是信息检索的存贮过程中的标引语言(标引词),也是信息检索过程中的检索寓言(检索词),标引词和检索词必须一致。也就是说,检索语言就是用来描述文献特征和描述检索提问的统一语言。1.4.1 分类检索语言 分类检索语言的语言单位(文献标识和检索标识)是分类号,通过分类表加以控制,是一种受控的人工语言。信息检索系统中常用的分类表:中图法,中国标准文献分类法等。,1.4.2 主题检索语言,主题检索语言直接用反应主题概念的词语来标引文献,直观方便。主要有叙词、关键词和文中自由词等。1 叙词 叙词是最能表达文献主题概念,是通过叙词表来加以规范的人工受控词。国内常见的期刊和数据库汉语主题词表,国防科学技术词表。美国的Ei词表(Ei Theasaurus)。实例:在 Ei利用叙词索引检索电弧焊新工艺文献。初设检索词为arc welding 查Ei Theasaurus,得:Arc welding USE Electric arc welding 叙词,检索词。,2.关键词 关键词(Keywords)是能够反映文献主题概念的关键词语,它可以从文献的篇名、文摘或全文中抽取,不用词表来进行控制,所以是非受控制的、不规范的自然语言。任何期刊论文在摘要下都要标有关键词。叙词检索效率很低,叙词更新慢,所以现在广泛使用关键词进行检索。但是对于同一主题内容,不同的作者可能给出不同的关键词来表达,所以误差大。,3 文中自由词计算机在文献的题名、文摘甚至全文等字段,抽取一个或几个单词作为文献标识。由于抽取的词语是在文中自由散布,非人工标引的,故称为文中自由词。1.4.3 作者检索语言 许多检索工具都有作者(著者)姓名索引(Author Index)标引时,一般姓前,名后。原文署名:Alice Amey Smith 标引方法1 Smith,Alice Amey 标引方法2 Smith A A1.4.4 代码检索语言文献代码即文献的编号,如国际统一书号(ISBN),国际统一刊号(ISNN),数字文献标识号(DOI),专利的公开号等。,1.5 信息资源检索技术,不同的检索系统采用不同的检索技术和不同的运算符。1.5.1 全文检索技术全文检索的含义:1 对数据库的全部字段进行检索 2 对字段中的全部内容进行检索 方法是对全部字段编制索引,可利用计算机自动分词软件把全部词语分成自由词,然后建立自由词索引。,1.5.2 字段限定检索技术,对字段的限定,就是给字段加以前缀或后缀。例如 要检索有关机床设备的文章,在不同系统中可以做如下限定:在搜索引金中,表述为:intitle:机床在NSTL检索系统中,表述为tit=机床 在维普中,表述为T=机床由此可见,在不同的检索系统字段名称和字段限定符,用法不一样。,1.5.3 布尔逻辑检索技术,以上技术允许用户提出几个检索词,但要说清楚它们之间的逻辑关系。布尔逻辑关系有四种:与(并且),或(或者),非(不包含)和异。1 逻辑“与”运算逻辑“与”运算符号,可用AND 或符号“”或空格号来表示。缩小检索范围,提高查准率。,2 逻辑“或”运算运算符用“OR”或符号“+”来表示。两个检索词之间加入“或”运算符,可以扩大检索范围。3 逻辑“非”运算逻辑“非”运算符用“NOT”、“AND NOT”、“白BUT NOT”或用“-”表示。意思表示出现前者,不出现后者,缩小检索范围,提高检准率。,4 逻辑运算符“异或”运算逻辑“异或”运算符用“XOR”表示。它表示出现前者和后者,但不同时出现两者。可以缩小检索范围,提高检准率。5 多个逻辑运算 顺序“非”再“与”,最后“或”1.5.4 优先运算技术所有的检索系统都支持在检索式中使用优先运算符(半角圆括号)。当检索式中有“或”,可以使用半角圆括号括起来进行优先运算。见书本实例。,1.5.5 词间位置检索技术,又叫邻接检索或词距检索,是对逻辑“与”的改进。逻辑算符“与”虽然规定了2个检索词同时在文中出现,但是并没有限制先后位置及相互间距离,因此可能检索出与课题无关的结果。此间位置检索式国外检索系统中常用的检索技术。比如:在ScienceDirect 检索系统中使用w/n(w表示word)表示2个词相邻,词语间可以插入0-n个词,次序可以变化;pre/n表示两词相邻,词间可以插入n个词,次序不变(pre代表previous,在前之意)。比如检索式“air pre/1 bearing”可能检索出:air bearing,或air foil bearing,1.5.6 词组/短语检索技术,部分外文检索系统使用逻辑“与”运算符,因此外文词组可能拆分为两个具有逻辑关系“与”关系的检索词,出现偏差。比如“communication satellite”(通讯卫星),可能检出 communication satellite或 satellite communication 为了防止出现上面的情况,可以添加半角双引号,有的用大括号,这样就会严格按照词组或短语进行检索了。,1.5.7 裁词检索技术,该技术主要用于外文或数字形式的检索词。类似与电脑的通配符,“?”代表一个字符,“”代表多个字符词中裁断(前后一致),如“fib?glass”词尾裁断(前方一致),如“acid”,模糊/精确检索,在中文信息检索系统的界面,一般都有模糊精确检索的。1 模糊/精确检索的第一种含义实质上模糊/精确检索相当于裁词检索,相当于在检索词的前后添加了裁词算符。因此检索系统按前方一致,后方一致,前后方一致要求处理。在模糊检索匹配方式下,虽然扩大了检索范围,但同时减少精度。,为此,对于关键词、作者、第一作者、分类号这5个字段,检索系统提供了精确匹配方式。2模糊/精确检索的第二种含义 在中国知网(CNKI)检索系统中的模糊/精确检索,类似与的词组短语检索。在CNKI的模糊检索方式下,可以把检索词分为词素,因此检出的是包含检索词和词素的所有记录。实例 题名中含有“船舶下水”可能检出“船舶下水”,“船舶下水”等。这是可以使用精确检索。,1.6信息资源检索策,也就是全套的检索方案,包括文献类型、检索年代和语种、检索系统和数据库、检索字段的选择、检索词的确定、检索式的构建等1.6.1 分析检索课题检索课题,就是在开展课题研究时需要搜集、掌握和占有的信息资料。在分析课题时,需要了解的是数据检索还是文献检索。,1.6.2 选择检索系统和数据库了解课题性质以后,选择和课题相关的检索系统和数据库。数据库选择原则:content:数据库内容,涉及学科范围、科技含量、数据库类型(数值、事实、文摘、全文),数据库来源(期刊论文、会议论文、专利文献、科技报告)Coverage:数据库规模。Currence:及时更新。Cost:费用。,1.6.3 选择检索字段或叫检索入口,检索途径、检索点。比如可以选择反应文献的内部特征为检索字段,比如关键词。也可以选择反应文献的外部特征为字段,比如作者。1.6.4 确定检索词1 从检索课题中提取检索概念检索课题第一段文字表述,其中包含了若干检索概念。,1 分析法通过对检索课题的深入分析,确定课题的研究对象,需要解决的问题和研究方法、手段设备,研究依靠的理论、原理,该理论应用的领域等。2 切分法 从字面上加以切分,再除去无检索意义的词语。,2 将检索概念转换为检索词(1)从众法采用大众采用的流行术语。(2)拆分法(3)扩展法3A:同义词扩展比如:设备和装置,电脑和计算机,绿色和环保、节能等。,同义词扩展:同物异名(干冰、二氧化碳;乙醇、酒精),全称和简称,学名和俗名,意译名和音译名,异地称。3B 反义词扩展 用互为矛盾的的概念相互替换。3C 同位词扩展3的下位词扩展,3 将中文检索概念转换为外文检索概念,为了表达正确的英语概念,可以多查查词典等工具书,多度外文专业文献,或先查中文文献,然后在文摘或全文中查看作者给出的英文关键词。1.6.5 构建检索式 检索表达式或检索提问式,实质上是用运算符来连接检索词。,1.7 信息资源检索界面,检索界面就是检索系统和检索用户进行互动的窗口,可以分为简单式,表单式和专业式。1.7.1 简单式检索界面只是一个检索词输入框,只能输入单个检索词或带少量运算符的检索式。1.7.2 表单检索界面 也就是文献的高级检索方式下提供的检索界面。1.7.3 专家检索界面,1.8 检索结果分析和策略调整,试检对检索结果阅读分析在调整检索策略,最终达到又准又全。1.8.1 信息检索结果的分析1 是否切题 检索出来的文献是否切题2 是否够数 检索词表达是否错误,错别字,外语词汇是否错误等,检索词概念是否够宽,而导致检索结果是否太少或太多。3 是否够新,1.8.2 检全率与检准率1 信息检索检全率2 文献信息的检准率1.9 信息资源检索权限1.9.1 免费数据库图书馆的数目型联机公共查询目录,版权失效的过期文献数据库,公益性文献数据库。1.9.2 付费数据库由于数据库的维护,服务成本高,为了保护出版商和作者的知识产权,大部分文献要付费才能查看。,2 信息检索基础,2.1 信息检索类型概念:在有序储存的信息集合中查找所需要的信息的过程.类型:事物性检索和文献检索事物性检索:事实数据检索.手工检索时可以利用的参考工具:词典,手册,名录,百科全书等.2.1.2 文献检索是针对课题的相关文献线索,来查找原文阅读和利用.,2.2 信息检索的发展过程,2.2.1 手工检索发展过程手工检索采用的检索工具主要是定期出版的印刷本检索期刊或书目.有题录,目录,文摘,索引.比较著名的有:Ei,SCI,CA,SA,ISTP.国内著名的有科学文摘2.2.2 国外计算机检索的发展过程1.脱机检索阶段2.联机检索阶段3.国际联机检索阶段4光盘检索阶段5 互联网检索阶段,2.3 信息检索语言,2.3.1 分类法语言中国图书分类法,中国标准分类法等。2.3.2 主题法语言1 叙词参加国内外叙词表:汉语主题叙词表SA和 EI叙词表等。2 关键词反映文献主题概念的关键词语,它可以从文献的篇名、文摘或全文中找出来,是一种非受控的、不规范的自然语言。特点:关键词灵活,效率很高,而叙词表要查表核对,效率很低,而且叙词表更新很慢。3 自由词2.3.3 作者姓名处理格式,2.4 计算机检索系统,2.4.1 系统构成:硬件部分、软件部分和信息数据库。2.4.2 数据库:存储在计算机内的、有组织的和可共享的数据。2.4.3 数据库类型 按内容分,1 文献性数据库:直接提供文献线索或文献原文的数据库。文献性数据库:书目型数据库和全文数据库。2 事务型数据库:术语型数据库、事实型数据库和数值型数据库3 网页信息索引数据库4 多媒体数据库,数据库按访问方式分:免费数据库和付费数据库按使用网域分:本地数据库和远程网络数据库,检索工具,1)检索工具概念,检索工具用以存贮和检索文献线索或报道、累积和查找文献线索的工具,它是在一次文献基础上经过加工、整理、编辑形成的二次文献。根据检索方式的不同,可分为手工检索工具和机械检索工具。手工检索工具主要指各种目录、题录、文摘和索引。,检索工具的基本功能是存贮和检索文献。,2)检索工具类型,检索工具的类型概括起来可分为以下几种:,(1)目录(Catalogue),(2)题录(Citation),(3)文摘(Abstracts),(4)索引(Index),3)检索工具的结构,一般的检索工具由五部分组成:,(1)使用说明,(2)目次表,(3)正文内容,(4)辅助索引,(5)附录,文献检索方法及检索步骤,文献检索方法,常见的文献检索方法一般有以下几种:,1追溯法,2工具法,根据检索文献的时间顺序又可分为顺查法、倒查法和抽查法三种。,3综合法,计算机信息检索过程,1.分析课题需了解课题学科范围,选择合适的数据库;国内外采用的专业术语,以确定检索词;了解检索目的是研发现状(查全),具体技术问题(查准),是基础理论研究(学术期刊论文、会议论文和学位论文)还是产品开发和工艺研究。2 选择数据库 数据库的内容:学科范围、科技含量、数据库类型、数据来源。数据库的规模:时间,地理、机构、文献量。数据库的更新和费用。,3 确定检索词(1)从检索课题中提出检索概念(2)将检索概念转换成检索词从众法、拆分法、同义词扩展和下位扩展4 构建检索式(1)布尔逻辑运算符AND 或*,检索式是A AND BOR 或+,检索式是A OR BNOT 或-,检索式是A NOT B,(2)词位算符:用来规定各个检索词在文献记录中的位置关系,包括词序和词距。W 与nW 算符W的意思,在两词之间使用(W),表示算符两侧的检索词的词序不可颠倒,且紧密相连,中间不能插入其它词或字母。nW,表示在2词之间可以插入n个词,但词序不能改变。N与nN 算符 与W 与nW 算符相似,裁词算符前裁断:将裁词算符放在词干的前面。如“?Computer”中裁断:检索式 如“fib?glass”可以检出fib glass,fibreglass.后裁断:将算符?放在词干的后面。列如检索式“acid?”可以检出含有acid、acids、acidity等记录。,字段算符:字段算符是把检索词或检索式限制在指定的字段范围内进行检索,在DIALOG系统中,基本索引采用后缀限制符,辅助索引字段采用前缀限制符。基本索引字段包括:题名TI、关键词ID、叙词DE、摘要AB。辅助索引此段包括:作者AU、文献类型DT、语种LA、出版年PY.如:“acid?/TI,AB”,“AU=Wang,Shitong”,评价检索效果,1 文献信息查全率文献查全率:被查出的相关文献和检索系统中相关文献总量的百分比。2 文献查准率被查出的相关文献和和被检出的全部文献数量的百分比。,调整检索策略,1 扩展检索概念同义词转换,用新的概念转换,反义词扩展。2 扩展检索词同位词扩展,上位扩展,下位扩展3 从检索结果中扩展4 使用检索系统的检索词扩展功能,电子文献的常用格式转换,1.PDF PDF格式的文件使用Acrobat Read 阅读。2.CAJ采用CAJ Viewer 6.03 PDG需要使用 专用阅览器SSReader,在超星数字图书馆网站下载。4.IFR5.PS6.EXE,文献检索步骤,一般来说,文献检索大体上分以下几步进行:,1分析课题,制定检索方案.,2选择检索工具,3选择检索方法,4选择检索途径,(1)分类途径,(2)主题途径,(3)篇名(书刊名称)途径,(4)著者途径,(5)序号途径,5查找文献线索并获取原始文献,6原始文献缩写名称的还原问题,谢谢!,