经济信息检索与利用.ppt
经济信息检索与利用文燕平上海师范大学商学院,第二章 信息检索基础,第一节 信息检索的定义及作用 第二节 信息检索的发展过程 第三节 信息检索的类型 第四节 信息检索技术 第五节 信息检索策略 第六节 信息检索步骤,一、信息检索 信息检索:是指将信息(主要指文献信息)按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。,信息检索,存储,检索,存储:是对信息进行著录、标引、整序,编制检索工具和建立检索系统的过程。,检索:是指面向信息需求而进行高度选择性的查找过程。,第一节信息检索的定义与作用,(二)信息检索的作用1、信息检索是现代人才的基本生存技能2、信息检索是现代人才信息素质的重要方面3、信息检索是科学交流的重要途径4、信息检索是开发信息资源的工具5、信息检索是管理决策的基础6、信息检索是继承和借鉴前人成果,避免重 复研究的必由之路7、信息检索是治学之道,第一节信息检索的定义与作用,第二节信息检索的发展过程,从检索的对象:文献检索信息检索 从检索的手段:手工检索计算机检索从检索的网络:单机检索联机检索网络检索,第二节信息检索的发展过程,初始阶段文献总量很少,相应的检索工具更少,且只为少数人服务手工检索阶段出现各种用于检索各门学科各类文献的检索工具书,如等计算机检索阶段使检索的效率更高,速度更快现代信息检索技术已经可以实现更高的要求,如全文检索多媒体检索超文本和超媒体检索等,第二节信息检索的发展过程,手工操作计算机化网络化智能化认知化,(一)按检索内容划分,2、数据检索 是以数据为检索内容的信息检索,要求从检索系统存储的大量原始调查数据和其它统计数据中查出所需的数字资料。,1、书目检索 是以文献线索为检索内容的信息检索。,第三节信息检索的类型,3、事实检索 是以具体事项为检索内容的信息检索,要求从检索系统存储的各种原始信息资源中查出专门的事实材料。,4、全文检索 即检索系统存储的是整篇文章或整本图书。5、图像检索 即以图形、图像或图文信息为检索内容的信息检索。6、多媒体检索 是以文字、图像、声音等多媒体信息为检索内容的信息检索。,(二)按是否使用检索工具划分 1、直接检索 就是指利用一次文献进行检索,这是以前比较常用的一种查找方法。所花时间多和精力大,检出文献少。2、间接检索 就是指利用各种检索工具获得文献线索,再根据线索去查找原始文献线索的方法。,(三)按信息检索手段划分 1、传统信息检索 就是手工信息检索,是利用各种印刷型检索工具来查找文献的一种方法。2、现代信息检索 现代信息检索即计算机信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。,第三节信息检索的类型,主要检索系统类型联机检索(online search)脱机检索(offline search)光盘检索(CD search)网络检索(Interne/Web search)全球数字图书馆系统(digital global system),第四节 信息检索技术,2.4.1 布尔逻辑检索技术,布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法 主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT),逻辑与,逻辑乘:“and”或“*”表示组配方式:A*B或者A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。,逻辑或,又称逻辑和:“or”、“+”组配方式:A OR B或者AB,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。,逻辑非,又称逻辑差:“not”“-”组配方式:AB,表示检索出含有A词而不含有B 词的文章。作用:逻辑非用于排除不希望出现的检索词,它和“*”的作用相似,能够缩小命中文献范围,增强检索的准确性。,例如检索:“打印机驱动程序”查询关键词:打印机、驱动程序检索表达式:打印机 AND 驱动程序例如检索:“微型计算机”方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机OR 微机,布尔逻辑检索例子,布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOT AND OR例:检索“唐宋诗歌”的有关信息。关键词:唐、宋、诗歌;检索表达式:(唐 OR 宋)AND 诗歌;唐 AND 诗歌 OR 宋 AND 诗歌;错误表达式:唐 OR 宋AND诗歌;唐 AND 宋AND诗歌;唐 OR 宋OR诗歌;唐AND 宋OR诗歌;,布尔逻辑运算符优先级,请注意在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not”有的用“*、+、-”。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些网络检索工具如搜索引擎甚至用“、,、-”(即空格、逗号、减号)来表示。,2.4.2 截词检索技术,主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化。作用:主要是提高查全率截词符一般用“?”或“*”表示,截词位置,按截词位置可分为前截词、后截词、前后截词和中间截词;按截断字符数的不同,可分为有限截断和无限截断。,截词位置,右截词,又称后截词、前方一致。允许检索词尾有若干变化。例如comput*将检索出computer、computing、computerised、computerized、computerization等结果。中间截词,又称前后方一致。允许检索词中间有若干变化。例如wom*n,检索到woman、women的结果。英美的不同拼法,defen*e可同时检出defence和defense的结果。左截词,又称前截词、后方一致,允许检索词前有若干变化,例如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。?Computer可检索computer、minicomputer、microcomputer等结果。,前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如?computer?可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。,请 注 意在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?”,有的用“*”,有的用“#”,用的用“”等。即便常用的“?”和“*”在不同的数据库中其用法也是不一定相同的。在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见。我们将要使用的一些数据库,一般用“*”代表一个字符串,用“?”代表任意一个字符。,邻近检索技术,邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。例如检索“生物防治”的文献,若用检索式“biological*control”检索,则会将“抑制生物”(control biological)的文献也查出来,这显然不是所需文献。主要有相邻位置算符(W)、(nW)、(N),(nN),句子位置算符(S),字段算符(F),(L),1.(W)算符,(W)算符:(W)是with(word)的缩写,可简写为“()”,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。如biological(W)control相当于检索biological control,CD(W)ROM相当于检索CD ROM或CD-ROM。,1.(nW)算符,(nW)算符:(nW)是n words的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变。如wear(1W)material相当于检索wear materials、wear of materials等词。,2.(N)和(nN)算符,(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。(nN)表示两词间可插入最多n个词,词序可变,如检索式environment(2N)protection 就可检索出包含“environment protection”、“environment of the protection”、“environment of water protection”、“protection of forest environment”等内容的结果。information(1N)retrieval 可检出:information retrieval retriveal of information,EBSCO外文全文数据库中,ti information n2 retrieval,3.(S)、(F)、(L)算符,(1)(S)算符:(S)是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限。(2)(F)、(L)算符:在联机检索中还有对同字段进行检索的(F)算符和(L)算符。(F)表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限。用此算符时须指定所要查找的字段,如题名字段、文摘字段、叙词字段等。例如digital(F)computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息。(L)算符要求检索词同在叙词字段中出现并且具有词表规定的等级关系,因此,该算符只适用于有正式词表、且词表中的词具有从属关系的数据库或文档。邻近检索对提高检索的查准率和查准率有重要作用,但网络检索中基本上只支持(W)、(nW)和(N)、(nN)检索式。,2.4.4 字段检索技术,字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。,2.4.4 字段检索技术,字段检索分后缀方式和前缀方式。TI(题名)、AB(摘要)、DE(主题词)、ID(标识词)su(主题词)KW(关键词)AU(著者)、BN(国际标准书号)、SN(国际标准刊号)、CC(分类类目)、CS(机构)、DT(文献类型)或PT(出版物类型)、JN(刊名)或JA(刊号)、LA(语种)、PY(出版年)、SO(来源出版物)注意:不同的数据库其字段代码可能不同。,举例,在EBSCO数据库检索中,某一用户需检索有关“数字图书馆与信息检索、参考咨询”方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题为信息检索information retrieval或参考咨询reference,请编制其检索策略(检索式)。(ti:digital librar*or ab:digital librar*)and su:(reference or information n2 retrieval),检索策略:在分析检索提问实质的基础上,为实现检索目标而制定的一个合理的检索方案。广义地说,它包括信息需求分析,数据库和检索方式的选择,检索词的确定和检索提问式的拟定等过程。,第五节 检索策略,A、弄清用户的提问要求,并确定要查找的文献 学科范围、类型、文种、时间等。B、选择相关的数据库并确定在待检数据库中的 检索途径,以便制定适合所选择数据库的检索策略。C、对情报提问进行概念分析D、拟定检索逻辑式E、对数据库文档进行查找,检出相关文献并分析检索结果。F、如有必要,对提问式进行反馈、修改,重复第五步,直到用户满意为止。,第五节 检索策略,A、扩大检索范围,2、检索技巧和方法,*概念的扩大。*范围的扩大。*增加同义词、近义词、相关词和缩略词。*用“or”、”?”、叙词表*年代的扩大。*去掉连字符可扩大检索范围。*换另外的数据库或是另外的光盘继续进行检索。,B、缩小检索范围的方法,*核心概念的限定。*核心期刊的限定。*语种的限定。*用布尔逻辑算符“and”或者“not”组配检 索词。*使用位置算符“near”和字段算符“in”提 高查准率。*使用“Index”和叙词表,选择确切的检索 词缩小检索范围,2、检索技巧和方法,1查全型:开题报告,综述等2,查准型:在具体细微的专业问题方面的研究3,动态型:新技术,新理论的研究4,查新型:同类研究项目比较,第六节信息检索的步骤,步骤1分析研究课题 2 制定检索式描述检索需求3实施检索。4检索结果的输出与评价,1分析研究课题,明确以下问题:分析课题:课题的主要内容以及所涉及的知识点(术语集合、术语之间的关系)。明确需要的文献特征:即需要的文献种类、语种、年代以及文献量。明确查询的侧重点:对查新、查准、查全的指标要求。确定所需要的文献应该具备的内外部特征。,1分析研究课题,确定所需要的文献应该具备的内外部特征。内部特征所需文献的知识构成、术语构成以及术语之间的关系外部特征文献种类、年代、语种、媒体格式等等文献可能出现的网络系统的特点,第四节信息检索的步骤与方法,步骤2制定检索式描述检索需求,数据库的选择,1.数据库的类型是否满足检索需要。数据库的类型不同,决定了它适用于不同的检索对象和满足于不同的检索要求。2.数据库的学科专业范围是否与检索课题的学科专业相吻合,任何一个数据库在收录文献信息时总有一定的学科范围,应有针对性。3.数据库收录的文献类型、文献存储年限、更新周期是否符合检索需求。数据库出版商往往以某一类型文献编制数据库,如专利、会议录等。4.数据库描述文献的质量,包括对原文的表达程度、标引深度、专指度如何,是否按标准化著录等。5.数据库提供的检索入口是否与检索课题的已知线索相对应等6.对所需文献信息在国别和语种加以选择限定。,选择检索方式,许多数据库提供多种检索方式,如中国期刊全文数据库提供了初级检索、高级检索、专业检索和分类检索等途径,搜索引擎如Alta Vista提供简单检索与复杂检索界面。初级检索或简单检索易学易用、简单明确、界面友好,适用于一般用户,但是其操作步骤多,而且检索速度、查准率和查全率都低于命令检索。而高级检索或复杂检索可以综合应用各种检索运算符或操作命令精确地表达检索需求,灵活地进行各种检索方案的检索,较为简捷、快速地得到较为理想的检索效果,但是需要用户熟悉各种系统的检索操作符,适合于有经验的检索人员。,检索项的确定,检索项是用户根据自己课题涉及的专业内容所提出的能够全面确切表达主题概念的检索词。因此,检索词选择得当与否,直接影响其检索效果。检索词一般可分为4类:第一类是表示主题概念的检索词-主题词,包括标题词、单元词、叙词、关键词。第二类是表示学科分类的检索词,如分类号。第三类是表示作者的检索词,如作者姓名、机构名称等。第四类是表示特殊意义的检索词,如专利号、国际标准书号、分子式等,选取主题词的基本方法:,1.分析主题,找出课题所包含的显性概念和隐含概念2.找出核心概念,排除无关概念和重复概念3.从待检数据库和检索工具的词表中选取规范化的词或词组 4.选用上位词、近义词或下位词作为检索词 5.选用自由词作检索词,检索式的构造,检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式。在编制检索提问式时,准确、合理地运用位置逻辑算符、截词符、字段符等技术是编制检索式的基本要求。1.合理的检索提问式应达到以下两个基本要求:(1)能充分而准确地反映信息需求的内容。(2)能适应所查数据库的索引体系、用词和匹配规则,即与数据库中的信息标识相匹配。,编制检索提问式时须注意的问题:,在构造检索提问式时,要弄清所使用的数据库的检索功能和所采用的操作算符。检索词之间用“逻辑或”连接,可扩大检索式概念的外延,有利于提高检全率。为提高检索速度,在使用布尔算符时,应把估计出现频率低的词放在“AND”的左边,把频率高的词放在“OR”的左边,同时使用“AND”和“OR”时,应把“OR”放在“AND”的左边。综合利用各种算符,提高检索效率,应避免可能产生多种逻辑判断的组配。可利用逻辑非“NOT”剔除不符合要求的信息,限制与用户提问不相关信息的检出。检索提问式要精炼明了。,检索练习,中国企业如何应对倾销诉讼2010年上海世博会对上海汽车租赁业的影响如何改善我国社会保障体制如何提高不发达地区农村金融服务和金融需求水平大学生就业难的劳动经济学原因探讨,