计算机检索基础.ppt
,计算机检索技术与信息检索步骤,查找“非印本资源建设的图书馆资源建设”方面的文献,第一节计算机信息检索技术,一、计算机信息检索概述1.计算机信息检索定义 计算机信息检索就是用户利用计算机设备和通讯网络,与计算机信息检索系统相连接,使用系统特定的指令、检索词和检索策略,从储存了大量记录的数据库中检索出所需信息的过程。,2.计算机信息检索系统的构成,(1)硬件部分:主要包括具有一定性能的主计算机、外围设备(包括外部存储器、输入输出设备等)以及与数据处理或数据传递有关的其他设备。(2)软件部分:包括系统软件和应用软件。(3)数据库部分 参考数据库:指引用户到另一个信息源获取信息的数据库 a.书目数据库,b.指南数据库 源数据库:直接提供用户所需的原始资料或数据的数据库。a.数值数据库;b.文本-数值数据库;c.全文数据库;d.术语数据;e.图像数据库 混合型数据库:是同时兼有参考数据库和源数据库特点的一类数据库。如多媒体信息的数据库,3、计算机信息检索类型,根据检索系统的工作方式的不同计算机信息检索可分为:联机检索:国际联机检索就是用户使用终端设备,通过通信线路,运用一些特定的检索指令和检索策略从存储了大量信息的国际联机检索中心迅速而准确地获取数字文献信息资源,并将检索过程与结果下载、显示和打印出来的过程。光盘检索:光盘是一种用激光记录和读取信息的盘片,具有容量大、保存时间长、成本低等优点。光盘检索系统中目前使用最为成熟的是只读光盘(CDROM),检索软件及数据存储在盘片上,利用计算机和光盘驱动器进行检索。,网络检索:Internet是网络通过互联而形成的全球网。它已延伸到地球上几乎每个国家。Internet信息资源囊括了电子报刊、电子新闻、电子报告、电子论坛、会议资料、各种软件资料、图像文件、声音文件和电子游戏等。Internet是目前世界上资料最多、门类最全、规模最大的信息库,是人们获取信息的重要来源。,二、计算机检索技术,检索技术是指从结构化信息(数据库)和非结构化信息(文本)中获取满足检索要求的信息的技术与方法。目前常用的计算机检索技术有布尔逻辑检索、位置检索、截词检索、字段限制检索。,1、布尔逻辑检索,布尔逻辑检索是通过三个布尔逻辑运算符:逻辑与、逻辑或、逻辑非把词与词之间的关系给连起来。逻辑与:*AND逻辑或:OR逻辑非:NOT,1)逻辑与,A、B两个检索项必须在一篇文献的记录中同时存在,才是命中记录。检索式:A*B或A AND B如查找“图书馆信息服务”方面的文章布尔逻辑检索式:图书馆*信息服务 图书馆 AND 信息服务逻辑与是具有概念交叉关系的一种组配,增强了检索的专指性,缩小了检索范围,提高了检准率,检索结果必须含有所有用“AND”连接起来的检索词。,2)逻辑或,A、B两个检索项在一篇文献的记录中或单独存在或同时存在。A+B或A OR B如要检索“借阅服务或读者导读”方面的文献 检索提问式:借阅服务读者导读 借阅服务 OR 读者导读例:www+internet+network逻辑或 是具有概念并列关系的一种组配,相当于增加了检索词的同义词与近义词,扩大了检索范围,提高了查全率,检索结果必须至少含有一个用“OR”连接起来的检索词。,3)逻辑非,A-B或A NOT B表示一篇文献的记录中含A而不含B。逻辑非 是具有概念排除关系的一种组配,缩小了检索范围,提高了查准率,检索结果只含有“NOT”前面的提问词文献,而不能含“NOT”后面的提问词。例 EnergyNuclear除核能以外的有关能源方面的文献才被命中。如查找“非印本资源建设的图书馆资源建设”方面的文献。检索提问式:图书馆*资源建设印本资源,逻辑组配检索尽管不同数据库中所用的运算符存在差异,但所执行的操作却相同。逻辑与运算中有“与”、“AND”、“&”、“空格等符号。逻辑或运算中,有“或”、“+”、“OR”、“”等符号。逻辑非运算中有“非”、“NOT”、“!”、“-”等。,布尔逻辑检索举例,国外船舶螺旋桨的计算机辅助设计与制造船舶A螺旋桨B计算机辅助设计CCADD计算机辅助制造ECAMF中国G,此课题的布尔逻辑检索式为:(A*B*(C+D+E+F)-G,返回,布尔算符中的逻辑“与”只要求两个检索词必须同时出现在同一篇文献中,而没有限定算符两侧检索词之间的位置关系,有时难免造成误检。例如,查找“知识管理”方面的文献 检索词:知识 管理 检索式:知识*管理检索结果:命中同时用这两个词标引的文献 有“知识管理”方面的文献,也会有“管理知识”方面的文献。如果要排除后一部分的文献,就需用位置算符限定词与词之间的位置关系。,(W)或()算符:“With”的缩写词序不许颠倒两词之间不许插词,只许空格或连字符号例 CD(W)ROM 将命中 CD ROM 或 CD-ROM solar()energy 检出 solar energy,2.位置算符,位置算符,(nW)算符:“n words”的缩写(nW)是从(W)算符引伸出来检索词之间允许插入0n个词词序不许颠倒例 anticorrosion(1W)paint 可检出 anticorrosion paint 和 anticorrosion of paint例 检索“材料磨损”(WEAR OF MATERIALS)方面的文献,检索式:WEAR(1W)MATERIALS,位置算符,(N)算符:“Near”的缩写词序可以颠倒两词之间不许插词例 cross(N)section 可检出 cross section 和 section cross,位置算符,(nN)算符:(nN)是从(N)算符引伸出来检索词之间允许插入0n个词词序可以颠倒,位置算符,(F)算符:“Field”的缩写算符两侧的检索词必须在同一字段内词序及两词间插入的词数不限例 digital(F)computer/TI,AB,位置算符,(S)算符:“Sentence”和“Sub-field”的缩写算符两侧的检索词必须在同子字段或自然句词序及两词间插入的词数不限例:POLLUTION(S)CONTROL/AB:表示同在文摘中的某一个句子中,3.截词检索,后截断前截断中截断,Physic*Physical,physicalism,physician,physicist*magneticMagnetic,electro-magnetic,paramagneticWom*nWoman,women,返回,非限制性截词:“?”加在词干或不完整的词上,对词的完整意义进行检索。computer?代表 Computer,computers,computerized等限制性截词:analy?er 命中记录中将出现analyzer 和analyser;work?命中记录中将出现,work,works,worker,workers,working,截词检索,4.字段限制检索,基本索引字段题名字段(TI)文摘字段(AB)叙词字段(DE)自由词字段(ID)辅助索引字段著者字段(AU)语种字段(LA)出版年字段(PY),SIGMA(W)DELTA(W)MODULATOR/TI WIDE(W)BAND/AB DELTA MODULATION/DENTISGPN/ID AU=FISCHER,G.LA=ENGLISH PY=1997,返回,第二节 信息检索步骤,现代信息检索的一般步骤为:分析检索课题;选择检索系统和数据库;确定检索词;构建检索表达式;实施检索并调整检索策略;输出检索结果。,返回,制定检索策略所谓检索策略就是为了实现检索目标而制定的全盘计划和方案,包括分析信息检索步骤中的信息需求的主题内容分析、选择检索系统和数据库、选择检索词、编制检索提问式等。,一.分析研究课题,1、分析主题内容 所谓课题的主题内容,就是课题研究的中心问题。拟出所有关键词:根据课题的内容,深入分析主题内容的目的,是要找出研究课题需要解决的关键,从而形成反映课题中心问题的概念,即拟出关键词。一定要深入分析.如查“表壳镀金工艺”课题.,字面分析:金(A u)的电镀深入分析后:课题中的“金”为氮化钛 镀金工艺是一种着色工艺 实际课题研究的是:氮化钛的沉积工艺(氮化钛的着色工艺),例如:要拟出“大舱口船舶强度的研究”研究课题的关键词。,经分析研究可知:扭转强度船舶强度 横向强度 纵向强度扭转强度是大舱口船舶强度要解决的主要问题,因此拟出第一个关键词:扭转强度。大舱口船舶的船体可以简化成薄壁箱型梁,拟出第二个关键词:薄壁箱型梁。,对课题进行主题概念的分析,并用一定的概念词来表达这些主题内容,同时还要明确概念与概念之间的逻辑关系把主题归到相应学科,按照选定的主题范围,明确该主题在学科体系中属于什么门类,以及与什么知识门类有关(即属于多学科或交叉学科),以便确定检索的学科范围。,课题:遥感技术在土地利用与规划中的应用,学科范围:本课题的学科分类主要属于“地球科学”,跨多科学,根据中图书馆图书分类法的类目设置,涉及“遥感(测绘遥感)”及其分类号P237,土地规划学及其分类号F301.2、自动化技术/计算机技术类及其分类号TP7(遥感技术)主题词:土地利用(land use)、遥感技术RS(Remote Sensing)、规划(planning),2.分析文献类型,每种检索工具收入的文献类型有所侧重,分析文献类型便于了解研究课题所需要的文献类型,以便选择检索工具。分析文献类型,一般根据研究课题的性质和类型来考虑。基础研究科学研究 应用研究 发展研究,3.分析查找年代,分析查找年代就是分析出学科发展的历史背景,以便确定查找的时间范围。例如:W W W(World Wide Web或3W)是Internet网络信息服务工具。最初是由瑞士的欧洲粒子物理实验室1989年开发的分散式超媒体信息系统,直到1993年、1994年开始正式实用,所以要查找3W方面的文献用1989年以前的检索工具就查不到。,4.分析已知情报,科研人员对已掌握的有关情报,如该研究领域著名专家的姓名,该课题的主题词分类号等综合分析运用,相互补充通过相关的途径可准确、方便的获得所需要的文献。,二、选择检索系统和数据库,正确选择数据库,是保证检索成功的基础。选择数据库时必须从以下几个方面考虑:(1)学科范围 任何一个数据库在收录信息时总有一定的学科范围,选择时应有针对性。(2)文献范围 数据库收录的文献类型(如学术论文、学位论文、专著、专利、会议录等)、数量、时间范围以及更新周期。(3)检索功能 数据库所提供的检索方法、检索途径、结果输出方式等。(4)国别或语种范围 对所需文献信息在国别和语种加以选择限定。,三、确定检索词,检索词是表达信息需求或检索课题内容的基本元素,也是数字信息检索系统中有关数据进行匹配运算的基本单元。检索词应满足:形式匹配和内容匹配两方面的要求。a.内容匹配要求,即由主题概念转化而成的检索词 应能准确、完整地表达检索课题的内容,这是由信息需求决定的。b.形式匹配要求检索时使用的语言和检索系统中使用的语言一致,这样检索词才能被系统“认识”。,检索词主要有语词性检索词和非语词性检索词两种形式.语词性检索词主要包括:主题词即单元词、关键词、标题词、叙词和自由词等。非语词性检索词包括:分类号、专利号、年代号、登记号、期刊代号、书号、语种代号等等。,四、编写检索提问式,编写检索提问式是指将选择出的检索词,用布尔逻辑算符以及截词算符、位置算符、字段符等,按检索需要进行合理组配,形成表达信息需求的具体的检索提问式。合理的检索提问式应达到两个基本要求:一是能充分而准确地反映信息需求的内容。二是能适应所查数据库的索引体系、用词和匹配规则,即与数据库中的信息标识相匹配。,编制检索提问式时须注意:对于同类或并列概念的词,用“逻辑或”进行组配,特别是采用自由词检索时,要尽量选全同义词、近义词等进行逻辑“或”组配;对于有交叉关系的概念,用逻辑“与”进行组配,但应注意去掉与课题无关的概念组配,以防限制过严而漏检。,应考虑哪些词利用截词算符,哪些地方要用位置算符,是否需用字段算符加以限制。综合利用各种算符,可提高检索效率,使检索结果更为理想。应避免可能产生多种逻辑判断的组配。组配的结果只能表示一种含义。,五、实施检索并调整检索策略,构造完检索表达式后,就可以上机检索了。在检索过程中,应及时分析检索结果是否与检索要求一致,不一致时要对检索词和检索提问式作相应的修改和调整,调整检索策略,直至得到比较满意的结果,如:悬链式链斗卸船机,1检索结果信息量过多时检索策略的调整,产生检索结果信息量过多的原因可能有以下两点:一是主题词本身的多义性;二是对所选的检索词的截词截得太短。在这种情况下,就要考虑缩小检索范围,提高检索结果的查准率。减少同义词与同族相关词或减少一些相关性不强的检索词;增加限制概念,采用逻辑“与”连接检索词或进行二次检索;使用字段限定,将检索词限定在某个或某些字段范围内;使用逻辑“非”算符,排除无关概念;调整位置算符,由松变严;改模糊检索为精确检索。,2检索结果信息量过少时检索策略的调整,对检索结果信息量较少的结果,可进行扩检,提高查全率。造成检索结果信息量少的原因有以下几点:一是主题词选用的不正确,如使用不规范的主题词、产品的俗称等;二是同义词、相关词、近义词没有运用全;三是逻辑与运算符用的过多。四是检索时各种限定过多过严。这是应该考虑扩大检索范围,提高检索查全率。选全同义词与相关词并用逻辑“或”将它们连接起来,增加网络度;减少逻辑“与”的运算,放弃一些次要的或者太专指的概念;取消或放宽一些检索限定,如年限、学科、文种等;使用截词检索;扩大或修改检索字段限定的范围,如改题名为文摘或全文等;调整位置算符,由严变松;改精确检索为模糊检索。,六、输出检索结果,通过检索获得满意的结果后,确认有一定的参考价值,需要信息的全文时,可根据检索系统提供的检索结果输出方式,通过打印或者存盘等方式得到原始文献。,索取原文的方法,利用我馆馆藏;利用我馆的数字资源上的电子期刊、全文数据库;通过搜索引擎在网上收索(如谷歌学术搜索)利用全国高校文献信息保障系统(CALIS)的联合书目数据库;根据作者E-mail地址,向作者索要。通过文献传递。,