计算机信息检索技术.ppt
8/25/2023,计算机信息检索技术,武汉大学图书馆 理科学科馆员 欧懿,8/25/2023,计算机信息检索技术检索策略的制定与检索实施步骤检索结果的评价与检索策略的调整,本章主要内容,8/25/2023,在进行计算机检索时,有时有一些比较复杂的课题,如:“计算机信息检索”,既涉及计算机,又涉及信息检索,这时候就要编制出满足要求的计算机检索式,它是机检的基础。布尔逻辑检索 截词检索 位置检索 词组检索 字段限定检索,一.计算机信息检索技术,计算机信息检索技术,8/25/2023,运用布尔逻辑算符(Boolean operators)对检索词进行逻辑组配,表达两个概念之间的逻辑关系。布尔逻辑算符主要有:AND OR NOT 在中文数据库里,布尔逻辑运算符有时用AND、OR、NOT表示,有时用“*”、“”及”“。,1.布尔逻辑检索,计算机信息检索技术,8/25/2023,表示概念的相交、限定,缩小检索范围,提高检准率。用运算符号:AND 或*连接检索词 A B A AND B,逻辑与(逻辑乘),计算机信息检索技术,8/25/2023,A=汽车发动机,B=飞机发动机,汽车与飞机发动机,A,B,A and B 逻辑“与”运算,计算机信息检索技术,8/25/2023,人类活动对群落多样性的影响检索概念:人类活动群落多样性影响检索式 人类活动AND 群落多样性 人类活动AND 群落多样性AND 影响,计算机信息检索技术,8/25/2023,人类活动 and 群落多样性,计算机信息检索技术,8/25/2023,表示概念的平行、并列,用于扩大检索范围,提高查全率用运算符“OR”或“+”连接两检索词 A B A OR B,逻辑或(逻辑乘),计算机信息检索技术,8/25/2023,逻辑或(OR 或+)乙肝病毒的研究检索词:乙肝 乙型肝炎 HBV Hepatitis B virus 检索式:乙肝OR 乙型肝炎OR HBV Hepatitis B virus OR HBV,计算机信息检索技术,8/25/2023,计算机信息检索技术,8/25/2023,去掉一个主题中某一部分的主题,用于缩小检索范围,提高查准率;用运算符号“NOT”或“-”连接两检索词 例1 查“玉米但不是甜玉米”方面的文献。检索式=玉米-甜玉米 例2 查“国外有关数字图书馆方面”的文献 检索式=数字图书馆-国内,逻辑非,计算机信息检索技术,8/25/2023,运算顺序:NOTANDOR 可通过()来改变运算的优先顺序例:乙肝病毒受体的筛选 检索词:HBV、Hepatitis B virus、receptor、screen 检索式:(HBV OR Hepatitis B virus)AND receptor AND screen,AND、OR、NOT的综合应用,计算机信息检索技术,8/25/2023,计算机信息检索技术,8/25/2023,在实际检索中,常遇到词干相同、词义相近的检索词,或同一词的单、复数形式,动、名词形式,英美拼法等。所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用“?”、“*”符号表示。用截词符号“?”、“*”或“$”加在检索词的前后或中间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范围,提高查全率。截词运算符号通常有两个:“?、*”。其在不同系统中表示的含义不同。,2.截词检索,计算机信息检索技术,8/25/2023,按截断的位置分:后截断 前截断 中间截断按截词的字符数量分:有限截词 无限截词,计算机信息检索技术,8/25/2023,在检索词后(右方)截断有限或无限的字母。如:librar*library、librarian、libraries 主要用于词的单复数检索、词根检索(socio*)、年代检索(199*),后截断,计算机信息检索技术,8/25/2023,将截词符号放在检索字符串的左方,以表示其左边不管截去有限或无限个字符,只要数据库中具有与截词符后面部分字符相同的检索词的文献,即为命中文献。这种方式也称为后方一致。如:*chemistry microchemistry、macrochemistry 目前使用较少,前截断,计算机信息检索技术,8/25/2023,又称作“通用字符法”或“内嵌字符截断”。在检索词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。如:输入wom?n可检出woman,women 输入defen?e可检出defence、defense,中间截断,计算机信息检索技术,8/25/2023,即在检索词后截去有限的字母,如名词的单复数,动词的词尾变化等。例如:输入computer?表示有0-2个字母变化,可检出 computer和computers.输入stud?表示截断处有0-3个字母变化,可检出 study,studies,studied。,有限截词,计算机信息检索技术,8/25/2023,不限制被截断的字符数量。在检索词后加一个“*“,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。例如:educat*可检出educator,educators,educated,educating,education 如:输入computer?表示可检出computer和computers.如:输入stud?表示可检出study,studies,studied,studing.,无限截词,计算机信息检索技术,8/25/2023,功能:两词出现在同一自然句中,其词序与词量不受限制(SCI中专用)表达式:Education SAME school 检索结果:Education 和school两词出现在同一句子中即可。特别注意事项:不是所有的检索系统都支持位置算符,不同的检索系统对位置算符有不同的表示符,同一位置算符在不同检索系统中指代的含义可能也不尽相同。,3.位置算符SAME,计算机信息检索技术,8/25/2023,将一个词组或短语用双引号“”括起作为一个独立运算单元,进行严格匹配,以提高检索准确度。如:“Global Positioning System”,只检索出规定字段中包含完整词组的记录。,4.词组检索,计算机信息检索技术,8/25/2023,不加“”,命中13815条,计算机信息检索技术,8/25/2023,加“”,命中8125条,计算机信息检索技术,8/25/2023,组成数据库的最小单位是记录,一条完整记录的每个著录事项为字段。在许多检索检索系统中,为了提高查全率或者查准率,需要将检索过程限制在特定的字段中,即字段检索。,5.字段检索,计算机信息检索技术,8/25/2023,计算机信息检索技术,8/25/2023,8/25/2023,计算机信息检索技术,8/25/2023,检索示例:有关“企业知识产权研究”,检索式 检索结果(*表示AND,+表示OR,限定篇名字段)(2004-2006)1 企业知识产权 191篇(准确度最高漏检大)2 企业*知识产权 404(漏检率较高)3(企业+集团+公司)*知识产权 466(适合综述性文献)4(企业+集团+公司)*(知识产权+专利权 520(查全率查准率较高)+商标权+著作权+名称权)5(企业+集团+公司)*(知识产权+专利权 137(缩小范围效果最佳)+商标权+著作权+名称权)*保护,8/25/2023,检索结果表明:检索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的选择等变化,对检索结果数量的多少、检索的查全和查准有很大影响,8/25/2023,分析检索主题,明确检索要求 确定学科范畴,选择数据库(注意数据库所收录文献的学科、文献类型、回溯年代、语种、更新频率等)选择检索字段(您所输入的检索词出现的位置,如:篇名、作者、摘要、作者单位等)限定检索条件(如年代、学科、文献类型、语种等)正确应用各种算符 根据检索结果对上面的检索步骤进行调整,二.计算机检索程序与步骤,计算机检索程序与步骤,8/25/2023,分析检索主题的中心内容和所属学科范围,以便准确选择反映文献内容特征的主题词、关键词和学科范畴。明确检索需求要求,即弄清检索目的及要解决的问题。检索目的和要求是多种多样的,是撰写学位论文,还是申报科研课题,是技术革新还是成果鉴定,目的不同,检索的策略和范围也不同。检索需求要求?主要反映在用户对命中文献的类型、语种及所需文献的年代等方面的要求。,1.分析检索主题,明确检索要求,计算机检索程序与步骤,8/25/2023,在分析检索课题,明确检索要求的基础上,综合考虑检索系统的特点、收录的学科范围、各数据库的专业范围、主题内容、数据来源与文献类型、标引的深度及准确度、技术含量、数据的存贮年限、更新频率、检索速度、界面的友好程度以及检索费用、使用方法等因素。在同时有几个数据库可供检索的情况下,应首先选择比较熟悉的数据库。当用户要求检索的文献量比较大时,可首先用浏览的方式,按主题或学科专业的方式查找。,2.确定学科范畴,选择数据库,计算机检索程序与步骤,8/25/2023,检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。正确的主题分析是制定检索策略的保证,它决定了检索策略的质量和检索效果的好坏。因此,务必要在分析课题的主题概念中掌握课题的内容实质,概括出能最恰当地代表主题概念的检索词。在选择检索词时应考虑将课题内容分解或综合成某些概念,提炼核心概念,发掘隐含概念,排除非核心与宽泛概念,力求检索词能反映用户信息需求和检索主题内容。,3.确定检索词,编制检索式,计算机检索程序与步骤,8/25/2023,先选用主题词选用常用的专业术语避免选用高频词或低频词选用同义词、多义词与相关词,确定检索词时的注意事项,计算机检索程序与步骤,8/25/2023,当所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词,从而可获得最佳的检索效果。例:自由词:Computer vision Machine vision 主题词(叙词):Vision systems 如:海绵自由词表述:海绵规范化主题词表述:聚氨酯泡沫塑料,优先选用规范化主题词和专业术语,兼顾自由词,计算机检索程序与步骤,8/25/2023,在数据库没有专用的词表或词表中没有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索词。,选用常用的专业术语,计算机检索程序与步骤,8/25/2023,检索时避免使用频率较低或专指性太高的词,一般不选用动词和形容词;不使用禁用词;尽量用或不用不能表达课题实质的高频词,如“分析”、“研究”、“应用”、“方法”、“发展”、“设计”等词。必须用时,应与能表达主要检索特征的词一起组配,或增加一些限制条件再用。,避免使用低频词或高频词,计算机检索程序与步骤,8/25/2023,同一概念的几种表达方式,如化学分析有chemical analysis,analytical chemistry,chemical determination,composition measurement等。同一名词的单复数、动词、动名词、过去分词形式等,如生产有product,production,producing,produce,productive等,词根相同时,可用截词符解决。考虑上位概念词与下位概念词,如水果榨汁,不仅要选fruit,也应选各种水果,如pear、orange、plum、peach、apple、pineapple等,反之,如某一种水果保鲜则应参考水果保鲜。全称和简称在检索时也要考虑选用。WTO(World Trade Organization)植物和动物名,其英文和拉丁名均要选用注意外来词的译写变化,选择同义词或近义词、相关词,8/25/2023,(您所输入的检索词出现的位置,如:篇名、作者、摘要、作者单位等)利用各种算符构造检索式,然后选择检索入口即字段,如:题名、著者、主题词、文摘、全文等。,4.选择检索字段,计算机检索程序与步骤,8/25/2023,不同的检索系统所提供的检索技术也有所不同,比如默认字、词检索、位置算符、截词算符、引号、限定条件等不同的表示方法。因此上机检索之前必须对要实施检索的数据库的结构、检索方式以及检索技术有一定的认识,使已制定的检索策略与检索系统提供的检索方式相匹配,保证检索策略能够顺利、正确的实施。,5.利用检索系统特定的指令正确实施检索,计算机检索程序与步骤,8/25/2023,在得到检索结果后,可能会出现一下三种让人不太满意的情况:.检索结果太少,漏掉了相关文献.检索结果太多,很多文献不相关.检索结果并非我们要的内容,6.通过人机对话的方式不断调整、修改检索策略,计算机检索程序与步骤,8/25/2023,检查检索词拼法是否正确。放宽检索要求,提高检全率 去掉某个方面的检索要求;放宽检索范围:学科领域、时间、文章类型等不作限制;将题名、关键词字段改为摘要,甚至全文字段;更全面地考虑检索主题,增加选用上位词、同义词、近义词及缩写形式;如:HIV OR Human immunodeficiency virus*采用截词检索法,可以检索到大多数单词单数、复数和所有格,不规则单词除外;如:cit*可以检索出city,cities,citys,cities 减少用“AND”或“NOT”算符联结的概念;增加用“OR”联结检索词;,检索结果太少,是否漏掉了相关文献?,8/25/2023,进一步限定检索,提高检准率 更加准确地描述检索需求;严格限定检索范围:学科领域、时间、文章类型,关键词出现的字段等;选择与检索主题密切相关的词和专业术语,如:kidney disease OR renal failure,避免使用过于宽泛的词汇,如:influence;使用词组检索或位置检索;在检索结果的基础上进行二次检索;增加用“AND”联结的概念;利用逻辑“非”进行限制;充分利用下位类检索词;使用词组检索或位置检索,检索结果太多,是否很多文献不相关?,8/25/2023,不同的检索系统所提供的检索技术也有所不同,比如默认字、词检索、位置算符、截词算符、引号、限定条件等不同的表示方法。因此上机检索之前必须对要实施检索的数据库的结构、检索方式以及检索技术有一定的认识,使已制定的检索策略与检索系统提供的检索方式相匹配,保证检索策略能够顺利、正确的实施。,5.利用检索系统特定的指令正确实施检索,计算机检索程序与步骤,8/25/2023,利用ELSEVIER数据库查找药物上瘾治疗的最新进展的相关文章,实例,8/25/2023,实例,课题分析又称药物成瘾(addiction):是滥用药物的后果,指习惯于摄入某种药物而产生的一种依赖状态,撤去药物后可引起一些特殊的症状即戒断症状。又称药物依赖性(drug dependence)。它分为精神依赖和躯体依赖两种。确定学科范畴课程可能涉及:医学、药学、心理学。确定检索词和检索式 药物上瘾药物成瘾药物依赖性治疗therapy(药物上瘾药物成瘾药物依赖性)AND 治疗(drug addic*OR drug depend*)AND therapy,8/25/2023,实例,选择要检索的中外文数据库 维普中文期刊数据库、万方数据库、以及中国知网、中国生物医学文献库等 PUBMEDMEDLINE、CSA、Proquest、EBSCO、ISI web of science、ScienceDirect OnSite、SpringerLINK 初步限定检索条件 检索年限:2004 检索字段:题名、关键词、摘要,8/25/2023,实例,8/25/2023,实例,8/25/2023,实例,去掉时间限定和学科限定;放宽检索范围;同义词及缩写形式;使用截词符;,时间放宽到1997年以来不限定学科领域检索词可以出现在文章任何字段增加drug addiction的同义词:drug dependence;therapy的同义词:treatment 使用截词检索:如addict!可以检索出addict,addiction,addicting,8/25/2023,1)请举出三种以上常用中(外)文数据库使用的检索字段。2)如果要查找某一个精确的词组或短语,需要用到哪种符号?3)请提供维普、中国知网、万方数据库中逻辑“与”算符的表达方式。4)在国内外数据库的检索技术中,截词算符一般有哪几种?5)以“城市生活污染”为研究课题,请分析该课题的主题概念,选择相关的同义词、近义词,并写出基本的计算机逻辑检索式。,8/25/2023,谢谢!,