文献信息检索基础知识ppt课件.ppt
基础知识,一、信息、知识与文献的含义信息:客观事物存在方式及其运动规律、特点的外在表现。信息属性:普遍性、客观性、中介性、无限性、传递性、时效性、依附性、共享性.,知识:人类对客观事物的存在和运动规律的认识。,一是知道是什么二是知道为什么三是知道怎样做四是知道谁有知识,1996年,世界经济合作与发展组织在以知识为基础的经济报告中,将知识分为四类:,加工升华精炼 系统组织,信息,知 识,事物存在方式、运动状态外在表现,信息经过大脑加工,信息,信息与知识关系,信息,文献:记录有知识的一切载体。,文献内容记录符号载体材料记录方式,文献构成要素,二、文献信息源类型1.按文献信息的物质载体和记录形式划分手写型文献印刷型文献缩微型文献声像型文献电子型文献,2.按文献信息的出版形式和内容划分图书 期刊 科技报告会议文献专利文献,学位论文标准文献产品资料政府出版物技术档案,3、按文献信息的加工程度划分一次文献:作者以本人的研究成果为依据二创作或撰写的文献。二次文献:将大量分散的、物组织的一次文献,依一定的方法和原则进行浓缩、整序、加工、编辑后,组织成系统的便于管理和利用的文献。三次文献:在一、二次文献的基础上进行广泛深入的研究之后,通过汇集、综合、分析等深度加工而形成的文献。,三、文献信息检索的类型 1.按文献信息检索对象划分文献信息检索数据信息检索 事实信息检索,文献信息检索 以文献信息为检索对象,从文献信息存储集合中查找出特定文献的过程。 文献信息检索是信息检索中最主要、最基本的形式。,范围某一课题、某一作者、某一地域、某一机构、某一事物的有关文献;工具二次文献(检索工具或系统);性质“相关性”检索;结果文献的线索或原文。,例:国内外转基因食品发展趋势研究 中国动物药产业发展方向方面的文献 食品安全研究有关文献,数据信息检索 以数据信息为检索对象,从数据信息存储集合中或从文献中包含的数据中查找某一数据信息的过程。,范围数据图表、公式、图谱、市场行情、物质的物理与化学特性、物质的材料成份、设备的型号与规格、参数等;工具主要三次文献(参考工具书、数据型数据库);性质“确定性”检索;结果有、无、对、错。,例如:查找:2011年吉林省玉米产量(万吨),事实信息检索 以事实信息为检索对象,从存储事实的信息集合中查出特定事实的检索过程。,范围事物的基本概念、基本情况,事物发生的时间、地点、相关的事实与过程等;工具主要三次文献(参考工具书、事实型数据库);性质“确定性”检索;结果有、无、对、错。,例:“转基因植物”的概念 吉林农业大学地址.,参考工具书字、词(辞)典百科全书手册年鉴、统计数据图谱年表人名录、地名录、机构名录,三者的关系: 文献信息检索与数据信息检索、事实信息检索三者在信息检索过程中通常是相互配合、相辅相成的,检索时常常配合使用,从而检索出最适用文献。,2.按文献信息检索方式划分手工检索计算机检索,3.按文献信息组织方式划分全文检索超文本检索超媒体检索,四、文献信息检索工具(系统)类型,目录型题录型文摘型全文型,五、文献信息检索原理,通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索工具(系统),用户将提问标识与存储在检索工具(系统)中的文献特征标识进行大小同异比较,凡是两种标识相一致,或者文献特征的标识包含着检索提问标识,则表明所检文献切题,即从检索工具(系统)中输出。,文献信息检索原理示意图,六、文献信息检索语言,文献信息检索语言的概念 从自然语言中精选出来并加以规范化的一套词汇、符号,是概括信息内容特征或外在特征及其相互关系的概念标识体系。,外表特征 题名、作者、 出版社、 号码等内容特征 分类、主题、代码等,文献信息检索语言作用 文献信息检索语言是沟通文献信息存储与检索两个过程的桥梁。在文献信息存储过程中,用它来描述文献信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。,文献信息检索语言类型,分类检索语言 按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。,中国图书馆分类法22个基本大类:A 马克思主义、列宁主义、 毛泽东思想、邓小平理论 B 哲学、宗教C 社会科学总论D 政治、法律,E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学K 历史、地理,N 自然科学总论O 数理科学和化学P 天文学、地球科学Q 生物科学R 医药、卫生S 农业科学,T 工业技术U 交通运输V 航空、航天X 环境科学、劳动保护科学Z 综合性图书,中国图书馆分类法片断,学科分类,按学科“分类检索”实例,主题检索语言 将自然语言中的名词术语经过规范化处理后作为文献信息标识的一种主题法检索语言。,主题词:以规范化的词汇来表达文献信息内容的主题,这种词汇叫主题词。 主题词根据规范性、检索时要求不同可细分单元词、标题词、叙词等。,主题,“主题检索”实例,关键词语言 关键词是指出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义的语词,对揭示和描述文献主题内容是重要的、关键性的语词。关键词选取一般由计算机自动抽取。,引文语言 引文语言根据现期期刊或少量丛书中发表的文章(称引文文献)后面所附的参考文献(即被引文献)的著者(即被引著者)的姓名组织编排文献的。 引文语言利用文献之间的引用与被引用关系,来表达文献之间的相互关系。,表达文献外部特征的检索语言 主要是指文献的篇名(题目)、作者姓名、出版者、报告号、专利号等。将不同的文献按照篇名、作者名称的字序进行排列,或者按照报告号、专利号的数序进行排列,所形成的以篇名、作者及号码的检索途径来满足用户需求的检索语言。,八、文献信息检索的基本方法1.常规法 根据文献的外部特征和内容特征,即以主题、分类、著者等为检索点,通过检索工具(系统)获取所需文献信息的一种检索方法 分为顺查法、倒查法和抽查三种。,顺查法:按着时间顺序,由远及近、从过去到现在利用检索工具(系统)逐年、逐卷地查找文献信息,直到满意为止的一种检索方法。 倒查法:又称为逆查法,与顺查法相反,按照文献信息检索要求的时间范围,由近到远、从现在到过去逆着时间的顺序利用检索工具(系统)查找文献信息的一种检索方法。 抽查法:一般是针对某学科发展特点和规律,抓住该学科发展较快、文献信息发表较多的高峰年代,抽出这段时间进行重点检索文献信息的一种方法。,2.追溯法 又称为引文法、追踪法,利用文献末尾所附参考文献和注释为线索逐一地追溯查找原始文献的方法。3.循环法 又称为综合法、交替法,它是把常用法和追溯法结合起来查找文献信息的方法。循环法既要利用检索工具(系统)进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。,九、计算机信息检索技术 计算机检索技术主要指检索词的组配技术和检索表达式的构成规则。 检索词包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。 检索表达式简称为检索式,又称为检索提问式,主要是运用各种逻辑运算符号、位置逻辑算符、截词符及其它限制符号等,把检索词连接组配起来,确定检索词之间的关系,准确表达检索课题的内容。它是一个既能反映检索课题内容、又能为计算机识别的算式,是进行计算机检索的依据。,布尔逻辑检索技术 采用布尔代数中的布尔关系运算符来表达检索词之间关系的检索方法。 布尔逻辑算符主要有:逻辑与 ( AND * )、逻辑或 (OR +)、逻辑非 (NOT -),刘亦菲照片刘亦菲写真,“逻辑或”实例,百度高级搜索用“包含”、“不包含”等词表示“逻辑与”和“逻辑非”,“布尔逻辑”应用实例,布尔逻辑算符的运算次序:NOT AND OR( )号里的部分运算优先例如: (A OR D) AND B 表示先执行“A OR D”的检索, 再与B进行AND 运算。,位置检索技术 位置检索技术就是利用一些特定的位置算符来表达检索词之间的位置关系。 注意 检索系统不同,位置算符的规定也不尽相同。,位置算符主要有:邻近位置算符W、N、nW、nN句子位置算符S(Sentence)字段位置算符F(Field).,截词检索技术 又称部分一致检索,截词检索技术就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。,按截断的位置来分,截词技术有后截断、前截断、中截断和中间截断四种类型。,后截词检索 (前方一致) 将截词符号放置在截词的后方,同截词符号前面的字符串信息相同,即为命中。 如:生产?生产,生产力,生产工具,生产方式,前截词检索(后方一致) 将截词符号放置在截词的前方,同截词符号后面的字符串信息相同,即为命中。 如:?英语考试四级英语,六级英语,研究生英语考试,中截词检索(前后一致) 将截词符号放置在截词的中间,同截词符号前后面的字符串信息相同,即为命中。 如:信息?类型一信息资源类型,信息交流类型,前后截词检索(中间一致) 将截词符号放置在截词的两侧,同截词符号中间字符串信息相同,即为命中。 如:*考试*英语考试,考试试题,计算机等级考试指南,考生考试前的心理调整等。,前方一致、完全匹配、任意匹配,“截词”应用实例,限制检索技术 又称字段检索法,指限定检索词必须在数据库记录中规定的字段范围内出现的一种检索方法。 缩小和限定检索范围,提高查准率。,数据库指长期存储在计算机内,有组织、可共享的数据集合。,数据库构成 数据库构成:字段、记录和文档三个层次。 字段(基本字段、辅助字段)记录文档(顺排文档、倒排文档)数据库,字段(Field) :字段是组成记录的数据项,是记录的基本单元。描述文献信息具体特征,如篇名、作者、主题词等。 一条记录可有若干个字段,字段决定着检索点的数量设计。 字段分为基本字段和辅助字段。,基本字段主要是描述文献内容特征的字段,如篇名、文摘、叙词、自由标引词等字段; 辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段。,字段,字段“限制检索”实例,十、文献信息检索程序分析检索要求,确定检索范围;选择检索工具(系统)和方法;选择检索途径和检索标识;调整检索策略,筛选检索结果;记录文献线索,获取原文。,十一、 信息检索效果评估 所谓检索效果,就是利用检索工具(系统)开展检索服务时产生的有效结果。,查全率与查准率查全率=检出相关文献量/文献库内相关文献总量%如:利用某个检索系统查找某课题,假设该系统文献库中共有相关文献总量为40篇,只检出30篇,那么查全率为75%。,查准率=检出相关文献量/检出文献总量%如:利用某个检索系统查找某课题文献,假设检索出文献总量为50篇,经审定只有40篇与课题有关,那么查全率为80%。 查准率也称之为相关率。,影响查全率与查准率的因素 (1)标引的影响 (2)检索语言的影响 (3)检索策略的优劣 (4)查全率与查准率的互逆相关性,