计算机信息检索基本概念及理论ppt课件.ppt
《计算机信息检索基本概念及理论ppt课件.ppt》由会员分享,可在线阅读,更多相关《计算机信息检索基本概念及理论ppt课件.ppt(65页珍藏版)》请在三一办公上搜索。
1、绪 论,学习信息检索的目的加强信息素质的培养(信息素养)信息意识:一个人对信息活动的自觉认识和反应。信息知识:了解检索的基本知识,熟悉信息源,熟悉常用数据库信息能力:掌握信息检索技巧,会利用文献源获取 信息,学会加工获得的信息、利用信息信息道德:人们在信息活动中应遵循的道德规范 和法律法规等 学会信息检索方法和技巧 “授人以鱼不如授人以渔”,信息知识是基础信息意识是动力信息能力是核心信息道德是准则,2.信息检索的意义和作用通过信息检索知识的系统学习,明确潜在信息需求,才能对特定信息具有敏感的心理反应。信息检索是创新人才必备的基本技能。信息检索是科学研究的重要环节。信息检索是开发信息资源的有效途
2、径。信息检索是科学决策的前提。,与时俱进,跟踪学术最新动态; 节省科研时间,提高工作效率; 避免重复研究; 促进科技创新。,3.信息检索发展的历史手工检索阶段西汉,刘向别录、刘歆七略梁启超西学书目表1949年,全国总书目创刊计算机检索阶段 机编文献目录阶段起源 20世纪60年代中期,美国国立图书馆利用计算机出版 了MEDLARS ( Medical Literature Analysis and Retreived System ) 数据库国际联机检索阶段 20世纪60年代末光盘检索阶段 20世纪70年代 (1983,美国人Bela Hatvany) 中国自建数据库,1992年中国科技期刊篇名
3、数据库网络信息检索阶段,第一章 信息检索概论,主要内容,1.1 信息、知识、情报与文献 1.2 检索语言与信息检索 1.3 检索工具和检索系统 1.4 检索提问式的制定 1.5 信息检索策略与技巧,1.1 信息、知识、情报与文献,一、信息 (information) 1、信息的概念与特征 古波斯人设置“喊话站” 古罗马人“悬灯” 我国远古时代“结绳记事” 殷商“烽火告警” ,古代信息活动,梦断美人沉信息,目穿长路倚楼台。唐李中碧云集 暮春怀故人欲传春信息,不怕雪埋藏。南宋陈亮梅花“惟以侦探信息为要。”康熙34年,信息的概念 信息是客观事物运动状态、时空关系、系统特征、相互关联方式等一切反映事物
4、客观属性的总称。 从人的主观认识角度看,信息是储存在人脑中的知识、思想、观念等。信息的特征 时效性、传递性、可扩散性、 可扩充性、可替代性、共享性,2、信息的类型,(1)按照信息的存储载体形态分类 印刷型、缩微型、声像型、电子型(2)按照信息发表时载体形态的特点分类 图书、期刊、会议论文、学位论文、科技报告、 专利文献、标准、政府出版物等,图书 图书是指内容比较成熟、资料比较系统、有完整定型的装帧形式的出版物。(ISBN)期刊 那些定期或不定期出版、汇集了多位著者论文的的连续出版物。(ISSN),会议文献 指国内外学术团体在专业会议上发表的论文与报告。特点:传播信息迅速、反应学科或专业的最新科
5、研成果和发展水平动向。专利文献 通常指专利发明人向专利局递交的说明自己发明创造的技术文件,包括专利说明书、专利公报、商标、设计公报等,也包括专利检索工具。特点:技术性、新颖性、独创性、实用性。科技报告 是科研院所对某课题进行研究的成果报告和研究记录,特点是理论性强、专业性强、研究内容详细深入,保密性强。政府出版物 是各国政府机构及其附属机构出版的文献信息,主要是一些会议记录、外交文件、统计数据,其他如学位论文、标准文献、企业出版的的产品技术说明,正式出版的图书都冠有ISBN(国际标准图书编号international standard book number)ISBN7-5013-1289-3
6、 定长为10位数,分为四个部分, 7:地域号(国家,地区,语言区),例如7指中国,0和1指英语国家,2指法语区,3指德语区,4指日语区等 5013:出版社代码 1289:书序码 3:计算机校验码,关于ISBN,根据国际标准ISO3297制定的连续出版物国际标准编码,连续出版物国际性的唯一代码标识。由8位数字组成。8位数字分为前后两段各4位,中间用连接号相连,格式如下:ISSN XXXX-XXXX 前7位数字为顺序号,最后一位是校验位。,关于ISSN,ISSN由设在法国巴黎的国际ISDS中心管理。1975年起建立世界性的连续出版物标准书目数据库,目前已有近200个国家和地区出版的65万种期刊(包
7、括已停刊的)登记入库,成为国际上最权威的期刊书目数据网络系统。我国于1985年建立了ISSN中国分中心(设在北京图书馆),负责中国期刊ISSN号的分配与管理,目前已有近5000种中文期刊分配了ISSN号并进入了国际ISSN数据系统。ISSN通常都印在期刊的封面或版权页上。,(3)按照信息加工程度分类零次信息 (Non-printed Sources) 灰色信息,非公开出版物的总称。如语音交流或书信、情书等。一次信息(Primary Sources) 专著、期刊论文、科技报告、会议论文、专利说明书、学位论文。二次信息 (Secondary Sources) 印刷型的书目、索引、文摘或电子型的 文
8、摘索引类数据库及全文数据库的检索软件三次信息 (Tertiary Sources) 综述、述评、进展报告、学科年度总结等,二、知识 知识是人类对客观世界的认识,是实践的总结。 三、情报 一是指“以侦察手段或其它方法获得的有关敌人的军事、政治、经济等各方面的情况,以及对这些情况进行分析研究的成果,是军事行动的重要依据之一”; 二是“泛指一切最新的情况报导”。,情报是对人的决策提供支持或是能够影响人的知识结构的信息和知识的总称,是被激活的知识和有决策价值的信息。,四、文献(literature) 文献是记录有知识和信息的一切载体。 科技文献:是记录下科学技术信息或知识的载体。文献的基本要素知识信息
9、内容 :文献的核心与灵魂。信息符号:揭示和表达知识信息的表示 符号,如文字、图形、数字、 声频视频等。载体材料:是记录知识信息符号的物质 材料,如龟甲兽骨、纸张、 胶片胶带、光盘磁盘等。,五、信息、知识、情报、文献的关系,信息是情报和知识的原材料。知识是信息的深化和系统化,二者既密切相关又有所区别。情报是信息和知识的最终产品。 文献是信息、知识的记录,是可以检 索、传播、使用的信息和知识的载体。,一、检索语言1、检索语言的概念 检索语言也称标识语言,标识系统。检索语言是信息存储和信息检索过程顺利进行的语言保障,它沟 通文献存储和检索两个过程,沟通标引人员和 检索人员双方的思路,是编制检索工具的
10、依据, 是信息存储及检索系统用以表达文献主题概念 的人工语言。,1.2 检索语言与信息检索,2、检索语言的特征 检索语言是连接情报用户、情报人员及信息资源的非常重要的一环,因此具有鲜明的特征: (1)必须具有必要的语义和语法规则; (2)必须具有表达概念的唯一性; (3)必须具有将检索标识和提问特征进行 比较和识别的方便性。,3、检索语言的分类(1)按照描述文献的特征,可分为描述文献外表特征的检索语言和描述文献内容特征的检索语言。,(2)按照标识的性质与原理划分,可分为分类语言、主题语言、 代码语言和引文语言。分类语言 即把表达文献信息内容和检索课题的大量概念按照所属学科进行分类和系统排列,成
11、为基本反映通常科学知识分类体系的逻辑系统,并用号码(分类号)来表示概念及其在系统中的位置,甚至 还表示概念与概念之间关系的检索语言。,国内:中国图书馆分类法国外:杜威十进制分类法 国际十进制分类法,中国图书馆分类法简称中图法,它是以学科内容性质为对象,按知识门类的逻辑次序从一般到具体层划分所形成的一种分类体系。1975年科学技术文献出版社出版第一版,到1999年中图法已进行四次修订。 中图法由字母和数字组成分类号,把所有文献分为5大部分,22大类:1、马克思主义、列宁主义、毛泽东思想:A2、哲学 B3、社会科学 CK4、自然科学 NX5、综合类图书 Z,中国图书馆分类法22大类,主题语言是一种
12、选自自然(规范化)的直接性的检索语言,包括两个内容:一是指表达文献内容特征的、经过规范化了的名词术语(包括词组和短语);二是指把这些名词术语按字顺排列成主体记号表或标题词表,以此作为规范化词标引和检索文献的工具。,主题语言,根据选词原则、组配方式、规范方法等,主题语言可分为标题词语言、关键词语言、单元词语言和叙词语言。,关键词语言 以关键词作为信息标识和检索依据的主题语言。关键词没有固定的词表,因为对于同一个事物的概念,不同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有经过规范化的自然语言词汇。单元词语言 以单元词作为文献标识和检索依据的语言,单元词一般都是从文献中抽选出来的,从字面
13、上不可再分割的最基本的概念单元词汇。,标题词语言 以标题词作为信息标识和检索依据的主题语言。标 题词是来自于自然语言中比较定型事物的名称,经过 规范化的处理后,能够表达主题内容的词、词组或短语。 叙词语言 以规范化科学名词为基础的一种主题法检索语言, 既适用于手工检索,又适用于计算机检索。叙词就是 指从自然语言中优选出来的、经过规范化的名词术语。,代码语言 代码语言一般只是就事物的某一方面的特征,用某种代码系统来加以标引和排列。例如,化合物的分子式索引系统、环状化合物的环系索引系统、有机化合物的威斯韦塞尔现行标注法代码系统。,引文语言 引文语言是利用文献之间的相互引证关系而建立的一种自然语言,
14、其标引词来自文献的主要著录项目。这种方法提供了从被引论文来检索引用它的全部论文的途径,从而顺着一种科学思想的发展过程线索找到有关信息。可以讲引文语言看作检索语言的一种特殊类型。,二、信息检索 1、概念 狭义信息的获取过程,相当于人们所说的信息查检等, 根据用户的特定要求查找所需信息的过程。 广义包括信息存储和信息获取两个过程。信息存储指 通过对大量无序信息的选择和收集、注录和标引,等处理,建成各种信息检索工具或信息检索系统,使之成为有序化信息集合的过程;信息获取就是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。,2、信息检索原理,3、信息检索的技术手段,手工检索manual r
15、etrieval开始于19世纪末。1876年召开的美国图书馆协会第一届大会上提出了正规的参考咨询工作概念。手工检索是通过人工自己动手去查找,去对比检索标识和书本式检索工具(各种书本式目录、索引、文摘等)中的存贮标识的相符性,即通过“人书对话”来完成检索过程。 文献的查准率较高计算机检索computer-based retrieval源于1954年美国海军兵器中心图书馆利用IBM701机 开发计算机检索系统计算机检索是通过计算机来模拟人的手工检索过程, 由计算机来处理检索者的检索提问,将输入检索系 统的检索提问(即检索标识)与系统文档(机读数据 库)中的存贮标识进行类比、匹配运算,通过“人 机对
16、话”而检索出所需要的文献。文献的查全率较高,检索实例:非线性光学材料的制备(计算机检索),检索词:非线性 光学材料 制备检索结果:可能包含“非线性光学材料制备光学元器件” 方面的文献,与本课题无关。注意:主题分析,找出与课题相关的概念和属性,以防误检和漏检。,在计算机信息检索过程中,计算机不具备人脑的思维能力,检索提问标识一经输入检索系统,便无法结合系统检索的具体情况修改标识;同时,检索提问与文献标识的组配完全是一种字面组配,即“字符串”的类比运算。这种字面上的组配,使检索出的文献记录只在字面上与检索提问标识保持一致,而在内容上或概念上就不一定符合用户的信息需求。,1.3 检索工具,1、检索工
17、具的定义 检索工具是指用以报导、存储和查找文献线索的工具,是附有检索标识的某一范围文献条目的集合,属于二次文献。2、检索工具的类型(1)按文献著录的特点划分: 目录 题录 文摘 索引(2)按收录范围划分: 综合性检索工具、专业性检索工具、单一性检索工具,目录(Bibliography,Catalogue) 一般以整本的图书、期刊等作为报道单元,描述比较简单,每一个条目的著录项有:书(刊)名、卷(期)数、作者、出版年月、出版地及书(刊)收藏情况等。主要用于查找出版物的出版或收藏单位。题录(Title) 题录是在目录的基础上发展起来的、以出版物中的“篇”作为著录单元的检索工具。题录一般不作过多加工
18、,不作内容摘要,仅列出篇名、著者、出处。题录仅描述文献的外部特征。,文摘(Abstracts) 将论文或专著的内容加以浓缩,以精练的语言把文献信息的重要内容、学术观点、数据及结构准确的摘录下来,并按一定的著录规则与排列方式编排起来,供读者查阅使用的以红检索工具。其实质就是题录加上内容摘要。索引(Index) 是对一组信息集合有系统的指引,一般只起指引特定信息内容及其存储地址的作用,是一种附属性的检索工具。常见的索引是主题索引和著者索引。,综合性检索工具:美国科学引文索引(SCI)、 美国工程索引(EI) 英国科学文摘(SA) 日本科学技术文献总报 中国全国报刊索引 专业性检索工具:中国石油文摘
19、 美国石油文摘(PA) 中国石化文摘 中国化学化工文摘 单一性检索工具:如专利、技术报告、学位论文、 会议文摘、标准,1.4 检索提问式的制定,检索词:是表达文献信息需求的基本元素,是计算机检索系 统中有关数据库进行匹配的基本单元。检索式:就是指计算机信息检索系统中用来表达检索提问的 逻辑表达式,由检索词和各种运算符及系统规定的 其它组配符构成。,构造检索式是利用检索词、逻辑运算符、位置运算符、字段限制符、截词运算符等构造表达检索目的的检索表达式。,一、检索词的确定1、检索词的类型主题词:主题词又称叙词,在标引和检索中用以表达文献主题的规范化的词或词组。通过主题词表控制,可在各种主题词典中查到
20、。自由词:属于自然语言,是论文题目、文摘、正文中出现的词。半主题词:介于两者之间。它们在主题词典中没有位置,不是规范化的。,主题词美国“政府研究报告索引”、“世界专利索引”主题词、自由词均可-美国Dialog系统、北京文献服 务处情报检索系统主题词、半主题词-英国“科学文摘”自由词-“中国专利索引”、“美国军用标准”等。,2、检索词的选择同义词和近义词的选择、上位词和下位词的选择、广义词和狭义词的选择 例如:有毒检测checkout、examination、inspection等。 颜色colour、color,例检索“核电厂防爆安全用氢分析器”检索方案一:A氢【hydrogen】 B分析器【
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机信息 检索 基本概念 理论 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1438683.html