文献信息检索基础知识理论部分讲义.doc
《文献信息检索基础知识理论部分讲义.doc》由会员分享,可在线阅读,更多相关《文献信息检索基础知识理论部分讲义.doc(20页珍藏版)》请在三一办公上搜索。
1、文献信息检索基础知识一基本概念1文献:定义:文献是记录有知识或信息的一切载体。具体地说文献是以文字、符号、图形、声频、视频等手段将信息、知识记录在各种载体上所形成的物质实体。即记录有信息、知识的纸张、胶片、磁带、磁盘、光盘及一些网络资源都可以称之为文献。文献的主要功能是存储信息、传递信息。文献的特征:包括文献的内容特征和文献的外表特征两个方面。2信息:定义:信息是事物运动的状态与方式的反映。简言之,信息就是事物发出的消息。人与人间传递信息可通过:肢体语言、口头语言、书面语言等。信息的特征:普遍性;时效性;客观性;可加工性;共享性;可变换性;传递性;可转化性3知识:关于知识的定义亦有种种,西方2
2、0世纪60年代以来一直流行的说法是经济合作与发展组织(OECD)在以知识为基础的经济专题报告中所提的知识定义:“4个W”: Know what (知道是什么) 关于事实方面的知识。 Know why(知道为什么) 关于自然原理和规律方面的知识。 Know how(知道怎么做) 关于技能或能力方面的知识。 Know who(知道谁有知识) 关于到哪里寻求知识的知识。定义:知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识和经验的总和。这是广义的知识概念。知识具有主观性、抽象性、客观性的特点。二文献的基本类型与特征对文献类型的划分,由于所选标准以及分析方法不同,有
3、各种不同的划分方法,一般可按下面几种情况来划分。1根据载体材料、存储技术和传递方式的不同: 印刷型(又称纸制文献、印本文献)以纸张为载体,用印刷方式(雕版印刷、活字印刷、石印、照相影印、计算机排印)记录知识的文献,是传统的文献形式,也是现代的文献信息资源的主要形式之一。印刷型文献因方便实用,直观性强,是人类交流和传播信息的主要形式。缺点:存储的信息密度低,占据空间大,难以实现加工和利用的自动化,不便于对其进行长期管理和长期保存。主要类型有:期刊、图书等。缩微型以感光材料为载体,用缩微照相的方式,将文字、图形、影像等信息按比例缩小后存储在感光材料上,并借助于专用阅读器而使用的文献。目前最常用的是
4、缩微胶卷(microfilm)和缩徽平片(microfiche)。声像型又称音像型文献或视听型文献,以磁性材料、光学材料等为载体,记录声音信息和图像信息的文献。它是人们最容易而且乐于接受的信息形式,主要特点:存储信息密度高,内容直观、真切,表现力强,易于理解,尤其是适用于难以用文字、符号描述的复杂信息和自然现象。但需要专门设备对其进行制作和阅读。主要类型:如唱片、录音带、录像带、电影胶片、幻灯片、激光视盘等。 机读型 又称电子型文献、数字信息资源,即用计算机阅读的文献,并以光、电、磁性材料为存储介质,采用计算机等高新技术为记录手段,将信息存储在磁带、磁盘、光盘等载体中而形成的多种类型的电子出版
5、物。机读型文献包括计算机文档、光盘数据库、电子图书、电子期刊、电子报纸、电子邮件和电传文本等。其优点是存贮密度高,存取速度快、查找方便,信息共享性好、易复制,原有记录可以改变、更新。除具有与印刷出版物相当的文献文本之外还可以提供多维的、有序化的可操作的功能。除检索之外,还可以对文本进行有目的的抽取、排序、重新组合,从而产生新的信息产品。第一类文献又称纸质文献或纸版文献,后三类文献统称为电子文献,当前人们通常说的电子版文献,大都指机读型文献。2按照文献的出版形式划分图书定义:图书:是指具有独立的内容体系、相当篇幅和完整装帧形式的文献。 图书往往是以原始记录为素材,对某领域进行系统阐述,或对现有研
6、究成果、技术和经验进行归纳、概括而成,多为总结性。特点:内容比较成熟、全面、系统、可靠且具有一定的新颖性。不足之处:出版周期长,传递信息速度慢。通过它可以全面、系统地了解一个学科或专门领域的研究历史与现状,在调查显示的科研人员利用文献的比重中,图书只占15%左右。从信息检索的角度看,图书不构成主要对象。科研人员一般不把它列为首选的使用对象。连续出版物(1)期刊:定义:又称杂志,是定期或不定期连续出版的、有统一的名称、固定的开本、版式、有连续的序号、汇集了多位作者分别撰写的多篇文章,并由专门的机构编辑出版的连续性出版物。期刊的种类很多,有学术性刊物,普通的快报、消息性刊物,数据性刊物、检索刊物亦
7、以期刊的形式出版。较图书更新迅速、反映研究动态与前沿。目前,全世界每年出版的各类期刊中,科技期刊约占2/3。我国现有的期刊中,科技期刊占54%以上。据统计,科研人员从期刊中得到的信息约占65%以上,是十分重要的情报源。特点:内容新颖、信息量大、出版周期短、传递信息快、传播面广、时效性强用途:获取最新研究成果和动态核心期刊:某学科(或某领域)的核心期刊,是指那些发表该学科(或该领域)论文较多、使用率(含被引率、摘转率和流通率)较高、学术影响较大的期刊。(2)报纸:有统一的名称,定期连续出版,每期汇集许多篇新闻、报道、消息、评论等,多为对开或四开,以单张散页形式出版。以传播新闻和评论、提供娱乐或生
8、活服务为主要内容。具有时事性、普及性、大众性、服务性和传递信息迅速、信息量大的特点,是一种十分重要的信息来源,有人称之为“第一传媒”。报道快、及时、新颖、发行量大,是图书、期刊等无法比拟的。特种文献通常指那些出版发行方式或获取途径比较特殊的文献,非书非刊,形式多样。(1)科技报告:也称技术报告、研究报告,是科学研究工作和开发调查工作成果的记录或正式报告。按研究阶段可分为进展报告和最终报告。特点:信息新颖、叙述详尽、保密性强、每份报告单独成册、有独立的编号、有固定的机构名称和较严格的陈述形式,是获取最新信息的重要信息来源。科技报告内容新颖、专业性强,技术数据具体详尽,完整可靠,信息含量高,有数据
9、、图表、实验记录等相关资料,涉及领域十分广泛。对于了解某项技术的研制试验和评价结果,某项科学技术问题的现状和发展,非常重要。科技报告的数量很大,在全世界的科技报告中,美国占了80%以上。如:美国政府四大报告:PB、AD、NASA、DOE报告,都有各自的检索工具。(2)会议文献:是了解有关领域发展情况的重要资源,有会前文献、会中文献、会后文献之分(会议论文等:正式出版物)。(3)专利文献:专利制度的产物,是实行专利制度的国家,在接受申请和审批发明过程中形成的有关出版物的总称。包括专利说明书、专利公报、专利分类表、专利检索工具以及与相关的法律性文件。 目前全世界有130多个国家建立了专利制度,我国
10、的专利法是1984年3月通过,1985年4月开始实施的,它的目的在于通过保护发明人的合法权益推动技术的发展。目前专利制度已进入国际合作阶段。各个国家的专利审批机构、国际性专利组织都是获取专利文献的重要来源(另:专利网站、数据库)。(4)技术标准:标准化的产物,是经过公认的权威机构(标准化组织或有关机构)以特定的文件形式出现的标准化工作成果。由技术标准、管理标准及其他具有标准化性质的类似文件所组成,是从事生产和建设的一个共同依据。特点:具有权威性、规范性、法律性、时效性、陈旧性。目前,各个领域都在标准化的影响范围之内。技术标准按内容可分为基本标准、产品标准、方法标准、安全卫生标准。技术标准是各国
11、推行技术政策的工具,一个国家的指标文献可以反映其经济、技术政策、生产水平、资源情况和标准化水平。先进的标准可供研制新产品,改进工艺、操作水平提供参考;进口设施的组装、维修、零部件的配制需要标准文献在对外贸易中,技术标准常常构成非关税壁垒。(5)学位论文:是指高等学校或研究机构的学生为取得某种(博士、硕士及学士)学位时,在导师的指导下撰写并呈交的体现其学术研究水平,并供审查答辩用的研究论文。特点:具有一定的独创性;一般不公开出版;质量参差不齐。(6)政府出版物: 各国政府及其设立的专门机构所颁发行政文件和科技文献的总称。就其性质可分为行政性文献和科技性文献两大类。行政性文献包括国企记录、政府法令
12、、方针政策、规章制度、决议指示、调查报告、统计资料等;科技性文献包括科技研究报告、科普材料、技术政策文件等。政府出版物具有正式性、权威性的特点。(7)技术档案:是指科研生产活动中形成的,有具体事物对象的技术文件、图纸、图表、照片和原始记录等的总称。(8)产品样本:产品样本是对定型产品的性能、构造原理、用途、使用方法和操作规程等所作的具体说明。 3按加工的深度划分:零次文献信息:(non-printed Document)指未经出版发行的或未进入社会交流的最原始的文献。如:私人笔记、底稿、书稿、手稿、实验记录、会议记录、个人通讯等。具有内容新颖、不成熟不定型不公开交流、难以获得的特点。零次文献在
13、内容上有一定的价值,而且能弥补一般公开文献从信息的客观形成到公开传播之间费时甚多的弊病,其新颖程度颇受关注。一次文献信息:(Primary Document)又称原始文献,通常是指著者以自己的研究成果为基础创作或撰写的,已公开发行进入社会流通使用的文献,如:专著、学术论文、专利说明、科技报告等。具有新颖性、创造性的特点,是科技人员参考得最多的基本材料,有很高的直接参考价值和借鉴使用价值,但数量庞大,储存分散,不易直接查找利用。二次文献信息:(Secondary Document)二次文献的生成过程即是对知识信息有序化的二次加工过程。是把大量的、分散的、无序的文献收集进来,按照一定的方法进行加工
14、、整理、提炼、浓缩,使之系统化,便于查找而形成的文献。如文摘、题录、书目、索引等检索工具。在现代社会信息量激增的形势下,人们为了快速而经济地传递信息、搜集和利用信息,更加关心和重视使用文摘杂志,具有浓缩性、汇集性、有序性的特点。三次文献信息:(Tertiary Document)是选用大量有关的文献,经过综合、分析、研究而编写出来的文献。通常是围绕着某个专题,在利用二次文献的基础上,选用大量相关的一次文献,采用科学的方法,对文献的内容进行深度加工、编写而成的。如综述、述评、字典、词典、辞典、百科全书、类书、政书、手册、年鉴、指南等。现代技术的发展,使文献的这种划分界线变得模糊,大部分数据库集文
15、献线索检索与原文献获取为一体。四者的相互关系从零次文献、一次文献、二次文献到三次文献,它是一个由分散到集中,由无序到有序,由博而略地对知识信息进行不同层次的加工过程。零次和一次文献是最基本的信息源,是文献信息检索和利用的主要对象;二次文献是一次文献的集中提炼和有序化,是文献信息检索的工具;三次文献是把分散的零次、一次、二次文献按照专题或者知识的门类进行综合分析加工而成的成果,是高度浓缩的文献信息,它既是文献信息检索和利用的对象,也可作为检索文献信息的工具。它主要有两大类型:一是系统阐述某个领域的内容、意义、历史、现状和发展趋势的综述性学科总结,如综述、评论、述评、进展、动态、教材等;二是把大量
16、的定理、原理、数据、公式、方法等知识进行浓缩和概括,编写成便于查阅的参考工具书,如百科全书、手册、年鉴、指南等。三次文献内容更集中,针对性更强,系统性好,并有一定的检索功能,有较高的参考价值。4根据出版形式和内容公开程度划分白色文献 白色文献是指一切正式出版并在社会成员中公开流通的文献,包括图书、报纸、期刊等。这类文献多通过出版社、书店、邮局等正规渠道发行,向社会所有成员公开,其蕴涵的信息大白于天下,人人均可利用。是当今社会利用率最高的文献。灰色文献 灰色文献指非公开发行的内部文献或限制流通的文献。因从正规渠道难以获得,故又被称为“非常见文献”或“特种文献”。这类文献出版量小,发行渠道复杂,流
17、通范围有一定限制,不易收集。其收录和获取成本较高,但是价值却很大。黑色文献 包括两方面的情况:其一,人们未破译或未识别其中信息的文献,如考古出现的古老文字、未经分析厘定的文献;其二,处于保密状态或不愿公布其内容的文献,如未解密的档案、个人日记、私人信件等。这类文献除作者及特定人员外,一般社会成员极难获得和利用。三、文献信息检索基础知识1信息检索的相关概念:信息检索:即信息查找,是人们利用特定的检索技巧与方法,从信息集合中对目标资源进行快速定位、获取与信息需求相关的那部分信息的过程。也就是:将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。有广义,狭义之分。完整的信息检索概
18、念包括两项工作:(1)信息存储过程,即搜集、筛选、整理、积累现有信息及检索工具,建立信息检索系统;(2)信息检索过程,即利用信息检索工具查找所需要的信息。狭义的信息检索即利用信息检索工具查找所需要的信息。则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查询。4著录:也称标引。所谓“标引”,是给这些文献信息一个标识,引导我们使用这些标识把文献纳入到检索系统或者利用这些标识检索文献。比如说我们图书馆的目录,就是把图书的书名,著名,分类号等项目著录下来,并按分类号排列形成分类目录,或按书名顺序排列形成书名目录。2文献信息检索的类型根据检索方式(即依赖的检索工具与
19、检索系统)来划分:手工检索是利用检索工具与工具书进行的,在检索之前,要对检索工具的编排、检索方法,包含的内容进行全面了解。计算机检索是利用数据库或检索系统进行的,输入指令由计算机自动匹配完成。因此拟定的检索式应该便于系统识别。3 文献信息检索系统31检索系统的概念信息检索系统:又称情报检索系统,是指按某种方式、方法建立起来的,以提供信息检索为目的一种有层次的信息存储与检索系统,是表征有序的信息特征的集合体。其中二次或三次文献信息是文献信息系统的核心和概括。信息检索系统的建立是以对所收录信息的组织为基础的,是一定范围文献、信息的全部记录的有序集合。功能:报道文献信息、存储文献信息、检索文献信息3
20、2文献信息检索系统的主要类型严格地说,信息检索系统是作为检索工具存在的信息源集合,其功能侧重于检索。所以,在这里,我们把信息检索系统的类型也称作检索工具的类型。1目录型目录也称书目,是以一件或一种完整的出版物(如一本书、一种期刊等)作为著录基本单位的检索工具。按一定次序编排,仅提供检索线索。主要描述文献的外部特征。常见的目录型检索系统(检索工具):国家书目:系统记录一个国家某时期所出版的全部书籍的一种目录,可以反映出一个国家书籍出版的现状和历史。比如:全国总书目。馆藏目录:主要提示某一图书馆或若干图书馆收藏书刊的信息。联合目录:是汇总若干图书馆或其它收藏单位所藏书刊的目录。出版社目录:根据出版
21、社出版的图书或书店发行的图书馆编制而成的目录。2索引型索引:是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元(如书名、刊名、人名、地名、语词等),按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具。索引是一种常见的检索工具,有些网络数据库便是以索引命名的,如十三经索引、科学引文索引(SCI)等。3题录型:题录是以单篇或单份文献为著录的基本单位的检索工具,以文献的题名、著者等特征信息为描述对象,提供对文献出版的检索工具。主要揭示、报道文献的外表特征。4.文摘型文摘亦称提要、内容摘要等,是指在题录的基础上,在每条著录款目后边用简练的语言文字,对文献的内容所做的简略、
22、准确的描述。不包括对原文的补充、解释或评论。它不仅报道文献的外部特征,也报道文献的内容特征,是二次文献的核心,检索工具的主体。著名的文摘有新华文摘、科学文摘等,工程索引虽以索引命名,却是著名的文摘型检索工具。5全文是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。四文献信息检索语言 1检索语言的概述定义:检索语言(information retrieval language)是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。也称标引语言、索引语言、信息检索语言。检索语言独立于具体的检索工具或检索
23、系统之外,作为一种软件被若干检索工具或检索系统所利用。检索语言的作用:对文献的外部征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。主要有以下两种作用:加工与组织:对文献中包含的知识内容与外部特征进行规范化标引,对文献的外部特征进行规范化描述。匹配检索:提供对标引用语和检索用语的相符性比较。2检索语言的主要类型按检索语言的结构与产生原理分:分类语言、主题语言、代码语言。1分类语言相关概念:分类语言:按知识门类的逻辑次序对信息进行组织与检索的语言,是从文献内容的学科属性对文献进行描述与揭示,建立在对文献、信息所属内容的特征基础上的检索语言。按分类语言对检索系统进行组织,具有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文献 信息 检索 基础知识 理论 部分 讲义

链接地址:https://www.31ppt.com/p-4124515.html