MAX《文献查阅》2检索语言与检索过程.ppt
检索语言与检索过程,第一节 检索语言,用于存储和检索的语言称之为检索语言 检索语言是文献标引人员与文献检索人员之间的约定语言,如对文献标识以分类号、检索语、专利号、报告号等。世界上有许多种检索语言,如各国的图书分类法、各专业领域的标题词表、叙词表等 检索语言是决定检索工具中大量文献排检序列的关键,一、检索语言的概念,第一节 检索语言,文献检索语言的实质是:表达一系列概括文献内容及其相互关系的概念标识系统,即标识与检索之间的约定语言。文献检索语言可以是:自然语言中精选出来并加以规范化的一套词汇;代表某种分类体系的一种分类号码;代表某一类事务、某一方面特征的一套代码,用以对文献内容进行主题标引、特征描述或逻辑分类。,一、检索语言的概念,第一节 检索语言,文献检索语言的主要功能:简单明了而又比较专指地描述文献的主题概念;容易将概念进行系统排列;检索时便于将标引用语和检索用语进行相符性比较等,一、检索语言的概念,第一节 检索语言,按描述文献特征划分:描述文献外部特征的检索语言:如题名、著者姓名、机构名称、文献类型、文摘号、文献出处等 描述文摘内容特征的检索语言:分类语言和主题语言(包括标题词语言、关键词语言、叙词语言),二、检索语言的分类,第一节 检索语言,按标识组配方式划分:先组式检索语言:描述文献主题概念的标识在检索之前就已事先固定好了的标识系统,如体系分类语言、标题词语言等 后组式检索语言:描述文献的标识在检索之前未固定组配,而是在检索时根据检索的实际需要,按照组配规则临时进行组配的标识系统,如叙词语言等,二、检索语言的分类,第一节 检索语言,按结构划分:分类检索语言:以分类号作为文献主题概念的标识系统 包括体系分类语言、组配分类语言、混合分类语言等 主题词检索语言:以主题词作为文献主题概念的标识作用 如标题词语言、关键词语言、叙词语言等,二、检索语言的分类,第一节 检索语言,信息检索语言由词汇系统和语法两部分组成 词汇系统:表达文献或提问特征的词的集合 一个标识就是检索语言中的一个词 语法:运用单个或多个标识来正确表达文献主题或提问概念 的一套规则,二、检索语言的分类,第一节 检索语言,它是一种直接体现知识分类的等级制概念标识系统 体系分类法具体表现形式是一部完整的分类表,通常由基本大类、简表、详表和辅助表等组成,其中详表是分类法的主体,三、体系分类法,第一节 检索语言,DOC,三、体系分类法,第一节 检索语言,体系分类法的主要优点:以分类为基础,符合人们认识事物的规律和处理事务的习惯;按学科或专业集中系统地揭示文献情报内容,查全率较高;既能用于组织检索工具和检索系统,又能用来组织图书资料的分类排架;其类目采用国际通用的阿拉伯数字和拉丁字母,通用性强。,三、体系分类法,第一节 检索语言,体系分类法的主要缺点:是先组式信息检索语言,具有相对稳定性,不能随时修改和补充,难以反映新兴学科的内容,因而较难标引和检索新兴学科的文献信息;能较好反映学科之间的纵向关系,而不容易反映学科间相互交叉渗透的横向关系,不易准确标引和检索交叉学科的文献信息;用分类号作为检索标识,不能直接表达概念,检索时需要经过间接转换,即主题概念学科概念分类号码,若不熟悉分类法,转换过程易发生偏差。,三、体系分类法,第一节 检索语言,标题词语言是以标题词作为文献内容标识和检索依据的一种主题词语言 标题词是从文献的题目和内容中抽选出来,经过规范处理,用以描述文献内容特征的词和词组。标题词分为主标题词和副标题词,四、主题词语言(一)标题词语言,第一节 检索语言,主标题词标引的是文献论述的主题事物,多为事务性名词 副标题词标引的是主题事物的一个方面,用来修饰、限定和细分主标题词的词和短语 编制标题词表时,标题词被一一列举,并将主标题词和副标题词固定组配在一起。标题词按字母顺序排列,组成标题词表。,四、主题词语言(一)标题词语言,第一节 检索语言,标题词语言的用词规律 主标题词:用来表示文献主题内容的,经过规范化的自然语言的词、词组或短语 一般用做主标题词的词类主要有:单个名词、单个动名词、修饰的名词、短语、复合名词、名词+倒置形容词、并列名词,四、主题词语言(一)标题词语言,第一节 检索语言,主标题词有三种构成方式:正叙式:用事物或过程名称直接作为标题词Process ControlTemperature Control 倒叙式:在事物或过程名称后加限定语构成倒置的复合标题词 Control Systems,Predictive Control Systems,Programmed 并列式:两个独立的但又有一定联系的概念并列在一起 Fits and Tolerances Steel and Alloys,四、主题词语言(一)标题词语言 标题词语言的用词规律,第一节 检索语言,副标题词:用来修饰、限定和细分主标题词的经过规范的词、词组或短语 一般以事物为主体作为主标题词,以过程为辅作为副标题词 副标题词是主标题词的某一部分、某一应用方面、研究的某一事物、某一研究方法、某一性质、某一现象、某一环境等等 Application Design Test,四、主题词语言(一)标题词语言 标题词语言的用词规律,第一节 检索语言,标题词的规范化处理 规范化是对自然语言中的同义词、近义词、多义词、拓义词等进行管理和控制,以达到标题词描述概念的“单一性”原则。同义词选择:飞机 见 飞行器 多义词限定:铁(化学)铁(冶金)近义词合并:装备 用 设备实验 用 试验,四、主题词语言(一)标题词语言 标题词语言的用词规律,第一节 检索语言,标题词语言的语义关系 标题词之间以及非标题词之间的关系是通过参照系统加以联系的 参照系统分为直接参照(See)和相关参照(See also)两种,四、主题词语言(一)标题词语言,第一节 检索语言,直接参照(See):指引检索者从不能作为检索标识的自然语言词汇转换到能作为检索标识的规范化的词语,提高文献检索效率 电脑 见 计算机 DC machinery See electric machinery,DC相关参照(See also):指引检索者从一个标题词去参见与之有关的其他标题词,扩大检索范围,提高文献检出率 Control equipment,electric See Also Final control devices,electric,四、主题词语言(一)标题词语言 标题词语言的语义关系,第一节 检索语言,标题注释 在某些标题词的概念不十分明确的情况下,用注释的方法对该标题词做简要说明,说明有关标题词的区别和联系,提高检索的准确率。,四、主题词语言(一)标题词语言 标题词语言的语义关系,第一节 检索语言,标题词语言的特点 标题词语言标引文献是以事物为中心,适于从事物出发进行特性检索,能够检全各门有关学科中论述同一事物的所有文献;检索所用的标识是标题词,直接性强,用它检索文献不存在由于语言转换而可能发生的误差;,四、主题词语言(一)标题词语言,第一节 检索语言,标题词在词表中按字母顺序排列,没有等级性,便于增删和修改标题词;标题词语言只能通过参照系统和增删副标题词进行扩检和缩检,因此扩大和缩小检索范围有限;标题词语言以事物为中心检索有关文献,不利于从学科角度检索文献。,四、主题词语言(一)标题词语言 标题词语言的特点,第一节 检索语言,关键词语言是以关键词作为文献内容标识和检索依据的一种主题检索语言 关键词是从文献题目、摘要和内容中抽选出来,用以揭示文献主题内容特征,具有实质意义的词,未经规范处理的自然语言词汇。,四、主题词语言(二)关键词语言,第一节 检索语言,关键词语言便于计算机自动地从文献中抽取关键词,编制关键词索引。由于关键词未经规范处理,不用编制关键词表,因此关键词语言是一种不受词表控制的检索语言。,四、主题词语言(二)关键词语言,第一节 检索语言,用关键词标引文献时,一般从文献中选出24个关键词,其中主关键词均可轮流作为检索词,按字母顺序排列,其余关键词排在检索词后面,作为限定词。检索词和限定词组成关键词短语,描述文献的主题内容。,四、主题词语言(二)关键词语言,第一节 检索语言,Computer aided design plant engineering Design computer aided plant engineering Plant engineering computer aided design,四、主题词语言(二)关键词语言,第一节 检索语言,关键词语言特点如下:关键词语言是自然语言,采用各种科技词汇,未经规范处理,不受词表控制,直接用这些词汇做检索语言既方便又宜掌握;关键词来自文章标题、文摘或正文中,专指度高。用它们做检索词,查准率高;,四、主题词语言(二)关键词语言,第一节 检索语言,关键词语言特点如下:一篇文献有若干个关键词,就在索引中轮排成若干条索引,因而关键词语言的索引深度高;由于关键词语言未经规范处理,标引人员和检索人员用词不统一,因而漏检的可能性大,查全率一般很低;单纯关键词索引中,关键词之间无语法关系,表达含义有时不明确,是否切题很可能无法判断或判断错误。,四、主题词语言(二)关键词语言,第一节 检索语言,叙词语言是在分类语言、标题词语言、关键词语言基础上发展起来的,它以自然语言词汇为基础,其基本性质是采用表示单元概念的规范化词汇进行组配,用它来描述文献主题的概念。叙词语言是主题词语言的高级形式,是一种后组式信息检索语言。,四、主题词语言(三)叙词语言,第一节 检索语言,叙词语言的特点:吸取了标题词语言对科技词语的规范化处理方法,采用复合词和词组表达文献概念的方法、参照系统的标识方法;吸取了单元词语言的组配功能,概念组配原理;吸取了体系分类语言的基本原理来编制叙词分类索引(范畴索引)和等级索引(词族索引)。,四、主题词语言(三)叙词语言,第一节 检索语言,叙词的组配 概念相交组配:同级词之间(两个表达相同性质概念的叙词)或事物与事物之间的交叉组配。由于不同的概念相交就会形成一个新概念,这个新概念是组配前各概念的下位概念。概念并列组配:同级词之间的组配,形成的新概念是组配前各概念的上位概念。概念限定组配:不同级词之间的组配,用时间、空间和学科范围某一方面的属性进行限定的一种概念关系。,四、主题词语言(三)叙词语言,第一节 检索语言,叙词的参照系统 叙词和非叙词之间,叙词彼此之间,存在着各种语义关系,也有一套参照系统,并用一套参照符号来表示这些词义的关系。,四、主题词语言(三)叙词语言,四、主题词语言(三)叙词语言 叙词的参照系统,第一节 检索语言,第一节 检索语言,叙词表 叙词语言的规范化以及叙词之间相互关系的显示都集中体现在叙词表中。就整体结构而言,叙词表包括 字顺表(主表)、范畴表(分类索引)、族系表(等级索引)等部分,四、主题词语言(三)叙词语言,主题词语言与体系分类语言的区别:标识符号不同体系编排不同类目语义关系的表达方式不同用途不同检索特点不同,第一节 检索语言,例:查找“聚丙烯纤维生产工艺”的文献分类法:首先找到所属的分类号TQ346.2 进而才能查到相关文献主题法:标引时,直接用主题词“聚丙烯纤维”及“工艺”标引。检索时,只需直接用“聚丙烯纤维”与“工艺”二个主题词组配检索,就能查到相关文献。,例:查找“化学分析”方面的文献主题法在“化学分析”这一主题下,集中了所有“化学分析”的文献分类法“化学分析”这一主题的文献被分散在各学科中,如在“金属学”“分析化学”“农业化学”“原子能技术”等学科领域中都可能有“化学分析”文献。,例:标引有关“聚丙烯纤维”方面的文献 主题概念聚丙烯纤维分类法只能标到分类号“TQ 346.2”关于聚丙烯纤维的各个研究方面无法细分需表达其各个研究方面时,仍只能以TQ 346.2标引主题法可采用“聚丙烯纤维”与“工艺”,“加工成型”“性质测试”“聚合”等词组配以获得更专指的概念。,第二节 科技文献检索过程,文献检索是使用检索工具,按照一定方法和检索语言,查找文献情报的过程。文献检索的全过程可分为6个步骤:,第二节 科技文献检索过程,一、分析研究课题 弄清课题的目的和意义 掌握与课题有关的专业知识 明确课题的检索范围和要求,二、选择检索工具 一种优良的检索工具应该具备“全、便、快”三个 方面的基本性能,第二节 科技文献检索过程,三、确定检索途径 各种检索途径的基本特点 文献检索总是根据文献的某种特征,从不同角度进行检索的。,第二节 科技文献检索过程,三、确定检索途径 各种检索途径的基本特点,第二节 科技文献检索过程,从已知文献特征选择检索途径 若事先已知文献的著者姓名、文献编号或文献名,应首先用相应的“著者索引”、“序号索引”、“书名索引”等,从这些途径进行检索;若无以上先决条件,就要根据自己对分类体系的了解情况,来选择分类途径或主题途径,三、确定检索途径,选择检索途径的主要原则,第二节 科技文献检索过程,从课题检索要求选择检索途径 若课题检索范围较广,泛指性较强,要求族性检索时,以先用分类途径为好;反之,课题检索范围窄,专指性较高,要求特性检索时,则应选用主题途径,三、确定检索途径 选择检索途径的主要原则,从检索工具情况选择检索途径 多数检索工具只有分类、主题和著者三种检索途径,第二节 科技文献检索过程,追溯法:利用文献末尾所附的参考文献,由近而远 逐一追踪的查找方法,四、选择检索方法 各种检索方法的特点,追溯法原始文献,追溯法原始文献所附的参考文献,第二节 科技文献检索过程,直接法:直接利用检索工具查找文献的方法,包括顺查法和倒查法两种 顺查法:以课题研究的原起始年代为起点,顺着时间推移,由远而近利用检索工具逐年查找的方法 用于已知研究课题最初产生年代,现在需要了解它的全部发展情况 倒查法:由近而远的查找法,多用于查找新课题或有新内容的老课题 循环法:交替使用追溯法和直接法来进行检索的综合方法,四、选择检索方法 各种检索方法的特点,第二节 科技文献检索过程,检索要求 要系统搜集与某一课题有关的资料,对文献的全面性、系统性要求较高时,若检索时间比较宽裕,最好采用顺查法 文献检索的目的是要解决某一课题的某一关键性技术或理论性问题,对文献检索的及时性要求较高,若时间紧迫应采用倒查法,四、选择检索方法,选择检索方法的基本原则,第二节 科技文献检索过程,检索条件 在无检索工具可用时,若原始文献收藏比较丰富,可以采用追溯法;若有成套的检索工具可供使用,则采用直接法为好,四、选择检索方法 选择检索方法的基本原则,学科特点 新兴学科起始年代不长,又有准确的起始年代,一般采用顺查法或倒查法;年代久远的古老学科,起始年代很早或无法考察,只能采用倒查法,第二节 科技文献检索过程,五、查找文献线索 本步骤需要注意解决以下问题:主题索引的阅读方法问题;文摘著录格式与阅读问题;文献类型辨识:图书、期刊、会议文献、专利文献、科技报告、学位论文 非拉丁语系国家出版物名称和著者姓名的字译问题;欧美著者姓名的排列问题;,第二节 科技文献检索过程,外文缩写字、缩略语查全称问题等刊名缩写的识别刊名缩写后词序不变刊名有两个词以上的缩写刊名中的冠词、介词和连接词均省略单词的缩写主要采用减少音节的方法中、日、俄刊名译成拉丁文后再缩写,五、查找文献线索,第二节 科技文献检索过程,六、索取原始文献对文献类型进行辨识,确定出具体的文献类型利用有关检索工具,查出缩写刊名的全称非拉丁语系的语种刊名还原成原语种利用联合目录和有关图书情报单位的馆藏目录,确定刊物的收藏单位根据收藏单位,由近及远到有关单位索取原始文献,第二节 科技文献检索过程,七、评定检索结果,第二节 科技文献检索过程,对检准率和检全率问题应有个辩证的认识,根据目的不同要求的程度也就不同。若为申请专利或技术鉴定,要求检全率要高些,以便通过分析确认有无申请专利的资格或技术成果的水平。而对于搞科研,则要看查出的文献是否反映了该课题国内外当前的技术水平。有时从查到的一些文献中能说明这个问题,就可以认为满足了检全率的要求,而非看查出文献数量的多少。,七、评定检索结果,第二节 科技文献检索过程,七、评定检索结果,影响检索效果的主要原因:客观因素:由于信息爆炸、文献量剧增、学科之间交叉渗透等因素,直接影响查全率和查准率主观因素:编制者在编制检索工具时收录文献不全面;使用者在检索课题时对课题内容分析不确切或者选定错误的检索入口。主要体现在:检索标识的准确性检索标识的广泛性检索标识的专指性,第二节 科技文献检索过程,提高检索效果的措施:选择好的检索工具准确地使用检索语言善于利用各种辅助索引提高检索策略制订水平,第二节 科技文献检索过程,