学术文献资源的获取和建设.ppt
,学术文献资源的获取和建设 吴志荣,学术文献资源的获取和建设,一、学术文献资源的获取1.资源来源(图书、期刊论文、学位论文、会议论文、科技报告、视频资料等)(1)本单位的文献资源(2)CALIS(中国高等教育文献保障体系)(3)全国性的馆际互借系统,学术文献资源的获取和建设,2.获取途径(1)借阅。主要是借阅纸质文献。(2)数据库直接利用。主要就是利用数字文献。这两条途径基本是利用本单位的资源,所以了解上海师范大学图书馆的文献资源是很重要的。,学术文献资源的获取和建设,上海师大图书馆现在有90多个数据库了,其中心理学和教育学的数据库很多。EBSCO心理期刊库(美国心理学会数据库);Web of knowledge;ProQuest的PQDT;Elseveir;web of science;中国基本古籍库;等等。,学术文献资源的获取和建设,(3)利用文献传递途径,通过读秀能解决中文图书的问题;通过图书馆向CALIS和CASHL发出文献传递请求能解决中外文图书与期刊论文的问题。CALIS有联合目录、外文期刊网、e读、CADAL.(4)利用馆际互借,通过图书馆向国家图书馆、上海图书馆、上海各大高校图书馆发出馆际互借的请求。,学术文献资源的获取和建设,3.掌握检索方法(1)组配检索,即布尔逻辑组配检索(运用AND、NOT、OR等运算符号);限制检索,截词检索,位置检索,双引号检索,等。(2)引文检索(SCIE,SSCI,CSSCI,SCHOLAR GOOGLE等),学术文献资源的获取和建设,二、学术文献数据库建设 一个优质的文献数据库的建设需要3方面的专家:学科专家;技术专家;标引专家。,学术文献资源的获取和建设,1.资源的选定。这是很重要的,需要学科专家领衔。应该是比较独特的、且又有价值的。比如那些调查数据就很合适,也可以收集中外学科领军人物的研究成果,收集国内外同类学科重要研究机构的资料(包括研究重点、研究力量、研究现状和趋势等),这就是所谓竞争情报。,学术文献资源的获取和建设,2.数据库软件平台技术的选择。要选择通用的、能不断升级的新技术。,学术文献资源的获取和建设,3.模块划分 资源的划分,调查获取的数据;文献资源(可能还要分文字和视频的,本地的和非本地的);讨论互动区。,学术文献资源的获取和建设,2.字段设计 要考虑周全,各个学科可能都有一些特殊性,需要特别的字段。如化学学科需要化学分子式、化学物质名称。SCI就有有关引文的字段。心理学的数据库收集的调查数据就比较特殊,如年龄、性别、职业、地区等都可以成为字段,成为可以检索的字段。,学术文献资源的获取和建设,下面是部分Web of Science 字段标识:,学术文献资源的获取和建设,3.标引的作用 标引是检索的基础,作为一个专业的数据库,最好建立词表,这样就能提高检准率。,学术文献资源的获取和建设,(1)建立词表。由学科专家领衔,以“主题词表”为基础(可以利用分类主题词表,从中图法类号找到主题词),以“中国期刊网的关键词”为参考,尽可能地把某学科的学术术语囊括进去,在标引的时候把最恰当的词作为标引词,检索时根据词表中的词进行检索,这样就可以把全部的文献检出来。,学术文献资源的获取和建设,如果计算机能自动匹配备,就要考虑把有关同义词都收进去,让计算机自动寻找到数据库标引所用的词。,学术文献资源的获取和建设,还有一个难点,就是要解决词与词之间的关系,因为词与词之间,不仅含义不同,而且有从属关系,并列关系。如“军事”的概念就大于“战役”。又如“青少年”包括青年和少年。有的文章仅论述少年,它的标引词是“少年”,你如果用“青少年”作为检索词,这篇文章就不会被检出。,学术文献资源的获取和建设,另外还有很多通用词,如地名,年代、国别等,也是必须考虑的。所以词表的词要设计得好,并不容易。当然,词表制作出来了,标引也要到位。,学术文献资源的获取和建设,(2)领域本体介绍。这是数字文献发现的有效方法。这种方法用于寻找数字文献,一是存贮于各类数据库中的文献;二是散布在Web网上的文献。本体(Ontology)原本是一个哲学上的概念,是研究实体存在及其本质的通用理论。后来,“本体”被引入人工智能领域。1991年Neches等人将Ontology定义“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成词汇外延的规则”。,学术文献资源的获取和建设,1998年Studer等人进一步提出:“Ontology是共享概念模型的明确的形式化规范说明”。这定义包括4层含义:“概念模型”指通过客观世界中一些现象的相关概念而得出的模型;“明确”指所使用的概念及其约束都有明确的定义;形式化是指Ontology是计算机可读的;“共享”是指Ontology体现的是共同认可的知识。,学术文献资源的获取和建设,完成各领域的本体构建后,即可运用计算机识别技术对数量庞大的数字文献中的内容进行比对,寻找出符合相关术语及关联(“关联”包括等同/同义关系、层次关系、相关关系等。这些关联将本体有机地连接成为一个具有语义的整体)的文献。如果已经对存贮于数据库的文献进行了标引,检索效率就更高。,学术文献资源的获取和建设,因此,利用领域本体进行文献的寻找,其检索效率大大高于目前的搜索引擎,(因此,构建领域本体也是Web网向语义网发展的基础工作)但是领域本体的构建相当复杂,难度很高,需要计算机学科、情报学科、图书馆学科、领域专家等多学科的专业人员进行协作才能完成。,学术文献资源的获取和建设,4.元数据抓取,元数据统一检索 元数据也即“数据的数据”。实际就是字段标识,能反映文献方方面面的一些标识。元数据抓取主要是为了进行统一检索,是为了解决一门式检索而进行的。,学术文献资源的获取和建设,要建立一个专业的数据库,除了自己把相关文献数字化,然后进行标引,形成数据库以外,一般都要用到各种其他数据库中的文献资源,这样就需要到其他有关数据库中去抓取有关文献,首先就要把这些文献的元数据抓取过来,建立一个动态的元数据库,检索时,通过元数据库,就能找到有关数据库中的相关文献。(以前一般用网页分析的方法,但效果不够好。),学术文献资源的获取和建设,一个优质的学术文献数据库的特点:资源丰富且独特(有价值的资源齐全,并很多资料其他机构没有);检索途径能满足要求,且检索方便;检准率高。可以制作一个“基于专业词表的青少年素质教育文献资料库”,