文献计量与引文分析.ppt
《文献计量与引文分析.ppt》由会员分享,可在线阅读,更多相关《文献计量与引文分析.ppt(43页珍藏版)》请在三一办公上搜索。
1、,文献计量法与引文分析法,目录,一、文献计量学概述文献计量学发展历史文献计量学发展趋势二、文献计量学方法文献计量学三大定律文献增长规律文献老化规律三、引文分析法,文献计量学概述,文献计量学的发展历史文献计量学的发展历史最早追溯到1911年,俄国化学家瓦尔金用引文分析法研究了一些国家的化学家所做的贡献。1917年,文献学家科尔和伊尔斯在科学进展期刊上发表文章,通过分析研究比较解剖学文献,介绍了最基本的书目统计分析技术。1923年,休姆提出了统计书目学。自此,文献计量的研究活动日益活跃。1926年,美国数学家、化学家洛特卡在题为科技生产率的频率分布一文中首次阐述了著者与文献数量的关系,并建立了数学
2、模型,即洛特卡定律。1934年,英国情报文献学家布拉德福提出了定量描述文献序性结构的经验定律,揭示了定期出版物中文献分布规律。1935年,美国语言学家齐普夫通过大量的统计分析工作,从而宣告了齐普夫的词频分布定律的正式诞生。,文献计量学的发展历史1969年,普里查德(A.Pritchard)发表了统计书目学还是文献计量学一文,首次提出了文献计量学这一概念。从此之后,文献计量学这个术语代替统计书目学得到广泛应用。普里查德在这篇文章中对文献计量学下了定义“文献计量学是把数学和统计学应用于图书和其他交流媒介的一门学科”。文献计量学:用数学和统计学的方法,定量地分析一切知识载体的交叉科学;集数学、统计学
3、、文献学为一体,注重量化的综合性知识体系;其计量对象主要是:文献量(各种出版物,尤以期刊论文和引文居多)、作者数(个人或团体)、词汇数(各种文献标识);,文献计量学概述,文献计量学的发展趋势网络和网络计量的研究日益成为文献计量学的研究前沿;文献计量学内容体系中的指标,从提出到现在一直都是文献计量学研究的热点,目前有关指标的研究是文献计量学研究前沿,且以指标的应用为主要的研究前沿;文献计量学呈现与其他学科相结合的趋势,特别是医学。文献计量学研究日益呈现应用化、综合化和网络化的态势。,文献计量学方法,文献计量学三大定律1、文献作者的分布理论-洛特卡定律2、文献分散的理论-布拉德福定律3、词频分布理
4、论-齐普夫定律,洛特卡定律,洛特卡定律的产生1926年,洛特卡最先研究了科学文献数量与著者数量之间的关系,并创造性地提出了“科学生产率”的概念。所谓“科学生产率”是指科学家(科研人员)在科学上所表现出的能力和工作效率,通常用其生产的科学文献的数量来衡量。洛特卡就是从“科学生产率”这个概念出发,通过统计和分析科研人员的论著数量,首次揭示了科学文献按著者的分布规律。洛特卡围绕科学生产率这个崭新的课题,为了考察文献作者分布规律做了大量艰苦的统计工作。他选取化学和物理两门学科的论著数量和著者数量为研究对象。洛特卡对这些数据的统计结果包含两部分内容:1、与论著数量相对应的作者数量;2、著者频率,即相应的
5、著者数占著者总数的百分比。这两个部分均按论著数量增序排列。在对数据的研究过程中,洛特卡发现,科学领域的论著数量与著者频率有一定的关系。他在科学生产率的频率分布一文中,论述了化学与物理学领域中作者频率与论文数量的分布规律,提出了描述这两者关系的一般公式,同时还阐明了科学生产率的经验规律,即洛特卡定律(Lotkas Law),又称“倒数平方定律”。,洛特卡定律,洛特卡定律基本内容从洛特卡定律的产生过程可以看出,该定律的目的和基本内容是:描述科学工作者人数与其所著论文之间的关系。如果设f(x)为写了x篇论文的作者数占作者总数的比例,则洛特卡定律可表示为:其中,C和a是某特定主题领域的特征常数。洛特卡
6、统计的数据约:a=2,即“平方反比率”。,洛特卡定律,洛特卡定律基本内容f(1)=C=6/2:写一篇论文作者的数量约占所有作者数量的60%;f(2)=C/4:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;f(3)=C/9:写三篇论文的作者数量约为写一篇论文作者数量的1/9;f(n)=C/n2:写n篇论文的作者数量约为写一篇论文作者数量的1/n2,洛特卡定律,洛特卡定律的局限性只是根据化学和物理学两大学科得出的理论估计,并非精确的统计分布,在其他学科的应用时就需要作一定的修正。洛特卡的数据抽取方法有欠科学,只有在研究的学科满足以下条件时预测结果才会比较客观:学科必须相对稳定、研究的论文时
7、间区间必须足够长、研究的作者数目必须足够大。否则对该定律必须作相应的修正。,洛特卡定律,洛特卡定律的发展在洛特卡定律的基础上,普赖斯(Price)进一步研究了科学家人数与科学文献数量,以及不同能力层次的科学家之间的定量关系,提出了著名的普赖斯定律和一些其他重要结论。普赖斯(Price)是著名的科学家与科学史学家,他在其代表名著小科学,大科学一书中曾有如下的论述:“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合在数量上约等于全部作者总数的平方根,此即普赖斯定律。,洛特卡定律,洛特卡定律的应用1、在情报学、图书馆学方面的应用。一般是用它来预测发表不同数目文章的著者数量和特定学科的文
8、献数量。这样,便于掌握文献的增长趋势,便于进行文献情报的科学管理以及情报学的理论研究等。2、在预测科学方面的应用。按照洛特卡定律,可以从统计或估算的科学著者数量来预测文献数目的增长速度和文献流的动向,便于掌握文献的交流规律;同时,从文献计量的角度出发,也可预测科学家数量的增长和科学发展的规模及趋势等。3、在科学学和人才学方面的应用。可以用它来研究科学家的活动规律,研究人才的著述特征,从而为整个科学学和人才学的研究提供新的途径和手段。,布拉德福定律,布拉德福定律的产生1933年,英国科学博物馆图书馆的布拉德福选择了“应用地球物理学”和“润滑”专业领域为样本,组织图书馆的工作人员统计所收集的科技期
9、刊上发表的相关论文,共统计了490种期刊,1727篇论文,并将期刊按照相关论文载文量的多少减序排列。他采用3种不同的方法,即区域分析、图像观察和数学推导的方法对文献统计数据进行了分析研究,结果发现,尽管学科不同,但相关论文在相应的期刊中有着同样的分布规律。布拉德福于1934年1月在工程发表了题为专门学科的情报源一文,首次公开提出了定量描述文献分散规律的经验定律,即布拉德福定律。,布拉德福定律,布拉德福定律的基本内容布拉德福定律的区域分析:如果将科学期刊按其登载某个学科的论文数量的大小,以减序排列,那么可以把期刊分为专门面向这个学科的核心区、相关区、非相关区,3个区的论文数量相等,此时核心区、相
10、关区,非相关区期刊数量之比为1:a:a2,a是布拉德福常数。每个区的期刊刊登的某个学科的论文数量都是所有期刊关于这个学科所发表的论文总数的三分之一。第一区(核心区)所发表的论文来自数量不多但是效率最高的期刊n1;第二区是数量较多的中等效率的期刊n2;第三区是外围区,数量众多但效率最低的期刊n3。三个区中的期刊数量成下列关系:,布拉德福定律,布拉德福定律的发展英国情报学家布鲁克斯(BCBrookes)首次用数学公式描述了布拉德福的经验定律,发展了图像描述方法,从而完成了布氏定律的这一重要的后续工作。并创造性地提出用两个部分组成的数学表达式来描述布拉德福定律,分别表示图像的曲线部分和直线部分:,R
11、(n)是相关论文累积数;n是杂志等级排列的序号(级);a是第一级杂志中的相关文章数R(1),也就是载文章最高的杂志中的相关文章数;C是核心区中的杂志数量;N是等级排列的杂志总数;k,s是待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得,当N足够大时,kN,s的数值等于图形直线部分反向延伸与横轴交点的n值。是参数,与收藏的杂志(核心杂志)数量有关,大小等于分布图中曲线部分的曲率,总小于1.,布拉德福定律,布拉德福定律的应用确定核心期刊,指导读者利用重点文献 选择核心期刊是布氏定律最基本、最常见的应用之一,这可以直接仿照布拉德福方法进行。近年来,这种应用已被广泛地运用到各个学科的期刊文献
12、工作中。科技期刊导购,确定最佳文献收藏 对一个单位来说,如何使用有限的经费,选择什么范围的期刊,订购多少期刊,才能收到最佳的效果,应是图书情报部门关心的问题。而应用布拉德福定律即可解决这一问题。考察检索工具的完整性将期刊按照布拉德福排序,排名最前的n(cnN)种期刊,设其所刊载的论文数与全部期刊载文量之比为f,则有:,如果等级排列分布中的N,s已知,对于确定的f,可以由左式检验检索工具的完整性。,齐普夫定律,齐普夫定律的产生1949年,美国语言学家齐普夫发表了专著人类行为与最省力法则,提出了最省力法则这个概念。齐普夫通过研究大量的统计资料,试图证明自然语言词汇在文献中的分布服从一个简单的定律,
13、他称这一定律为“最省力法则”。齐普夫认为:人们在解决任何一个问题时,总是力图把所能付出的平均工作消耗最小化,达到最省力的地步。他认为,在语言交流过程中,“省力法则”同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的双曲线型分布。,齐普夫定律,齐普夫定律的基本内容如果把一篇较长文章(约5000字以上)中的每个不同的词按其出现频次的递减顺序排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级一直到
14、L级,那么等级值和频次值的乘积是一个常数,即:其中f表示某个词在文章中出现的频次,r表示该词的等级序号,c为常数。,齐普夫定律,齐普夫定律的基本内容如果建立f与r的直角坐标系,横坐标表示词的等级序号,纵坐标表示出现频次,就得到一条双曲线。如果对f和r都取对数,则双曲线变成一条直线。美国德克萨斯大学图书情报研究生院R.E.威利斯(Wyllys)曾经以含21354个单词的文集进行频次与等级的统计,得到下图,齐普夫定律,齐普夫定律的局限性及发展由于齐普夫定律是一个纯粹的经验定律,只是通过一般的统计方法得到,所以它的使用范围有一定的局限性。其过于简单的形式和结论对于出现频次特别高和频次特别低的词都不能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文献 计量 引文 分析

链接地址:https://www.31ppt.com/p-5739718.html