《文献计量学》PPT课件.ppt
文献计量学,中国中医科学院中医药信息研究所李 海 燕,文献计量学(bibliometrics)1969年,美国目录学家,Alan Pritchard:将数学和统计学的方法运用于图书及其他交流介质的研究的一门学科。科学计量学(scientometrics)1968年,前苏联学者提出:关于科学技术进步的计量研究情报计量学(informetrics)1979年,德国,otto nacke,目前发展的趋势,从文献计量向情报计量发展-情报学定量化研究:文献计量学及其应用(46.4%);情报检索;情报学理论研究;情报经济学与情报成果评价.-计量单元:册本为单位的文献单元-内部知识单元计算机辅助的计量研究和应用-大量规范数据源-数据处理和分析工具网络信息计量学研究,第一部分 文献计量学基本规律,一文献增长的基本估计 增长年率 6%8%CA 发表100万篇文摘所用年数 1.32年(19071938)2.18年 3.8年 4.4.75年 5.3.3年 6.2年,第一节 文献信息增长规律,二、文献激增带来的影响,图书馆:经费紧张、人力缺少、馆藏空间不足科学管理科技人员:阅读本专业文献的5%,情报损失量20%-80%有效利用科技情报科研工作;重复、浪费评价科研绩效,三、文献信息的指数增长规律,信息量度指标和方法1 绝对值指标:数量/累积数量(增长规律研究)2 相对值指标:比例/累积比例普赖斯,1949,哲学汇刊,t,F(t),科学文献的指数增长曲线,F(t)=aebt(a0,b0)a:统计初始时刻的文献量 b:持续增长率评价文献增长速度的定量标准:文献量增加一倍所需的时间(倍增期)不同学科的文献增长速度是不同的 化学化工:8-9年 原子能与环境科学:2-3年,从统计实例来看,科学文献指数增长率正确反映了文献的实际增长情况.1952-1982 世界图书,倍增率20年 1907-1977 世界化学,倍增率10年,局限性-科学文献并不总是按指数函数增长,还与学科和统计时间有关。学科范围越广泛,符合指数规律的时间越长;开始统计的时间越晚,增长率值越大。-指数增长曲线已有平缓趋势-指数规律不能预测文献的未来增长趋势,反映历史,不能预测未来对科学文献增长的机理研究不够没有考虑停刊因素没有考虑老化因素,四、文献信息的逻辑增长规律,A,F(t),t,K/2,增长率变小,延缓增长,并趋于一个极限值,弗来明等,1965-1975年间煤的气化法肥大细胞研究学科诞生和发展期:指数 学科相对成熟期或突破的前期;逻辑描述过去,预测未来,增长规律实际上是会受到许多因素影响和制约的,真正的预测需结合系统论。,1逻辑增长模型 原指生物学中的“生长曲线”,描述生物界一 类典型的繁殖过程,即开始阶段按指数规律 增长得很快,但随着时间的推移,繁殖速度 减慢,并逐渐趋于不增。一般称为饱和的指 数增长曲线。2逻辑曲线的机理分析 逻辑模型与指数模型的关系 dN/dt=bN(k N)与 dN/dt=bN,普赖斯指出:科学发展的所有明显的指数型终将成为逻辑型模型。指数型是逻辑型的发展的初始阶段,而逻辑型是指数型最终的发展趋势。逻辑型曲线的局限性是导致科学发展的极限论,增长率为零。3普赖斯纳里莫夫循环曲线,4科学知识增长规律总结,科学知识按指数增长的规律 恩格斯指出:科学按加速度发展,即按指数函数增长规律性发展。(图书文献的增长/科学知识的增长/科学指标的翻番时间)智力潜热现象,科学技术发展的波浪式前进,永无止境。科技文献的阶跃型增长曲线,五、文献信息增长的其他数学模型,线性增长模型分级滑动指数模型超越函数模型舍-布增长模型,六、文献信息增长机理的分析,科研经费和科技人员的激增使文献量增长普赖斯 n2 n n的平方根专业范围的扩大化和细分化学科之间相互渗透科学技术的国际化研究的合作化和集体化研究周期缩短,产生成果和转化速度加快通讯、出版技术的改进以及情报工作的加强(数据库),七、文献信息增长规律的应用,在科学学和科技史研究中的应用 模拟科学技术发展过程,探讨规律,普赖斯,在文献指数增长规律基础上得出科学技术呈指数规律增长的结论.在文献信息管理中的应用 图书馆经费的预算/资料收集的原则/馆藏增加的策略/存储空间扩大 在情报研究中的应用 专利文献是科技发展的最敏感指标,为技术引进提供决策依据,半导体扩散技术专利数,1950,1954,日本,1962,1966,1970,1958,世界其他国家,第二节 科技文献的老化规律,一、文献老化现象1.科技文献老化的概念 科技文献随时间的推移,使用频次逐渐减少的现象 美国,Gosnell,1944大学图书馆藏书的老化率:在知识的累积过程中,一些知识及其载体会逐渐失 去其原有价值。普赖斯:被引用数据,一篇文献平均寿命十年,对 老化进行了定量研究,2.情报老化与文献老化的区别,情报老化:情报的有效价值随时间流逝而减少的现象,情报可能在相当长的时间不会老化,而文献老化是针对用户而言,因用户的使用习惯而造成。,3.影响文献老化的因素,文献内容的变化:过时、错误、被普及、被替代文献增长的影响:一些文献被引用日益减少并非完全由于文献老化,而是由于文献的增长。学科性质差异:基础性学科、以客观事实和经验数据为主的学科(地质、植物)、应用性学科学科发展阶段:初始和发展阶段、成熟阶段用户需求:科技期刊、学位论文、科技报告、科技图书,二文献老化过程的定量研究,1.文献老化过程的定量研究方法文献流通统计数据分析法kent,6所科学图书馆,1968-1975,7年1)文献借阅次数统计2)文献流通量统计(如复印量)引文分析法(最多、最有效的方法)1)引用文献分析法(同时法)2)被引文献分析法(历时法),引文分析法:给定时间间隔,专业文献,参考文献出版年代的相对数量分布1988年,生物医学老化规律,引文量,1988,1980,1970,1960,1950,1940,1930,被引文献分析法:某专业一定量文献,引用这些文献的文献量按时间的分布研究。国际物理期刊老化研究 1960年,40种刊,2500篇文献,SCI,引文量,1960,1965,1970,1975,1980,1985,1990,2.模拟老化过程的数学模型,1)负指数模型 布鲁克斯的基本假设:科技文献的被引用数量随时间推移的衰减过程近似服从负指数模型,当文献达到被引用峰值后,便开始经历文献老化的衰减过程,于是就可以得到拟合度很高的负指数曲线负指数模型的形式 C(t)=Co e-bt=K e-bt观察SCI的引用数据表概率密度函数 f(x)=be-bx累计分布函数 F(t)=1-e-bt老化系数 a=e-b,2)伯顿-开普勒公式 y=1-(a/e x+b/e 2x)(a+b=1)3)莫德列夫修正式 y=1-(a/e x-0.1+b/e 2x-0.2)(a+b=1),被引文献累积百分比,出版年限,三老化速度的测度指标,1.半衰期和中值引文年龄贝尔纳定义适用于历时法:所发表的文献有一半不被引用的时间;评价专业、期刊、某篇文献的老化伯顿开普勒定义适用于同时法(中值引文年龄):参考文献中的一半所在发表时间段,评价某一学科或专业的文献老化趋势2008年,200篇,3000篇参考文献,1985-2005年,其中1500篇是1985-1995年,半衰期为10年,SCI 中的引用半衰期和被引半衰期定义2.计算方法作图法、公式法,3.普赖斯指数,定义的表述P=出版年限不超过5年的被引文献数量*100%被引文献总数量可以用于评价期刊,研究所的论文普赖斯指数与中值引文年龄的区别老化速度快,中值引文年龄短,P大,4.老化系数a=e-b测度文献老化速率的重要参数 其值大则老化慢,其值小则老化快,四文献老化规律的应用,在文献管理中的应用 1 指导剔旧工作,优化馆藏 2 提高文献服务的质量和效率 在科学学和科技史研究中的应用 根据文献老化曲线和量度数据,可以判断学科的性质以及所处的发展阶段,对学科的发展方向和发展趋势作预测。,第二部分三大定律,第三节 布拉德福文献分散定律,一布拉德福及其文献分散定律 1.SC布拉德福(18781948)英国 著名的文献学家和化学家 2.布拉德福设想:专业文献集中(1/3),分散于相关边缘期刊(1/3)和其他(1/3),3.期刊累计载文量大致相等的三个区域,这三个区域的期刊数量之比1:5:52,4.布拉德福关于文献分散现象的思考,通过期刊相关论文载文率的高低进行区域 划分,这些区域所含期刊的数目随着载文 率的下降而增多,呈现反比例关系。以此 可以定量测定学科间的联系程度和描述相 关论文在登载其期刊中的数量分布。,5.布拉德福定律的基本原理,布拉德福定律的基本原理 统计数据的处理,半对数坐标系 区域表示法和图形表示法 n1:n2:n3=1:a:a2 n1:(n1+n2):(n1+n2+n3)=1:A:A2 两种表示法的差异,二布拉德福定律的修正与发展,1.维克利的修正式 n1:(n1+n2):(n1+n2+n3):=1:b:b2.2.莱姆库勒对区域法的发展 F(x)=ln(1+Bx)/ln(1+B)公式形式简单,单参数,便于应用。在确定了参数B以后,只要知道论文的覆盖比例就可以确定期刊的最低数量。,3.布鲁克斯对图形法的发展,a n B(1 n C)R(n)=k ln n/s(C n N)参数讨论:1)当期刊总数N充分大时,N=K,N 等于图形直线部分的斜率。2)S为重要参数,标度学科专业范围大小的指标。,3)其他参数 A=R(1),表示等级为1的期刊的载文量,C 为核心期刊数 B 为参数,等于曲线部分的曲线 K 为参数,等于直线部分的斜率 三布拉德福定律的应用1.确定核心期刊2.制定文献采购策略3.评价检索工作4.根据流通数据确定采藏策略,第四节 齐普夫词频等级分布定律,一齐普夫与词频分布研究 齐普夫的研究工作 美国哈佛大学教授,语言学家 词频分布的概念 不同词汇的出现频次具有一定的统计规律性 词频分布的早期研究 编辑频率词典,频率与等级序号之间反比关系 法国艾斯杜和美国康登的工作,二齐普夫定律的基本原理,1.齐普夫第一定律 f r=C r-1 其中:f r=n r/N 为词汇出现的频率,r为词汇的等级序号。词频与等级序号间的一次反比律 2.最省力法则 人类行为与最省力法则人类生态学引论。任何人在做任何事时,都希望付出的代价 最小,而获得的收获最大。3.用最省力法则解释齐普夫定律 齐普夫提出“单一化的力”和“多样化的力”作用概念。,蒙代尔布罗从信息理论出发,建立 广义齐普夫定律。,4.齐普夫定律基本原理 定律的文字与图象描述 文字描述:f r r=C 图象描述:直角坐标系下为双曲线 双对数坐标系下为直线5.齐普夫定律的局限性 对高频词和低频词的解释存在不足,三齐普夫定律的理论发展,主要研究方向:关于参数的讨论;关于低频词 分 布的推导,建立齐普夫第二定律。1.朱斯修正式 f r.r B=C 2.蒙代尔布罗修正式 f r(r+m)B=C 参数M主要功能是对高频词的修正。参数B用以描述低频词。M=0 为朱斯修正式,B=1为齐普夫定律。,3.布什低频词词频定律,确定具有相同词频等级的方法(1)平均等级法(2)随机等级法(3)最大等级法 齐普夫第二定律 尽管文章的单词量各不相同,但是比值 I1/D 却十分接近。布什据此导出齐普夫第二定律,也称布什低频词词频定律。,四齐普夫定律的应用,1.词表编制2.利用齐普夫定律,解决词汇控制,词表 规模确定,选词标准等问题。3.文献标引控制 齐普夫定律主要应用于统计标引法。确定有效词的词频值。从而可通过计算机确定有效词。4.情报检索的文献组织 倒排档中,入档词出现的频次 Pr=A/r(A 近 似为0.1),可确定倒排档大小。,在科学评价中的应用1.加拿大蒙特利尔大学,纳米科研与发展报告79个关键词检索,年中,50个高频词,25484篇,按国别分类,根据词频高低排序,分析各国研究优势与劣势。2.中草药文献,10年,MeSH词频排序,43个高频词,共现情况分析词间关联关系,中草药的研究热点。,第五节文献信息作者分布规律洛特卡定律,三大基本定律之一(高产作者、核心期刊、高频词)1926年,the frequency distribution of scientific productivity,作者数与论文的平方反比数量关系科学生产率:在给定时间内,个体科学工作者所发表的论文数量。揭示科学生产率以及作者与论文之间的数量关系。,1.洛特卡的研究:物理(物理学史一览表)化学(CA)没有考虑科学合作者在文献分布规律中的作用.2洛特卡定律lnfx=-2lnx+lnCfx=C/X2在某一时间内,写了X篇论文的作者数占作者总数的百分比fx与其撰写的论文数X的平方成反比。,利用级数可定义C值,C=0.6079 fx=0.6079/X2 C 值的实际意义是f1 的数值,即发表过一篇论文的作者数所占的比例。生产1篇文章的作者数是全体作者的60%左右.,洛特卡定律的文字表述 f(1)=z1/z总=c f(n)=zn/z总=c/n2 f(n)/f(1)=zn/z1=1/n2 写n篇文章的作者数是生产1篇文章作者数的1/n2,且生产1篇文章的作者数是全体作者的60%左右.,洛特卡定律的特点:1.科学论文在作者上集中与分散的分布现象2.采用频次排序的方法,即按某类作者出现的频次大小(实际发表论文数)排位,而非按照作者所写的论文多少比较来对作者进行等级排序,因而等级上会有空位。3.论文在作者上的集中与分散程度只限于平方反比关系,即只给出了这种集中与分散程度的单一描述.,二洛特卡定律的修正与推广,1洛特卡定律的局限性 统计数据不全 合著者处理过于简单 高产作者的处理,2洛特卡定律的修正与推广 广义洛特卡定律 fx=C/Xa(1.2 a 3.8),3普赖斯定律,1969年,小科学,大科学,平方根定律:完成该专业论文总和一半的高产作者的人数在数量上应等于该专业作者总数的平方根。总计2500人,10000篇,其中5000篇高产作者50人卢梭定律:在规模为的人群总体中,内含杰出的精英为N 0.5作用:宏观描述作者与科学论文之间的相对关系,从而指导我们估算高产作者的规模以及他们的著述能力。,三洛特卡定律的应用与评价,作者职业结构和科学研究取向A=a1/a2A2 理论性研究为主新老作者结构A/N A:新老作者总和N:论文总数C/N C:新作者数C/N与 A/N越接近,学科吸引较多的人员进行研究,正处于重大突破前期。,作者地区结构与科学活动的中心 日本,汤浅光朝,当某个国家科学论文作者人数和科学成果数超过全世界的1/4,则科学活动的中心转入该国新老作者比例与研究队伍D=d1/d2 一定程度上反应研究队伍的稳定性与学科的成熟度,第三部分 引文分析方法,第一节 引文与引文分析,一基本概念 1.参考文献与引用文献(引文)普赖斯的定义 参考文献Reference 引证文献Citation注意:人们常常称参考文献为引文。2.引文网络 文献相互引证的关系结构,3.引文分析 利用各种数学及统计学的方法和比较、归纳等逻辑方法,对科学期刊、论文、著作等各种分析对象的引证与被引证现象进行分析,以揭示其数量特征和内在规律的一种文献计量分析方法。二.引用行为和引用动机 科学工作者的引用行为是科学活动中普遍存在的现象,是科学交流不可缺少的一部分。引用动机包括正常动机和反常动机 由于反常引用动机的存在,影响引文分析的客观性和准确性。,第二节 引文分析基本方法和检索工具,一.两类基本方法直接分析:从引文数量分析,评价期刊和论文引文聚类:引文间的网状关系,揭示学科结构与发展趋势 二.引文分析工具科学引文索引(SCI)期刊引证报告(JCR)中国科学引文索引,三科学引文索引(SCI),1.科学引文索引(SCI,science citation index)1961年,SCI印刷版,光盘版,100多个学科专业,4000余种刊 SCI-E,网络版,6000多种重要期刊,可查到文摘、参考文献,被引证情况,回溯到1945年 1979年,JCR,2.基本科学指标 ESI(Essential science indicators)2001年由ISI推出,衡量科学研究绩效,跟踪科学发展趋势的基本分析评价工具,是基于SCI,SSCI,共8500多种学术期刊而建立的计量分析数据库。针对22个专业领域,分别从国家、研究机构、期刊论文、科学家等进行统计和排序。,ESI结构:科学家排名:5万/300万,论文10年被引频次机构排名:3000/100万,各研究机构10年被引频次总和,前1%国家排名、期刊排名、高被引论文热门论文:出版不足2年,很快就高被引,四、国内引文分析的检索工具,中国科学引文数据库(CSCD)1989年,印刷版,2002年,网络版,1000种刊,核心刊,670种,中科院国家图书馆与清华大学,成立中国科学计量评价研究中心中国科技论文与引文分析数据库(CSTPC)1989年,中国科技信息研究所和万方数据创建中文社会科学引文索引(CSSCI)1998年,南京大学中国社会科学研究价中心与香港科技大学,人文社会科学期刊419种,海外17种,中国人文社会科学引文数据库2002年,中国社科院文献情报中心,600多种刊中国引文数据库中国学术期刊电子杂志社,CNKI,日更新,第三节 科学期刊的引文分析,引文量按频次的分布引文按年代的分布引文按文献类型的分布引文按学科或主题的分布引文按语种的分布引文按国别的分布引文按作者的分布引文按期刊的分布,一期刊引文分析与文献集中规律,被引文献高度集中现象 SCI:所有引文的75%来自1000种刊;500种刊,引文占SCI收录引文的70%CSCI:参考文献的一半来自被引期刊总数的3%;被引期刊总数的25%承担了90%的引文量;被引文总数的75%只涉及72种被引期刊。,二评价期刊的主要指标,期刊载文量:期刊全部论文数,期刊生产论文能力期刊引用率:全部参考文献数,期刊吸收外部文献能力期刊被引率:被引证的全部次数,用户评价期刊平均引文率:平均引证率,平均被引率影响因子:1972年,某刊前两年发表论文在该年的被引证次数/该刊前两年发表论文总数,在JCR公布即年指标:该刊某年发表的论文在当年的被引次数/当年发表论文的篇数期刊自引率:引证该刊自已发表的论文的次数/期刊参考文献的总数期刊自被引率:被该刊自已引证的次数/期刊被引证的总次数,三期刊引用报告(JCR),JCR 基本情况JCR 编制体例JCR 的发展,四.JCR 在期刊评价中的应用,确定核心期刊:选定该专业有代表性的期刊 1-2种,然后通过JCR中查找该刊所引用过的 期刊,并按这些期刊的总被引次数或影响因 子排序。(布氏、加氏)期刊老化研究:半衰期数据 期刊综合评价:判断学科性质等,五.我国期刊评价的研究工作,1.中国科技期刊引证报告 2.中国学术期刊综合引证报告 3.科学计量评价指标 六.电子期刊与网络计量评价,第四节 引文网络与聚类分析,文献耦合1963年,麻省理工学院,kessler,同时引用一篇论文的论文之间称为耦合。耦合强度的测度:共有的参考文献篇数文献同引1973年,两篇论文同时被后来的文献所引用文献耦合与文献同引的比较,二耦合分析与同引分析,耦合分析研究学科的内部结构,划分出在专业上相近的一个个耦合强度较高的论文簇,并且给出簇与簇之间疏密不同的联系,形成相互影响的引文网络。文献耦合分析、期刊耦合、作者耦合、学科耦合 同引分析三文献的聚类分析1972年,加菲尔德SCI对自然科学进行的聚类分析工作,第五节 引文分析在科技管理中的应用,一.在科学学研究中的应用研究科学结构研究科学史二.评价科学家及其成就评价人才评选杰出科学家预测未来获奖者三.评价国家、地区及科研机构的科研水平四.我国在科研评价方面的研究工作,网络计量学简介(Webometrics,Cybermetrics),随着数字化、网络化时代的到来,虚拟图书馆和网络期刊成为科研工作者获取文献与信息的主要途径。这就使得对于网络信息文献的计量和评价变得越来越重要,成为人们迫切需要研究的新课题,具有非常重要的理论意义和广阔的应用前景。网络计量学已迅速发展成为科学计量学中一个新兴分支学科。,网络计量学:综合采用文献计量、信息计量、统计学方法、计算机技术等对网络信息规律进行计量分析的一门科学。国际上从1995年开始重视并提出网络计量学的概念,至1999年形成研究热点,进入2000年,科学家们开始探讨网络计量学的学科体系和理论框架,并进行了许多有意义的应用研究。,例如:网络环境下科学信息交流分布规律和科学研究发展趋势;超文本系统的分形特征和信息计量问题研究;网络环境中引文分析技术的应用,以及对传统引文分析评价指标的改进修正;网络计量学中累积优势原理与核心期刊的研究;网络文献的增长与老化研究;网上信息动态跟踪与数据自动处理软件研究等。,许多国家的科学家开设了网络计量学的研究网站和网上期刊,鼓励和引导人们致力于这一新的研究领域。理论问题:网络信息分布规律;网络信息增长规律;网络信息老化规律;网络信息关联规律;网络信息离散规律等。,方法问题:基本测度指标;网络信息内容的测度;网络信息结构的测度;网页的链接分析;网页的影响因子等应用问题:网上电子期刊图书的计量分析;数字图书馆信息的计量分析;网络站点的增长、分布、联系等;网络经济信息的计量分析。,参考文献庞景安,科学计量研究方法论,科学技术文献出版社,2002.42.邱均平,信息计量学,武汉大学出版社,2007.1,谢 谢 大 家,