(图灵指数)学术大数据下的跨领域跨年代学者影响力评估.docx
《(图灵指数)学术大数据下的跨领域跨年代学者影响力评估.docx》由会员分享,可在线阅读,更多相关《(图灵指数)学术大数据下的跨领域跨年代学者影响力评估.docx(14页珍藏版)》请在三一办公上搜索。
1、随着学术界规模的扩大,面对领域和年代的巨大差异,现有的衡量学者影响力的量化指标很难消除偏差,从而进行准确衡量。通过观察18652016年、310个领域、14223183位学者、126438664篇论文和533556856次引用的数据集,得出不同领域、不同年代的新增引用量分布均遵循累律分布,因此提出图灵指数,通过归一化消除指数膨胀的影响,衡量学者的绝对影响力。通过对诺贝尔奖、菲尔兹奖、图灵奖等获得者的图灵指数的比较发现,尽管他们在领域和年代上存在很大差异,但是在各自领域却有着相似的影响力。图灵指数为跨领域、跨年代学者影响力评估提供了全新的思路,也为国内外学者影响力评估和基金审理提供了参考。1引言
2、目前,越来越多的人投身于学术界,并在众多研究领域取得成就。如何量化众多学者的影响力已引起了全世界的关注,对学者影响力进行评估,对基金项目进行评审和学术奖项评选等都有很重要的意义,可以推动学术界进一步的发展。目前,最广泛使用的评价指标是引用量,即学者发表论文的总被引用次数。另一个广泛使用的指标是H指数,它根据研究者被引用最多的论文数目和被引用次数来衡量学者的产出和影响力。上述两种方法均未考虑领域和年代的影响,研究人员基于引用量和H指数提出了一些变体,用于衡量学者的个人水平。随着时间的推移,出现了很多解决学术影响力量化问题的方法。由于领域本身的迅速发展和不同领域的不平衡发展,一些工作分别考虑了不同
3、年代、不同领域对影响力量化的影响,并且基于引用量和H指数的归一化来平衡不同年代、不同领域学者的相对位置。在消除年代和领域的影响时,这些指标都没有合理考虑学术界规模迅速扩大造成的影响,导致评估结果并不理想。2学术界的指数膨胀为了对不同领域、不同年代的学者进行影响力评估,笔者对学者和论文数据进行了统计和收集,数据来源于ACemaP和微软学术。微软学术利用论文发表期刊、标题和正文等信息对论文所在领域进行层次划分,划分结果得到了学术界和工业界的广泛认可。本文利用ACem叩整合微软学术从1865年到2016年的310个领域、14223183位学者、126438664篇论文和533556856次引用的数据
4、集,进行学者影响力评估的探索。主要领域的学者、论文和引用量等统计结果见表Io1敬密集主要领域信总燎计主要领域检文教/结引J11fit次学者数/位子领域数/个时间政治学2294741307131749082S019282016年药学659383647987676699626167518752016年哲学13673949352141321093166518742016年化学771726755106936262877352218652016年羟济学392878228015103313730234919062016年历史学62035539064172746965618902016年数学79099505
5、8A5640547308802518892016年生物学77514835619200703831641741&W2016年计算机科学751284957184995474060518118892016年材料科学25538601854914232512094519022016年社会学310788221307422755201204818972016年地质学262446318735592570621212018952016年心理学435457731459854278842243018972016年环境科学44141028935558557017819012016年物理学947169867077466
6、142982662018652016年工程学581925943237804374996268918H92016年艺术学4562713205085478542219102016年地理学57123342377966579050219122016年衅1086437767941115116453618942016年如图1所示,历年新增论文、引用量和学者数目均呈指数级增长,可以看出学术界在飞速发展。从图1可以看到两个明显的凹陷,分别在1917年和1941年左右。笔者认为这是由两次世界大战造成的,可见军事对科学研究也会产生很大影响。图1历年新增论文、引用量和学者数目统计本文对各个主要领域内部的发展情况进行
7、了统计,如图2所示,不同领域由于发展情况不同,线条的斜率和截距不同,但均呈指数增长。其中C为引用量。图3显示了指数膨胀的学术网络,图3中红线表示每年活跃学者的数量,网络中的彩色节点表示不同领域的活跃学者,每个簇代表一个领域,可见领域的膨胀是非常迅速的。图4为从1950-2014年16个物理子领域的历年引用量增长情况,该领域内部的子领域发展也是不均衡的。1071960年2000年1980年 年份图3学术网络指数膨胀可视化,K遍生n2010年2006年2002年1998年1994年-19901986年1982年-1978年一1974本197。年1966年1962庠一1958年-1954年1950年
8、图4物理子领域历年引用量增长3指数膨胀效应对学者影响力评估的影响随着学术界的指数膨胀,发表更多的文章、获得更多的引用量变得更加容易,在这种情况下,以往的文献引用和H指数等指标无法很好地描述学者在以下3种指数膨胀效应下的影响。一是时间的膨胀效应。学者在不同时期的相同引用量是不等价的。由于学者和论文数量不断增加,现在的学者论文更容易被引用。1980年被引用1()()次的学者可能比2018年被引用100次的学者具有更高的影响力。同样,H指数也没有充分考虑时间效应。因此,仅仅采用引用量或H指数可能会导致一种错误的判断,即年长的学术巨头和年轻的学者对学术界具有相同的影响力。二是领域的膨胀效应。一个重要但
9、通常被忽视的因素是研究领域发展水平不均衡带来的影响。虽然不同领域的引用量均呈指数增长,但其膨胀速度和状态不同,发展水平也不同。例如,生物学的年总被引次数大约是政治学的40倍。图3给出了活跃学者在不同领域的膨胀情况,领域的大小按照它们自己的节奏发展,即使在单个领域(如图4所示的物理学领域),其子领域的发展水平也是完全不同的。拥有相同引用量的不同领域的学者,他们在各自领域的影响力是不相等的。在蓬勃发展的热门领域和在小众领域得到相同的引用量是不等价的。三是年代的膨胀效应。即使在同一时间、同一领域内拥有相同的引用量和H指数,但在学者们活跃年代不同的情况下,他们的影响力也可能存在差异。活跃年代是指学者在
10、所属领域内被引频次数快速增长的时期。如图5所示,威廉菲利普斯和迈克尔弗莱施豪尔是量子光学领域的两位杰出物理学家。根据谷歌学术统计,截至2018年,威廉菲利普斯共获得引用23750次,H指数为66,而迈克尔弗莱施豪尔的被引用次数和H指数分别为21578次和60o虽然他们有相似的引用和H指数,但威廉菲利普斯(活跃年代为20世纪90年代)比迈克尔弗莱施豪尔(活跃年代为21世纪初)有更早的活跃年代。也就是说,在一个全新的、学者较少的领域获得相同的引用通常比在一个成熟的领域难得多,而且领域的开创者比追随者影响力更大。因此,目前威廉菲利普斯对量子光学的影响大于迈克尔弗莱施豪尔,而实际中,威廉菲利普斯获得了
11、诺贝尔物理学奖,也验证了本文的观察。图5两学者历年新增引用量比较然而,上述观察中得出的结论主要是基于人的主观经验。那么是否有一个量化指标可以消除领域和年代的膨胀效应,为学者提供科学客观的评价?作为一种大胆而又严谨的尝试,本文提出一种新的度量标准,即图灵指数(TUringindex),以重新评估学者的影响。4图灵指数为了消除不同领域、不同年代对学者影响力评价的影响,本文首先研究了各个领域每年学者的新增学者引用量分布,即学者的数量与特定年份内相应增加的引用分布情况。为了寻找合适的量化指标,本文从数据集中提取数据,并绘制历年学者新增引用量分布图。图6为2015年物理领域的引文网络,图6中每个节点代表
12、2015年在物理领域发表或引用论文的活跃学者,红色节点的度数较高,绿色节点的度数较低,从图6可以看出,极少数红色节点被绿色节点包围,由此笔者猜想引用量分布符合累律分布,即红色节点获得大部分的引用次数,大多数的绿色节点被引用次数则少得多。为了验证这一猜想,基于对每年论文的新增引用量和这些论文的所属学者和领域,本文计算出1228960765条四元组,每一条四元组都由学者、领域、年份和引用组成,表示每年每个学者在不同领域的新增引用。图62015年物理领域学者引文网络利用四元组,本文用对数图绘制学者的引用量分布情况,如图7所示,尽管不同领域的学者数量不同,但这些引用量分布都可以通过线性函数很好地拟合,
13、说明它们都遵循事律分布,其形式如式(1)所示。n=N(k-l)ck(1)其中,n表示每年被引用次数增加数值为C的学者数目,N为当年被引用的活跃学者总数,k为比例指数。引用量分布的归一化是为了让不同慕律分布公式符合相同的参数。为此,本文假定目标归一化领域ft)有NO个学者和标度系数k,同时引用量为Co的学者有NO个,那么其引用分布为:no=M(-l)c0*(2)同样,本文假设未归一化领域fi(iZl)的引用分布为:ni=Ni(ki-1)ci*(3)为了使领域fi具有与领域f相同的分布,本文需要在ni=n时,使得新增引用量Ci归一化为c,其中,c表示在领域fi中引用量为Ci的学者P归一化后在领域f
14、中的绝对位置。然后有:Ni(ki-l)c=N0(k0-l)cnki(4)因为NO和k是常量,所以有:幺QoCrlT=7-0rM%(*l-卢In(a)社会学和物理学较域(0经济学和计算机科学领域图7不同领域不同年代新增引用量分布情况其中,=o针对归一化,本文将CO作为学者的影响力I,学者P在该领域的成就可表示为:Adlk(6)领域通胀水平为:D=Na(k-l)a(7)领域的k值越高,则在该领域越难得到同样的引用量c,因此,相同引用量产生的影响力越大。活跃学者人数N的增加导致领域通胀水平D的增加,从而刻画指数膨胀效应。是一个常量,可以看作一个平衡项,以防止归一化度量的欠收敛和过收敛。图8显示了在3
15、种情况下,领域和年代的归一化过程:相同年代不同领域、不同年代相同领域、不同年代不同领域。归一化后,不同领域、不同年代的引用量分布基本一致。基于式(5)和提出的指标A和D,学者P在领域f从S年到t年的总影响力的图灵指数Tp,f,t为:九=i()生物学与匚稗学领域(0经济学与计算机科学领域图8不同领域不同年代新增引用量分布归化结果利用式(8),可以在相同条件下评估跨领域和跨年代学者的影响。5跨领域、跨年代学者影响力对比本文建立了一个基于数据集的系统来计算和存储不同领域和不同年代学者的图灵指数。一个学者可以属于多个领域,通过对每年增加的引用量进行归一化处理,本文得到了1228960765条包含学者、
16、领域、年份和图灵指数信息的四元组。为了更好地理解图灵指数如何消除通胀差异、评估不同领域不同年代的学者的影响力,本文分别基于引用量和图灵指数衡量诺贝尔奖、菲尔兹奖和图灵奖得主的影响力,并进行比较。截至2015年入选学者的获奖统计数据见表2。2学者获奖统计姓名获奖名称年份贡赋引用量/次图灵指数AriehWarshel塔贝尔化学奖2013年豆杂化学系统32222254BarbaraMcclintock诺贝尔生理学或医学奖1983年可移动速传因子38092245BruceBeutler塔贝尔生理学或医学箕2011年先天免发活化156504558EdmundMClarke图灵奖2007年模型检查13A8
17、2607EricBetzig诺贝尔化学奖2014年灵光显Ut镜64224509JeanTirole诺贝尔羟济学奖2013年巾场权力及规管30315650JohannDeisenhofer塔贝尔化学奖1988年光合作用中心56963662JohnEHopcroft图灵奖1986年轼法投计84496020OliverEWilliamson诺贝尔经侪学奖2009年经济治理51315237PaulNurse诺贝尔生理学或感学奖2001年和跑周期调节器110482613PierrelouisLions再尔投奖1994年偏微分方程39082747RalphMSteinman诺贝尔生Bl学或医学奖2011年
18、用突蒯MS186835820RoaldHoffmann雷贝尔化学奖1981年化学反应过周17372261ShujiNakamura诺贝尔物理学奖2014年筮色发光二极管44122832SusumuTonegawa诺贝尔生理学或医学奖1987年抗体的多样性174195150SydneyBrenner诺贝尔生理学或医学奖2002年壁因调控68962125TerenceTao派尔及奖2006年偏微分方程97063750本文对相同年代不同领域、不同年代相同领域和不同年代不同领域这3种情况进行对比。(1)相同年代不同领域相同年代意味着相关学者的研究生涯大致是在同一时期开始的,引用量的增长速度因领域而异。
19、由于一个领域的学者数量可能是另一个领域的30倍,所以领域的发展水平可能会形成巨大的对比。从图9(a)和图9(b)可以看出,诺贝尔生理学奖得主PaulNurse和菲尔兹奖得主PierrelouisLionS之间引用量的显著差异并不意味着他们的影响力存在巨大差距,因为他们在不同的领域。对各自历年新增引用量进行归一化处理后,两位学者的图灵指数表明,他们对各自领域的影响是相当的,发展轨迹也几乎相同。同样现象也出现在图9(C)和图9(d)中,其中,诺贝尔生理学奖获得者RalphMSteinma在免疫学这一庞大的领域中被引用的次数较多,而诺贝尔经济学奖获得者JeanTirole在工业管理这一领域中被引用的
20、次数较少。通过引用量分析,Steinma的影响力似乎比TirOle大得多,但图灵指数显示两者的影响力相同,甚至轨迹相同。另一个发现是,由于领域迅速发展导致的膨胀,学者们可能会遵循不同的发展模式,这些发展模式无法在传统的总引用量衡量中体现。例如,在图9(e)和图9(f)中,BnICeBeUUer的图灵指数呈线性稳步增长,而EriCBetZig在开始发展时较平缓,1992年后出现了一个跳跃,这说明他可能在那一年取得了很大的突破。这一观察可以被证实,在1992年,EriCBetZig发表了一篇关于显微镜的论文,而这是他获得诺贝尔奖的主要贡献。*7亭i9XF .201 稣保伶() Ptui Nurvc
21、Fc*da) LierckM I om历WM尺用散“比希果lW- 0WfytW Rr RcwiM和FCt Bcizig 历彳司刑UH匕M果20COr 20IOrrttMS.=F(0 RruccBcfdFzRcJ”吻&阻其箭RW比格果ototr I(W 2xw 200r 中伶1的Og wy. 2000年 JUIK(0 ArichWHidMRmoffteE场年方姗w比的Z(j) Artch WMMKcM HcifThiVWWq-1iftMttt%lIW冷I晒向、似用2Cwr 年份(r) SM dnwCM Ne 历二小阳蝌对比站出):、,匚10IOMMr 博怀年 20CO 201 CW0) 91vi
22、 NiKAmiiM!Rul Nurc 3j ffi XHiM MltM !C191MWr 而和RbidMMne 4年引IIJN “叱M央I91ff 990r 2IIMr 20l(XfWO(h) F Hopcwh4F4rr S BMt MCdifU2 Sv(Jc BlCnnaIllBeitMfa Mcliock历年引MaM比5豪OjWXft! wslpl*7(Xt IWrI98年 2000 年力1姆 年伶舜王一SKM(% IOOCHf MOg SOIO O) OtrVCf(- WilhnIwf和SuMimu TtKft*A9)OIiErWIgGyIe 和IOOCOiG; c.TSOU -.:J-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 指数 学术 数据 领域 年代 学者 影响力 评估
链接地址:https://www.31ppt.com/p-6950792.html