第3章信息分布ppt课件.ppt
信息资源管理,Information Resource Management,第3章 信息分布 Information Distribution,在信息传递过程中产生的大量信息呈现出怎样的分布呢?信息生产的多目的性和无序性,使信息分布十分复杂,研究具有较大难度。文献作为信息的主要载体,具有较好的稳定性和可计量性,由此出现了一些文献信息分布的经典定律,揭示了信息管理的基本定律,对实际的信息管理具有重要的指导意义。网络环境下信息资源的分布也成为近年来的研究热点,可以进行一些初步探讨。,3.1 信息产生与分布中的马太效应,1、什么是马太效应(Matthew Effect)?,先看一个小故事吧,有一家主人,远行前叫仆人来,把家业交给他们,按着各人的才干,给他们银子,一个给了五千,一个给了三千,一个给了一千。领五千的拿去做买卖,另外赚了五千;领二千的也照样另赚了二千;领一千的把银子埋地里了。过了许久,主人回来了,和他们算帐。领五千的说:主啊,你交给我五千银子,我又赚了五千。主人说:好,我要把许多事派你管理。领二千的说:主啊,你交给我二千银子,我又赚了二千。主人说:好,我要把许多事派你管理。领一千的掘开地说:主啊,你的银子在这里。主人夺过他这一千,给那有一万的,说:凡是多的,还要给他,叫他有余。凡是少的,就连他所有的也要夺过来。,圣经新约.马太福音美国学者默顿引用,3.1 信息产生与分布中的马太效应,1、什么是马太效应(Matthew Effect)?人类社会特有的选择机制(社会惯性),即优势和劣势都有其积累过程,成功的积累使其更具优势,形成“富集”;失败的积累使其劣势增强,形成“贫集”,从而形成强者愈强、弱者愈弱的社会现象。社会信息流亦是如此,由此也出现了信息分布的“富集”和“贫集”现象。,大家总是找生意好的饭店吃饭,哪怕要等一等。人越多的饭店生意越兴隆,门庭冷落的饭店生意越惨淡。,3.1 信息产生与分布中的马太效应,2、马太效应在文献信息分布中的表现核心趋势:信息生产者主动期望和采取行动的结果。形成高产作者群体期刊信息密度增大,形成核心期刊形成高频词汇 集中取向:信息生产者处于被动,是社会选择和影响的结果。一篇论文多次被引用一个网站被众多用户点击,3.1 信息产生与分布中的马太效应,3、马太效应的在文献信息分布中的作用积极作用产生富集现象,提供选择捷径优劣的描述可以让人们较快识别信息分布规律,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。产生核心信息源,形成对“成功”的激励核心信息源的形成有一个积累过程,其优势也会在积累中放大。,3.1 信息产生与分布中的马太效应,3、马太效应的在文献信息分布中的作用负面作用忽略分布在其他信息源中有价值的信息。青睐名人、拒绝新人,易导致信息对象的优势和劣势的过度积累,限制了新思想、新知识和新信息的产生及传播。信息分布富集可能仅仅是表面的、外在的(炒作?)。,马太效应的积累要适度,不能太任性。适当的干预是必须的。,3.2 信息内容的离散分布规律,研究成果主要以科学文献信息为对象。,1、布拉德福定律英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础上,提出“布拉德福分散定律”(Bradfords Law of Scattering),简称布拉德福定律或布氏定律。,3.2 信息内容的离散分布规律,应用地球物理学论文的布氏分布,1、布拉德福定律布拉德福定律的经验数据若将刊载“应用地球物理学”论文的所有期刊,按载文量划分为核心区1、相关区2和非相关区3,使每区论文数大致相等,则期刊服从布拉德福定律分布,即:9:59:258=1:5:52,3.2 信息内容的离散分布规律,1、布拉德福定律布拉德福定律的区域表述(经验定律)如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列,把期刊分为专门针对这个学科的核心区、相关区和非相关区。若各个区的文章数量相等,则核心区、相关区,非相关区期刊数量为1:a:a2的关系(a1,且a5)。基本要点频次等级排序,形成主体来源(期刊)的有序目录。确定相等载文量的期刊分区,得出相关论文在主体来源中的分布规律。,3.2 信息内容的离散分布规律,1、布拉德福定律布拉德福定律区域表述的数学解释,令 m1,m2,m3为1、2、3各区中的论文数量(m1=m2=m3),p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量。则有:令于是,3.2 信息内容的离散分布规律,1、布拉德福定律布拉德福定律的图形描述如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,绘制 出的曲线称为布拉德福分散曲线。,布拉德福分散曲线 由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线BD(格鲁斯下降)。,3.2 信息内容的离散分布规律,布氏定律区域表述与图形描述为什么存在差距?,1、布拉德福定律布氏定律区域表述与图形描述差距的原因分析学科界定:运用布氏定律时,必须满足严格的先决条件,即学科界限必须经纬分明。但现代科学技术互相交叉渗透,边缘学科越来越多,如本应属于情报科学的文献,也会将其归于计算机科学,从而造成统计上的误差。数据源:应用布氏定律时,均借助于书目、索引、文摘之类的工具书。在编纂这类工具书时,编撰人员都要对原始文献进行选择和加工,统计结果没有原始文献可靠。其他:在实际统计各种数据时,会遇到干扰,如期刊的更名、停刊、重复发表等造成统计数据的不精确。,3.2 信息内容的离散分布规律,3.2 信息内容的离散分布规律,3.2 信息内容的离散分布规律,2、齐夫定律齐夫定律的经验数据,3.2 信息内容的离散分布规律,词 频 分 布,2、齐夫定律(Zipfs Law)齐夫定律的表述如果将一篇较长文章(约5 000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:式中c为常数。,3.2 信息内容的离散分布规律,2、齐夫定律齐夫定律的图形表达如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线。,3.2 信息内容的离散分布规律,f,250,200,150,100,50,300,r,1,3,2,5,6,4,齐夫词频分布曲线,2、齐夫定律齐夫定律图形的变形如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为:,3.2 信息内容的离散分布规律,Lg f,Lg r,齐夫词频对数分布曲线,图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为:,2、齐夫定律齐夫定律的理论基础“省力法则”假说。齐夫认为,在语言交流过程中,说话人希望用词少,一词多义,以节省其精力。听话人希望一词一义,使听到的词与其确切涵义容易匹配,减少理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的双曲线型分布。“成功产生成功”假说。H.A.西蒙构造了一个概率模型:在文献中,一词使用的次数越多,再次使用的可能性越大。普赖斯后来也建立了一个相类似的模型,并明确地提出了“成功产生成功”的假说。,3.2 信息内容的离散分布规律,例:越是简便易用的检索系统,用户使用的频率越高。“网络流行语”的产生也是因为它既简单精炼,又内涵丰富,交流双方均“省力”。,3.3 信息生产者分布规律,1、洛特卡定律统计学家洛特卡试图通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。选择美国化学文摘和德国奥尔巴赫物理学史一览表为数据源研究科技工作的论著数量分布。1926年,在美国著名学术刊物华盛顿科学院学报发表“科学生产率的频率分布”一文,1949年引起学术界关注。,3.3 信息生产者分布规律,1、洛特卡定律洛特卡定律的图形描述以论文数(x)和作者数(yx)的对数为横坐标(logx)和纵坐标(log yx),两组数据都是直线。图中:虚线表示化学文摘数据,实线代表物理学史一览表的数据。用最小二乘法计算拟合直线的斜率,近似为-2。,Log yx,Log x,10,5,3,2,1,5,1,25,30,100,20,洛特卡分布曲线,3.3 信息生产者分布规律,1、洛特卡定律洛特卡定律的数学描述根据经验数据,在论文数x和作者数之间存在下列关系:式中,yx是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。通过变换可以得到下面的公式:,3.3 信息生产者分布规律,1、洛特卡定律洛特卡定律的数学描述 令,表示写x篇论文的作者出现的频率。是新的常量,表示作者取样总数比例,这样可以写成:这就是著名的平方反比分布。并且可以求得常数:C0.607960.79%,即按照平方反比分布,所有生产一篇论文的著者的比例刚刚超过60。,3.3 信息生产者分布规律,例:物理学史一览表数据中,共有1325位作者,写一篇论文的为748人,占总数的59.2%。,1、洛特卡定律洛特卡定律的数学描述 如果取绝对数,则可表述为:生产2篇论文的作者大约是生产1篇论文作者数的(即)生产3篇论文的作者大约是生产1篇论文作者数的(即)生产n篇论文的作者大约是生产1篇论文作者数的,洛特卡定律是对信息生产的一般理论估计,不是一个精确的统计分布,因而有其局限性,可以将其视为一个特例。,3.3 信息生产者分布规律,2、普赖斯定律普赖斯定律的数学描述核心生产者分布的“平方根定律”在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的“那些人”(核心或高产作者)撰写的,该定律可表示为:式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数。m可由下式确定,即高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的平方的0.749倍。,普赖斯定律简洁地描述了信息按生产者能力分布,从而揭示了少数信息生产者生产了大量信息的规律和特点,充分显示了马太效应的作用效果。但不能将普赖斯定律绝对化,仅是洛特卡定律基础上提出的一种假说构想。,3.3 信息生产者分布规律,3.4 信息对时间的分布规律,美国科学家、科学计量学奠基人、情报科学创始人之一普赖斯,1、指数增长律(1)普赖斯曲线以某一时期物理学文献为样本。若以文献量为纵轴,以历史年代为横轴,把各不同年代的文献量在坐标图上逐点描绘出来,并用光滑曲线连接各点,则可十分近似地表征文献随时间增长的规律,称为普赖斯曲线或指数曲线。,3.4 信息对时间的分布规律,普赖斯曲线,1、指数增长律(1)普赖斯曲线数学描述通过对曲线分析,得到文献增长与时间成指数函数关系。如果用F(t)表示时刻t的文献量,则指数定律可表为下式:式中:a是统计的初始时刻(t=0)的文献量;e=2.718;b表示持续增长率。,3.4 信息对时间的分布规律,实际的统计发现,不同的时期、级别、质量、学科领域的文献信息增长态势是不一样的。勒希尔考察了不同质量级别的文献增长状况,发现它们的增长速度差别很大,如一流文献的增长函数是线性的。,1、指数增长律(2)生长曲线数学描述:普赖斯指出,考虑物质、经济、智力及时间的影响和限制,文献信息的增长更趋近于生物的生长曲线(Logistic Curve),即最初生长或繁殖很快,随着时间推移,其生长速度越来越慢,以致几乎不增加了。其方程为:式中:F(t)代表时刻t的文献量,k为文献增长的最大值。,3.4 信息对时间的分布规律,1、指数增长律(2)生长曲线图形描述:生长曲线表明,在文献增长的初始阶段,是符合指数增长规律的,但当文献增至最大值的一半时,增长率开始变小,最后缓慢增长,并以K为极限。,3.4 信息对时间的分布规律,生长曲线,3.4 信息对时间的分布规律,3.4 信息对时间的分布规律,信息传递的基本规律密度递减法则物理时空的信息衰减:信息源S会随声音压强的降低、时间的消失而衰减。精神空间的知识压缩:知识会随时间轴有一个积淀、剔除和过时的过程。,3.4 信息对时间的分布规律,文献老化有何具体表现?,3.4 信息对时间的分布规律,3.4 信息对时间的分布规律,信息的老化模式,除遵循逐渐过时律以外,也会出现跳跃性老化,尤其是网络环境下。,3.4 信息对时间的分布规律,2、逐渐过时律1)普赖斯指数1971年,普赖斯提出一个衡量各个学科领域文献老化度量指标普赖斯指数,普赖斯指数越大,文献老化越快。普赖斯根据科学引文索引(SCI)的分析,发现科技领域前沿文献的平均年龄不超过5年。普赖斯指数=近5年被引用文献数量/被引用文献总数*100%,3.4 信息对时间的分布规律,普赖斯指数的数值范围:22%39%为档案性文献,75%80%为现时性文献。如,物理和生物化学期刊指数为60%70%,社会科学为40%45%,植物学20%左右,语言学和历史学少于10%。,2、逐渐过时律2)鲁布克斯负指数模型图形描述:用纵坐标表示现在正被利用(引证)的文献的被引量,横坐标表示时间,我们可以绘制出文献的老化曲线。,3.4 信息对时间的分布规律,2、逐渐过时律2)鲁布克斯负指数模型数学描述文献信息老化曲线的相应模型可表示为:式中:C(t)表示t年所发表文献的引用频率;t文献的出版年龄(以10年为单位);R常数,随不同学科而异 a文献老化率;e=2.718,3.4 信息对时间的分布规律,启示:文献数量呈指数增长,文献老化符合负指数函数的关系。,2、逐渐过时律3)文献半衰期由来:1958年,由美国学者贝尔纳(D.J.Dernal)在科技情报的传递:用户分析首次提出,运用物理学概念(放射性元素的原子核有半数发生衰变时所需要的时间)描述文献的老化速度。概念:已出版的文献中有一半已不使用的时间。适用性:用于衡量某个学科或专业领域文献总和的老化速度,如化学文献的半衰期是8.1年。,3.4 信息对时间的分布规律,普赖斯认为,一篇论文的半衰期约为15年,即引用这篇论文的全部其他论文的二分之一是在这篇论文发表后的15年内发表的。,2、逐渐过时律3)文献半衰期模型:式中:t文献的半衰期;a每篇论文的平均引文率;N引用时间上限,即被引用论文中,最久远的论文发表年限。,3.4 信息对时间的分布规律,原理:从概率论出发,计算出每篇科学文献的平均引用概率,若按文献引文率呈负指数减少时,则得出文献引用量降低到一半时的时间。,3.4 信息对时间的分布规律,1、传统信息分布定律的局限性或适用性?局限性:以文献信息资源为对象进行考查总结出的经验规律。网络环境下信息资源的分布是否表现出新的特征?适用性:选择网络信息样本进行实证分析,能否对传统定律进行验证或修正?,3.5 网络应用:网络信息资源分布规律,2、网络信息资源的集中与分散规律实证分析:学者马费成等通过一些工具性网站中“网络经济”这个条目的网页数量(2003 年5月1日3日数据)的集中与分散分布发现,其分布的近似曲线与布拉德福分布曲线比较接近。,3.5 网络应用:网络信息资源分布规律,Ln,R(n),0,以“网络经济”为主题的网页的布氏分布曲线,网络信息资源分布仍然满足集中与分散规律,但分散的趋势较文献信息的趋势更加明显。为什么呢?,2、网络信息资源的集中与分散规律特征及原因分析:受搜索成本、惯性等影响,网络用户更趋向于选择少数核心网站,信息资源呈集中分布。搜索引擎共享使许多网站具有相同的信息搜索能力,网络信息分布呈分散趋势。摆脱版面与经费限制,使网络信息离散程度加剧。信息发布环境同科学期刊相比,具有零成本、低限制等特点,造成信息激增,分布更加分散。,3.5 网络应用:网络信息资源分布规律,3、网络信息生产者的分布规律实征分析:以校园BBS为样本武汉大学珞珈山水BBS(2003年5月5日)发文3307篇,作者1171人。根据普赖斯定律,生产者开根号的人数生产信息总数的一半,即 人要发文1653篇。,3.5 网络应用:网络信息资源分布规律,实际发文是多少呢?,3、网络信息生产者的分布规律实征分析:实际数据:34位作者仅只发文944篇,还不足总数(3307篇)的1/3。推论:大量非科研人员参与信息生产,可能出现“去核心”生产者。BBS中生产者的分布比科学文献分布更加分散。,3.5 网络应用:网络信息资源分布规律,4、网络信息资源的时间分布规律网络信息的增长规律(1)新闻网站信息的增长规律国内学者的实证分析以搜狐新闻频道为研究对象结论:正式交流模式网站,其成熟期内的网页数量累积数按二次曲线增长,快于线性增长,慢于指数增长。,3.5 网络应用:网络信息资源分布规律,4、网络信息资源的时间分布规律网络信息的增长规律(2)网络学术信息的增长规律国内学者的实证分析以知识管理主题领域为研究对象结论:在网络环境下知识管理主题领域的学术信息增长规律符合指数增长模型。,3.5 网络应用:网络信息资源分布规律,4、网络信息资源的时间分布规律网络信息的老化规律网络信息的老化网络信息中情报的有效价值随着时间逐渐衰减,利用率逐步降低。主要影响因素:网络信息总量的快速增长,单位量的利用率下降,效用减少。多元信息源使网络信息更新速度加快,加速了旧的网络信息的老化。信息同质化使网络信息接收者的同类信息的语用衰减。,3.5 网络应用:网络信息资源分布规律,4、网络信息资源的时间分布规律网络信息的老化规律的实证分析对网络信息资源而言,其时间参数会有很大变化(如普赖斯指数中的“5年”需要重新界定)。网页和数据库记录更新的速度比传统文献的速度快。(Baidu中“网络经济”的条目从2003年5月3日的145000条增加到8月26日的291000条,翻番的时间只有114天),3.5 网络应用:网络信息资源分布规律,4、网络信息资源的时间分布规律网络信息的老化规律的测度网络信息半衰期网络引用(被引)半衰期:某一站点的全部信息在某一时间段内引用(被引用)或链接(被链接)的所有信息中,较新一半是在最近多长时间内发表的。例:由实证分析,四大类网络信息半衰期分别为:计算机类557天,社会类755天,娱乐类582天,生活类788天。实证得出:网络信息的半衰期普遍缩短,老化速度明显加快。,3.5 网络应用:网络信息资源分布规律,信息分布的现象描述马太效应:信息分布的富集、贫集现象 文献信息分布核心趋势、集中取向信息分布的量化描述(基于文献信息)横向(静态)角度信息内容的分布宏观层面:布拉德福定律1:a:a2微观层面:齐夫定律 信息生产者的分布洛特卡定律(平方反比分布)普赖斯定律(平方根定律),小 结,纵向(动态)角度文献信息量随时间变化:指数增长律普赖斯曲线:生长曲线:文献信息价值随时间变化:逐渐过时律文献老化:文献信息价值随时间减少度量指标:普赖斯指数=近5年被引用文献数量/被引用文献总数*100%(普赖斯指数越大,文献老化越快)鲁布克斯负指数:文献半衰期:已出版的文献中有一半已不使用的时间。,小 结,OK!Thank You!,