第3章信息分布ppt课件.ppt
《第3章信息分布ppt课件.ppt》由会员分享,可在线阅读,更多相关《第3章信息分布ppt课件.ppt(60页珍藏版)》请在三一办公上搜索。
1、信息资源管理,Information Resource Management,第3章 信息分布 Information Distribution,在信息传递过程中产生的大量信息呈现出怎样的分布呢?信息生产的多目的性和无序性,使信息分布十分复杂,研究具有较大难度。文献作为信息的主要载体,具有较好的稳定性和可计量性,由此出现了一些文献信息分布的经典定律,揭示了信息管理的基本定律,对实际的信息管理具有重要的指导意义。网络环境下信息资源的分布也成为近年来的研究热点,可以进行一些初步探讨。,3.1 信息产生与分布中的马太效应,1、什么是马太效应(Matthew Effect)?,先看一个小故事吧,有一家
2、主人,远行前叫仆人来,把家业交给他们,按着各人的才干,给他们银子,一个给了五千,一个给了三千,一个给了一千。领五千的拿去做买卖,另外赚了五千;领二千的也照样另赚了二千;领一千的把银子埋地里了。过了许久,主人回来了,和他们算帐。领五千的说:主啊,你交给我五千银子,我又赚了五千。主人说:好,我要把许多事派你管理。领二千的说:主啊,你交给我二千银子,我又赚了二千。主人说:好,我要把许多事派你管理。领一千的掘开地说:主啊,你的银子在这里。主人夺过他这一千,给那有一万的,说:凡是多的,还要给他,叫他有余。凡是少的,就连他所有的也要夺过来。,圣经新约.马太福音美国学者默顿引用,3.1 信息产生与分布中的马
3、太效应,1、什么是马太效应(Matthew Effect)?人类社会特有的选择机制(社会惯性),即优势和劣势都有其积累过程,成功的积累使其更具优势,形成“富集”;失败的积累使其劣势增强,形成“贫集”,从而形成强者愈强、弱者愈弱的社会现象。社会信息流亦是如此,由此也出现了信息分布的“富集”和“贫集”现象。,大家总是找生意好的饭店吃饭,哪怕要等一等。人越多的饭店生意越兴隆,门庭冷落的饭店生意越惨淡。,3.1 信息产生与分布中的马太效应,2、马太效应在文献信息分布中的表现核心趋势:信息生产者主动期望和采取行动的结果。形成高产作者群体期刊信息密度增大,形成核心期刊形成高频词汇 集中取向:信息生产者处于
4、被动,是社会选择和影响的结果。一篇论文多次被引用一个网站被众多用户点击,3.1 信息产生与分布中的马太效应,3、马太效应的在文献信息分布中的作用积极作用产生富集现象,提供选择捷径优劣的描述可以让人们较快识别信息分布规律,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。产生核心信息源,形成对“成功”的激励核心信息源的形成有一个积累过程,其优势也会在积累中放大。,3.1 信息产生与分布中的马太效应,3、马太效应的在文献信息分布中的作用负面作用忽略分布在其他信息源中有价值的信息。青睐名人、拒绝新人,易导致信息对象的优势和劣势的过度积累,限制了新思想、新知识和新信息的产生
5、及传播。信息分布富集可能仅仅是表面的、外在的(炒作?)。,马太效应的积累要适度,不能太任性。适当的干预是必须的。,3.2 信息内容的离散分布规律,研究成果主要以科学文献信息为对象。,1、布拉德福定律英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础上,提出“布拉德福分散定律”(Bradfords Law of Scattering),简称布拉德福定律或布氏定律。,3.2 信息内容的离散分布规律,应用地球物理学论文的布氏分布,1、布拉德福定律布拉德福定律的经验数据若将刊载“应用地球物理学”论文的所有期刊,按载
6、文量划分为核心区1、相关区2和非相关区3,使每区论文数大致相等,则期刊服从布拉德福定律分布,即:9:59:258=1:5:52,3.2 信息内容的离散分布规律,1、布拉德福定律布拉德福定律的区域表述(经验定律)如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列,把期刊分为专门针对这个学科的核心区、相关区和非相关区。若各个区的文章数量相等,则核心区、相关区,非相关区期刊数量为1:a:a2的关系(a1,且a5)。基本要点频次等级排序,形成主体来源(期刊)的有序目录。确定相等载文量的期刊分区,得出相关论文在主体来源中的分布规律。,3.2 信息内容的离散分布规律,1、布拉德福定律布拉德福定律
7、区域表述的数学解释,令 m1,m2,m3为1、2、3各区中的论文数量(m1=m2=m3),p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量。则有:令于是,3.2 信息内容的离散分布规律,1、布拉德福定律布拉德福定律的图形描述如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,绘制 出的曲线称为布拉德福分散曲线。,布拉德福分散曲线 由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线BD(格鲁斯下降)。,3.2 信息内容的离散分布规律,布氏定律区域表述与图形描述为什么存在差距?,1、布拉德福定律布氏定律区
8、域表述与图形描述差距的原因分析学科界定:运用布氏定律时,必须满足严格的先决条件,即学科界限必须经纬分明。但现代科学技术互相交叉渗透,边缘学科越来越多,如本应属于情报科学的文献,也会将其归于计算机科学,从而造成统计上的误差。数据源:应用布氏定律时,均借助于书目、索引、文摘之类的工具书。在编纂这类工具书时,编撰人员都要对原始文献进行选择和加工,统计结果没有原始文献可靠。其他:在实际统计各种数据时,会遇到干扰,如期刊的更名、停刊、重复发表等造成统计数据的不精确。,3.2 信息内容的离散分布规律,3.2 信息内容的离散分布规律,3.2 信息内容的离散分布规律,2、齐夫定律齐夫定律的经验数据,3.2 信
9、息内容的离散分布规律,词 频 分 布,2、齐夫定律(Zipfs Law)齐夫定律的表述如果将一篇较长文章(约5 000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:式中c为常数。,3.2 信息内容的离散分布规律,2、齐夫定律齐夫定律的图形表达如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线。,3.2 信息内容的离散分布规律,f,250,200,150,100,50,300,r,1,3,2,5
10、,6,4,齐夫词频分布曲线,2、齐夫定律齐夫定律图形的变形如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为:,3.2 信息内容的离散分布规律,Lg f,Lg r,齐夫词频对数分布曲线,图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为:,2、齐夫定律齐夫定律的理论基础“省力法则”假说。齐夫认为,在语言交流过程中,说话人希望用词少,一词多义,以节省其精力。听话人希望一词一义,使听到的词与其确切涵义容易匹配,减少理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的双曲线型分布。“成功产生成功”假说。H.A.西蒙构造了一个概率模型:在文献中,一词使用的次数越多
11、,再次使用的可能性越大。普赖斯后来也建立了一个相类似的模型,并明确地提出了“成功产生成功”的假说。,3.2 信息内容的离散分布规律,例:越是简便易用的检索系统,用户使用的频率越高。“网络流行语”的产生也是因为它既简单精炼,又内涵丰富,交流双方均“省力”。,3.3 信息生产者分布规律,1、洛特卡定律统计学家洛特卡试图通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。选择美国化学文摘和德国奥尔巴赫物理学史一览表为数据源研究科技工作的论著数量分布。1926年,在美国著名学术刊物华盛顿科学院学报发表“科学生产率的频率分布”一文,1949年引起学术界关注。,3.3 信息生产
12、者分布规律,1、洛特卡定律洛特卡定律的图形描述以论文数(x)和作者数(yx)的对数为横坐标(logx)和纵坐标(log yx),两组数据都是直线。图中:虚线表示化学文摘数据,实线代表物理学史一览表的数据。用最小二乘法计算拟合直线的斜率,近似为-2。,Log yx,Log x,10,5,3,2,1,5,1,25,30,100,20,洛特卡分布曲线,3.3 信息生产者分布规律,1、洛特卡定律洛特卡定律的数学描述根据经验数据,在论文数x和作者数之间存在下列关系:式中,yx是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。通过变换可以得到下面的公式:,
13、3.3 信息生产者分布规律,1、洛特卡定律洛特卡定律的数学描述 令,表示写x篇论文的作者出现的频率。是新的常量,表示作者取样总数比例,这样可以写成:这就是著名的平方反比分布。并且可以求得常数:C0.607960.79%,即按照平方反比分布,所有生产一篇论文的著者的比例刚刚超过60。,3.3 信息生产者分布规律,例:物理学史一览表数据中,共有1325位作者,写一篇论文的为748人,占总数的59.2%。,1、洛特卡定律洛特卡定律的数学描述 如果取绝对数,则可表述为:生产2篇论文的作者大约是生产1篇论文作者数的(即)生产3篇论文的作者大约是生产1篇论文作者数的(即)生产n篇论文的作者大约是生产1篇论
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 分布 ppt 课件

链接地址:https://www.31ppt.com/p-2133356.html