科学知识图谱方法及应用.ppt
《科学知识图谱方法及应用.ppt》由会员分享,可在线阅读,更多相关《科学知识图谱方法及应用.ppt(110页珍藏版)》请在三一办公上搜索。
1、第六 科学知识图谱方法及应用,课程考核:相关的课程论文,6月1号前交信息管理学院336办公室。包括学号、姓名、联系方式,引言,对学科(领域、主题)过去、现状、前沿、热点、趋势的把握可通过什么方法手段?,引言的重要性!,文献是记录有知识的一切载体文献是科学交流的主要途径与手段了解领域历史、现状热点、前沿趋势选题,寻求切入点和突破点寻求新的研究方法和有力的论证依据 避免重复劳动网络环境,大数据。,如果说我比别人看得更远些,那是因为我站在了巨人的肩膀上。,我不知道在别人看来,我是什么样的人;但在我自己看来,我不过就象是一个在海滨玩耍的小孩,为不时发现比寻常更为光滑的一块卵石或比寻常更为美丽的一片贝壳
2、而沾沾自喜,而对于展现在我面前的浩瀚的真理的海洋,却全然没有发现 牛顿,目 录,知识可视化概述,知识图谱绘制方法,知识图谱绘制工具,CiteSpace简介与操作,知识图谱应用案例,知识,语言,文字,肢体,其它,图像,1.知识可视化概述,一图展春秋,一览无余;一图胜万言,一目了然 大连理工大学教授刘则渊,知识可视化实质,知识,可视化形式,图解,促进,传播创新,百闻不如一见、一图胜万言!纽约大学心理学专家吉米布洛诺(Jerome Bruner)在实验中发现,人们能记住10%听到的东西,30%读到的东西,但是却可以记住 80%看到的东西,1.知识可视化概述,1.知识可视化概述,科学计算可视化(Vis
3、ualization in Scientific;Computing)、数据可视化(Data visualization)、信息可视化、知识可视化、知识域可视化。“Information Visualization”术语是由斯图尔特卡德、约克麦金利和乔治罗伯逊于1989年创造出来的;美藉华人陈超美1999年率先发表了该领域的第一部专著信息可视化,创办了国际期刊Information visualization。,1.知识可视化概述,知识可视化发展时间很短,正式起源于2004年,M.J.Eppler和R.A.Burkhard共同发表论文(knowledge Visualization-Towar
4、ds a New Discipline and its Fields of Application)。Eppler认为:知识可视化主要研究视觉表征的使用,主要目的是改进两人或多人间知识的创造与转移;知识可视化是指能用来构建和传递复杂观点和内容的所有图形手段和方式。,1.知识可视化概述,1.知识可视化概述,此外,在科研写作中也需要绘制图表,呈现知识,关于“概念图”的概念图,15,主題,思考的主题,思维导图:用于放射性思考,16,阅读下面黑体的词汇,然后立刻闭上眼睛,持续30秒,思考它。水果,2.知识图谱概述基本概念,知识是一个内涵非常丰富的概念;知识广泛存在于社会各个领域。科学知识图谱广义上包括
5、:生物的基因图谱、教育教学中的认知地图、探索太空的天体图、描绘地形的GIS、模拟人脑的神经网络图、各种金属图谱等。科学知识图谱是以科学知识为对象,显示学科的发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征。,2.知识图谱概述基本概念,2.知识图谱概述基本概念,较形象、定量、客观、真实地显示学科结构、热点、演化与趋势,是学科基础研究新视角。知识图谱可发现、描述、解释、预测和评价科学知识。对图书情报学科具有更重要意义,也有助于信息检索、信息分类与信息服务等。,耗时、费力、难以重复、较主观盲人摸象,2.知识图谱概述基本概念,2.知识图谱概述基本概念,上世纪50年代,加菲尔德创制SCI
6、,并以编年体形式手工绘制引文网络图谱;随后“文献耦合”(Kessler,1963),“科学引文网络”(Price,1965),“同被引”(Small,1973)、“共词”(Callon,1983)、“引文可视化”(White,1998)相继提出基本原理是分析知识单元(科学文献、科学家、关键词等)的相似性及测度。采用不同的方法和技术绘制不同类型的图谱。,科学学,科学计量学,应用数学,计算机科学,信息科学,科学知识图谱,2.知识图谱概述发展历程,传统的科学图谱以简单的二维、三维图形(如:柱形图、线性图、点布图、扇形图、平面图等)表示科学统计结果,文献摘要或关键词纪录比例图,X论文增长趋势线型图,2
7、.知识图谱概述发展历程,1987年,美国基金会发表研究报告科学计算中的可视,开始长期资助科学可视化(scientific visualization)研究,1987年,著名计量学家克雷奇默创立“三维构型图谱”three dimensional configuration map,之后出现“多维尺度图谱”multi-dimensional scaling map,20世纪20、30年代英国人类学研究提出“社会网络分析图谱”social networt analysis map,卡尔提出“自组织映射图谱”self-organizing map,实例:某学科期刊高频关键词共词网络2个知识群,实例:某
8、学术群体知识图谱,2.知识图谱概述发展历程,PFNET算法根据经验性数据,对不同概念或实体间联系的相似性或差异程度做出评估,然后引用图论中的基本概念或原理生成特殊的网状模型,1990美国心理学家斯克沃斯兹恩巴克提出“寻径网络图谱”pathfinder network scaling map,PFNET,将数据以及数据间关系表达成一个图,图中节点表示数据,线表示数据间关系,运用较小生成树法及复杂连接删除算法,删除网络中大部分连接,保留最重要连接,最大限度简化网络,2.知识图谱概述发展历程,用克林伯格跳变算法和共生词分析法和图示技术,研制主要主题和复杂趋势的发现地图,印第安纳大学Ketan K M
9、ane和泊尔纳提出“PNAS主题爆炸图谱”,用以发现主要主题和复杂趋势,网络中各节点代表高频词和爆炸词 节点大小代表该词达到最大爆炸水平 颜色代表词常用和达到最大爆炸水平的年代,2.知识图谱概述发展历程,利用地理信息系统的可视化信息,地理地图的自然组织框架,构建隐含大量信息的可视化主题地图,有维斯(J.Wise)等提出“信息地图”information landscape,应用案例:期刊文章的数量与资助基金间的动态关系图谱,2.知识图谱概述发展趋势,随计算机处理能力日益提高、文献数字化,知识图谱工具在模拟人类信息分析等方面,可帮助人类进行某些领域的判读、搜索、决策、预测,IN-SPIRE发现工
10、具可整合交互式信息可视化与询问功能,利用专利分析工具形成的专利知识图谱,论文的最小生成树图谱,最小生成树导航图谱,3.科学知识图谱的绘制方法步骤,3.1样本数据获取,主要数据来源:Web of Science科学文献数据:(SCI)(SSCI)专利文献数据:德温特创新索引DII国际会议文献数据:(CPCI)另外还有Scopus,Science Direct,L国内数据库:CNKI、CSSCI、CSCD、万方等 网络数据源:Google Scholar、arXiv、CiteSeerX,3.2样本数据清洗,基于文献数据库进行知识可视化的质量、合理性和可靠性很大程度上依赖于所用数据的精确性和全面性,
11、不准确或不全面的数据往往造成不精确甚至错误的结果。即使目前最权威、公认质量最高的WoS,也存在数据著录格式(如人名和地名的不统一)和遗漏的问题。改正字符错误,统一或增补分时段有代表性的抽取,3.3选择知识单元,知识单元是知识处理的基本单位:关键词、题名、作者、机构、刊名、分类号、学科等等。目前也扩展到摘要、参考文献和全文。多种结合。,3.4 构建知识单元关系,1、说明科学知识和情报内容的继承和利用2、标志科学的发展,耦合,文献共被引分析是计量文献之间关系的一种新方法。即2篇文献共同被1篇文献引用,这2篇文献就构成共引关系。共被引频率定义为这2篇文献一起被引用频次马沙科娃、斯莫尔(苏联、美国),
12、CR 2001,NY TIMES 1226,B2*AM PSYCH ASS,1994,DIAGN STAT MAN MENT*DEP HLTH HUMAN SE,1999,MENT HLTH REP SURG G*US BUR CENS,2000,STF3A DEP COMM BUR C BLAZER DG,1994,AM J PSYCHIAT,V151,P979 EATON L,2001,NY TIMES 1116,A1 FOTHERGILL A,1999,DISASTERS,V23,P156 FULLERTON CS,1999,AVIAT SPACE ENVIR MD,V70,P902 G
13、INEXI EM,2000,AM J COMMUN PSYCHOL,V28,P495 GOENJIAN AK,2001,AM J PSYCHIAT,V158,P788 GREEN BL,1990,J APPL SOC PSYCHOL,V20,P1033 HANSON RF,1995,J CONSULT CLIN PSYCH,V63,P987 HARVEY AG,1999,J CONSULT CLIN PSYCH,V67,P985 KAWACHI I,2001,J URBAN HEALTH,V78,P458 KESSLER RC,1995,ARCH GEN PSYCHIAT,V52,P1048
14、KILPATRICK DG,1987,CRIME DELINQUENCY,V33,P479 MADAKASIRA S,1987,J NERV MENT DIS,V175,P286 MAZURE CM,2000,AM J PSYCHIAT,V157,P896 NORTH CS,1999,JAMA-J AM MED ASSOC,V282,P755 ORTEGA AN,2000,AM J PSYCHIAT,V157,P615 POLE N,2001,J NERV MENT DIS,V189,P442 RESNICK H,1999,J ANXIETY DISORD,V13,P359 RESNICK H
15、S,1993,J CONSULT CLIN PSYCH,V61,P984 ROTHBAUM BO,1992,J TRAUMA STRESS,V5,P455 RUBONIS AV,1991,PSYCHOL BULL,V109,P384 RUEF AM,2000,CULTURAL DIVERSITY E,V6,P235 SHAH B,1997,SUDAAN USERS MANUAL SHALEV AY,1998,AM J PSYCHIAT,V155,P630 SHALEV AY,2000,J CLIN PSYCHIAT S5,V61,P33 SHERBOURNE CD,1991,SOC SCI M
16、ED,V32,P705 SHORE JH,1989,J NERV MENT DIS,V177,P681 TUCKER P,2000,J BEHAV HEALTH SER R,V27,P406,document co-citation,author co-citation,journal co-citation,ACA/DCA/JCA,3.5数据分析数据标准化,为便于可视化,对简单地频次计算的单元数据,标准化常常通过数据间的相似度测量。主要有两大类:一是集合论方法(Set-theoretic measures),包括Cosine、Pearson、Spearman、Inclusion 指数和Jac
17、card指数;二是概率论方法(Probabilistic measure),主要有合力指数(Association Strength)和概率亲和力指数(Probabilistic Afnity),因子分析以较少几个因子描述许多指标或因素间关系,即把较密切的变量归在同一类,每类变量成为一个因子,以少量的因子反映原资料中大部分信息。主成成分分析其它聚类分析,多维尺度分析通过低维(2维)空间反映作者(文献)间的联系,利用平面距离来反映作者(文献)间的相似程度。在科学知识图谱中,聚集高相似性的作者(文献),形成科学共同体(学科前沿),用中间位置反映作者(文献)与其他作者(文献)的联系越多,说明学科位置
18、核心程度,3.6数据分析简化分析,3.6数据分析简化分析,自组织映射图(SOM),模拟人的神经中枢网络,采用无导师学习的分类方法,能把任意输入信息变换到二维离散网格上,并尽可能地保持原知识的拓扑有序结构。,3.6数据分析简化分析,寻径网络图谱(PFNET),模拟人的记忆模型和联想式思维方式,建立知识单元间最有效连接的路径,经过较复杂的模型运算删除网络中大部分连接,只保留最重要的,目的是将复杂大型的网络进行最大程度的简化。聚类分析(Cluster)、潜在语义分析(Latent Semantic)、Force Directed Placement(FDP)、三角法(Triangulation)、最
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科学知识 图谱 方法 应用
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5295938.html