基于知识图谱的热点文章发现算法研究分析计算机科学与技术专业.docx
《基于知识图谱的热点文章发现算法研究分析计算机科学与技术专业.docx》由会员分享,可在线阅读,更多相关《基于知识图谱的热点文章发现算法研究分析计算机科学与技术专业.docx(36页珍藏版)》请在三一办公上搜索。
1、摘要1Abstract2前言3第一章绪论41.1 研究背景及意义41.2 论文主要工作51.3 本文组织结构5第二章相关知识及技术简介72.1 知识图谱简介72.2 Neo4j图形数据库与CyPher简介72.3 网络爬虫介绍82.4 PageRank算法简介92.5 Sigmoid函数简介102.6 本章小结11第三章问题描述与算法设计123.1 问题描述与基本思路123.2 具体算法设计143.2.1 知识图谱构建15322期刊排名爬取16323论文引用网络权重模型的设计163.2.4 作者合作网络权重模型的设计173.2.5 系统运行流程183.3 本章小结19第四章算法实现与结果分析2
2、04.1 算法实现204.2 结果分析244.2.1 系统运行时间分析244.2.2 平均引用次数分析254.2.3 期刊均分分析294.2.4 结果分析总述33第五章总结与展望345.1 本文总结345.2 未来展望34参考文献35错误!未定义书签。摘要论文推荐是一个有趣并且有挑战的研究工作,其目标在于根据用户的需求向用户推荐相关论文。论文推荐研究已经进行了数十年,GoogleScholar等学术搜索引擎可以有效地帮助用户根据输入关键字和约束条件来查找论文,但由于理解用户需求的困难以及发布的快速增长,返回的结果并不总能满足用户的要求。近年来,在论文推荐方面的研究已经很多了。主流方法是根据内容
3、的相关性(包括标题,关键词,摘要或全文)找到与输入关键词最相关的论文。然而,由于总是有大量的论文共享相同的关键词,就使得推荐结果不具有高精度。因此,作为补充,往往可以研究论文之间的引用关系,以期达到提高推荐精度的目的。本文就着眼于研究论文之间的引用关系,以达到推荐出当前的热点文章的目的。所谓热点文章,指的是综合得分较高,具有典型代表性的文章。这个综合得分不仅取决于当年某篇论文被引用的次数以及它引用的论文的得分,还取决于该篇论文所发表的期刊、会议的排名以及写作该篇文章的作者们的影响力。基于以上想法,我使用DBLP中的DBLP-citation-network-Oct-19文件中所提供的数据构建了
4、一个知识图谱,记录了每篇论文的相关信息(作者、主题、关键词、发表的期刊和发表的年份等),各论文之间的引用关系。基于这个知识图谱,设计了一个基于PageRank的算法来计算各篇论文的综合得分,通过这个综合得分来达到发现热点文章的目的。所推荐出来的热点文章应当在期刊排名、被引用次数、引用论文的得分和作者影响力这几个或者某几个方面具有较好的排名。因此,对于推荐出来的热点文章我在以上几个方面进行验证,并调整算法参数以期整个系统能更加合理。关键词:引文网络;知识图谱;论文推荐;PageRank;热点发现AbstractPaperrecommendationisaninterestingandchalle
5、ngingresearchtask.Itsgoalistorecommendrelevantpaperstousersbasedontheirneeds.Thepaperrecommendationresearchhasbeenconductedfordecades.AcademicsearchenginessuchasGoogleScholarcaneffectivelyhelpusersfindarticlesbasedoninputkeywordsandconstraints.However,duetothedifficultyinunderstandinguserneedsandthe
6、rapidgrowthofpublications,thereturnedresultsarenotalwaysmeettheusersrequirements.Inrecentyears,therearemanystudiesonpaperrecommendation.Themainstreammethodistofindthepaperthatismostrelevanttotheinputkeywordsbasedontherelevanceofthecontent(includingtitle,keywords,abstractorfulltext).However,sincether
7、earealwaysalargenumberofpaperssharingthesamekeywords,therecommendationresultsdonothavehighaccuracy.Therefore,asasupplement,citationsbetweenpapersareoftenstudiedinordertoachievethepurposeofimprovingtheaccuracyofrecommendationresults.Myarticlefocusesonthestudyofcitationsbetweenpapersandthentoachieveth
8、epurposeofrecommendingcurrenthotpapers.Theso-calledhotpapersrefertopaperswithhighcompositescoreandtypicalrepresentativeness.Thiscompositescoreofapaperdependsnotonlyonthenumberofpapersthatciteditintheyearandthescoreofthepapersitcited,butalsoonthepublicationofthepaper,therankingoftheconference,andthei
9、nfluenceoftheauthorswhowrotethispaper.Basedontheaboveideas,IusedthedataprovidedintheDBLP-citation-network-Oct-19fileintheDBLPwebsitetoconstructaknowledgemapwhichrecordedinformationabouteachpaper(authors,topics,keywords,publishedjournals,andpublishedyears,etc.)andcitationsrelationsbetweenpapers.Based
10、onthisknowledgemap,analgorithmbasedonPageRankwasdesignedtocalculatethecompositescoreofeachpaper.Throughthiscompositescore,thepurposeofdiscoveringhotpaperswasachieved.Therecommendedhotpapersshouldhaveagoodrankinginseveralorallaspectssuchastherankingofjournals,thenumberofcitationscited,thescoreoftheci
11、tationofpapersandtheauthor,sinfluence.Therefore,Iverifiedintheaboveaspectsandadjustedthealgorithmparameterssothattheentiresystemcanbemorereasonable.Keywords:Citationnetwork;Knowledgemap;Paperrecommendation;PageRank;Hotpaperdiscovery前言在互联网时代,数据量的爆炸式增长使得有效信息的获取变得越来越复杂和困难,所以,搜索和推荐成为了人们获取信息的主要方式。在各种各样的搜
12、索或者推荐系统中,如何合理组织和处理大量的数据信息是一个基本的问题。基本的数据组织方式模型有三个,分别为层次结构模型,网状结构模型和关系结构模型。其中,关系结构模型被广泛地运用在各种需要进行数据存储的应用中。但是,当涉及到大量数据和多表查询的时候,关系结构模型的查询效率并不能满足需求,在这种情况下,往往采取网状数据结构模型进行数据存储。由于本文数据集具有较复杂的引用关系及较大的数据量,所以我采取了Neo4j图形数据库来进行数据的存储与组织,也就是使用Neo4j图形数据库构建了论文引用信息的知识图谱。解决了数据的存储组织问题,还要解决如何探索数据之间的关系,从而达到利用引文关系及论文信息推荐出当
13、前的热点文章的目的的问题。在此,我考虑当年某篇论文被引用的次数以及它引用的论文的得分,该篇论文所发表的期刊、会议的排名以及写作该篇文章的作者们的影响力等因素,提出了一个综合得分的概念。然而,论文排名和作者排名的双重问题不能单独处理。因为,论文得分的计算依赖于所写作该论文的作者的得分,而论文得分的改变也会使得作者的得分发生改变。因此,最后,我们提出了一种新颖的论文排名算法,它交织论文和作者的排名。并且同时对于推荐结果进行了相应的验证操作,以验证算法的合理性。本文完成的主要工作如下:(1)学习Neo4j数据库的相关知识,利用DBLP的数据完成论文信息及引文网络的知识图谱的构建。(2)学习简单的网络
14、爬虫技术,爬取CCF上的期刊排名,并写入关系数据库中。(3)构建作者合作网络以及论文引用网络,实现基于PageRank的算法计算综合得分。(4)对作者合作网络及论文引用网络进行交织迭代收敛,得到推荐的热点文章,(5)对推荐的结果进行验证,以调整算法设计的参数使得整个推荐系统更加合理精准。第一章绪论首先本章简要介绍了本文的研究背景和意义,紧接着介绍了本文所做的主要工作。最后,对整篇论文的组织结构进行了简要概括。1.1 研究背景及意义论文是各个学术领域的研究人员记录学术研究及研究成果的文章,是进行学术研究探讨学术问题的一种手段,同时也是描述学术研究成果进行学术交流的一种载体。在进行学术研究的时候,
15、研究人员往往先查询学习前人的研究成果,然后对自己已有的想法思路进行进一步的思考,以达到学习或者创新的目的。这样就使得研究人员创作出来的论文拥有一些必要的参考文献。在很多情况下,一个人的思维往往并不够全面,所以很多学术研究在进行的时候往往以团队合作的形式进行,以期达到使这一阶段研究完美的目的。因此,一篇论文往往由几个作者合作来完成。每年,每个具体的学术领域都会有新的论文被发表出来,如何在卷帙浩繁的论文中快速地得到自己想要的论文,这是很有意义的问题。主流方法根据内容的相关性找到与输入关键词最相关的论文。首先用传统的信息检索技术测量相关性,然后用主题模型进行改进。然而,由于总是有大量的论文共享相同的
16、热门话题,所以基于内容的前K推荐结果通常不具有高精度。作为补充,一些其他方法使用论文之间的引用关系进行推荐,这些方法倾向于在推荐结果中推荐引用论文更多的以及评分更高的论文。例如,Winoto等人提出的上下文感知的多维的论文推荐系统,另一种是情境感知引文推荐系统,它通过测量引用文章和论文之间的上下文的相关性进行推荐。以及一种先使用本体作为构建用户配置文件的基础,然后使用本体网络进行分析来协助推荐的推荐系统。论文的引文分数不仅取决于论文的发表频率,还取决于引用论文的论文得分,因此根据论文引用网络,采用RandomWalk等算法计算论文的排序得分。还有一些方法通过将软聚类论文放入兴趣小组或开发多层神
17、经网络概率模型来学习引用论文上下文文义来改进基于论文引用网络的方法。基于学术社交网络的另一种方法,即作者合作网络,倾向于推荐与用户兴趣相同的共同作者的共享论文。但是这种方法可能会忽略一些由很少合作撰写的作者所撰写的重要论文(即共同作者网络图中的一些孤立节点)。受以上内容启发,提出一种引文网络和作者合作网络相互迭代影响的排名算法。1.2 论文主要工作本文对DBLP中的论文引用数据进行合理的组织存储,以期形成包含论文引用关系,论文发表所在期刊、会议,论文发表年份,论文作者等相关信息的知识图谱。然后基于此知识图谱,构建出具体领域的论文引用网络以及相对应的作者合作网络,依据CCF爬取到的期刊排名,给论
18、文引用网络赋初始值。依据PageRank算法的基本思想,设计了一个综合考虑了引文得分、引文发表年份、引文数量、引文作者得分和论文发表所在的期刊、会议的算法,用来计算具体某年某篇论文的综合得分;同样地,该算法被运用到作者合作网络之中,因为作者合作网络和论文引文网络具有类似的特点,需要考虑某位作者历年来写过的论文以及合作过的作者的得分等各个因素。因为论文引用网络和作者合作网络相互影响相互促进,最终我采取按年迭代收敛的方式来进行整个系统的计算迭代,然后推荐出热点文章。最后,对推荐出的论文进行反向验证,验证它们是否在期刊排名、被引用次数、引用论文的得分和作者影响力这几个或者某几个方面具有较好的排名。综
19、上所述,本文的主要工作可以被划分为以下几个部分:(1)学习Neo4j图形数据库的相关知识,设计合理的存储结构将DBLP中的论文引文数据构建成知识图谱。(2)学习爬虫技术,爬取CCF上的期刊、会议排名,存储到关系数据库中方便后续的使用。(3)根据知识图谱中的内容,构建出具体某个领域的论文引用网络以及作者合作网络。(4)实现基于PageRank的算法,利用Sigmoid函数进行归一化操作,按年份对论文引用网络和作者合作网络进行交织收敛迭代,最后达到整个系统的计算收敛,得到推荐的结果。(5)对推荐结果进行验证操作,并调整算法的相关参数使得系统更加合理与精确。1.3 本文组织结构本文总共分成五个章节,
20、具体章节结构如下:第一章为绪论。主要介绍了本文工作的研究背景和意义,同时对本文所做的主要工作进行简要的介绍。第二章为本文工作所用到的相关技术知识。本章主要介绍知识图谱和Neo4j图形数据库、网络爬虫、PageRank算法和Sigmoid函数的基本内容。第三章为问题描述与算法设计。本章介绍了本文所解决的具体问题,提出了主要解决思路,最后给出了每部分具体的算法设计。第四章为算法实现与结果分析。对本文的主要算法给出了具体实现细节及公式,同时对最后结果做了简要的分析与说明。第五章为总结与展望。总结并归纳本文,发现不足,同时对后续的工作提出设想。第二章相关知识及技术简介本章主要介绍系统实现过程中需要学习
21、和涉及的相关知识和技术,主要包括:知识图谱、Neo4j数据库及CyPher查询语句、网络爬虫、PageRank算法和Sigmoid函数。2.1 知识图谱简介在百度百科中,知识图谱被这样介绍:知识图谱(KIWWIedgeGraph/Vault)又称科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与组织关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。它是一种基于图的数据结构,由节点和边组成。其中节点即
22、实体,有一个全局的ID标识它,关系(属性)用于连接两个节点。通俗地讲,知识图谱就是把所有不同种类的信息(HeterOgeneOUSInformation)连接在一起而得到的一个关系网络。知识图谱支持从“关系”角度去分析问题。基于知识图谱,文档不再只是由关键词向量模型来表示,而是由其中的实体以及实体之间复杂语义关系来表示。知识图谱最早由谷歌提出,例如搜索何猷君,可以关联出何猷君的父亲,何猷君历年女友等与关键词相关的信息,所以,主要用于优化搜索引擎。也就是说搜索引擎所具有的知识图谱越大,和关键词有关的信息越多,再通过分析输入的需求,计算出可能最想看到的信息,通过知识图谱可以大大提高搜索的质量和广度
23、。通过大数据抽取和集成可以创建知识图谱,基于此,可以通过推理(通过规则引擎,针对实体属性或关系进行挖掘,用于发现未知的隐含关系)和实体重要性排序(当查询多个关键字时,搜索引擎将选择与查询更相关的实体来展示,常用PageRank算法计算知识图谱中实体的重要性)来进一步挖掘知识图谱,进一步增加知识图谱的知识覆盖率。2.2 Neo4j图形数据库与Cypher简介图形数据库就是将数据存储在图(GraPh)结构中,图形数据库可以看作是节点与关系的集合”3就是将数据存储在拥有属性的节点中,并用关系将这些节点组织起来,如图1所示。图1图形数据库组织图数据的存储的目的是为了检索,在图中,可以通过遍历算法完成查
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 图谱 热点 文章 发现 算法 研究 分析 计算机科学 技术 专业
链接地址:https://www.31ppt.com/p-7002718.html