基于JAVA的社交网络的信息采集系统的研究与设计毕业设计.docx
《基于JAVA的社交网络的信息采集系统的研究与设计毕业设计.docx》由会员分享,可在线阅读,更多相关《基于JAVA的社交网络的信息采集系统的研究与设计毕业设计.docx(28页珍藏版)》请在三一办公上搜索。
1、本科毕业设计(论文)基于JAVA的社交网络的信息采集系统的研究与设计学院(系): 专业班级: 学生姓名: 指导教师: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包括任何其他个人或集体已经发表或撰写的成果作品。本人完全意识到本声明的法律后果由本人承担。作者签名: 年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保障、使用学位论文的规定,同意学校保留并向有关学位论文管理部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权省级优秀学士论文评选机构将本学位论文的全部或部分内容编入有关数
2、据进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 1、保密囗,在 年解密后适用本授权书 2、不保密囗 。(请在以上相应方框内打“”)作者签名: 年 月 日导师签名: 年 月 日摘 要本文借助开发平台Eclipse针对社交网络新浪微博开发了一个信息采集器,能够实现对新浪微博的信息采集,所得结果对于新浪微博的开发具有重要的指导意义。论文主要研究了社交网络的信息采集原理,并以新浪微博为研究对象,借助JAVA编程软件实现对微博信息的采集。本论文的主要工作有以下几个方面:首先是利用微博系统的JAVA SDK获取数据,该技术通过调用微博平台提供API来获取数据。这部分工作
3、需要利用微博系统的JAVA SDK获取数据的工作流程,调用API需要通过用户身份的鉴权。目前使用OAuth鉴权,其优点是数据准确快捷,很少因微博平台的变化而变化,但缺点是接口提供商限制的因素多且不稳定。其次通过JAVA编程设计一个良好的界面,调用API接口实现对授权用户的信息采集,通过输入一个关键词,在授权用户好友微博圈里进行匹配,将出现该关键词的好友微博返回到txt文件中进行保存,同时将历史采集记录保存下来,实现对授权用户好友信息的主题采集。研究结果表明,通过调用API接口获取用户微博数据这种方式实时有效,能够满足我们对新浪微博授权用户微博实时信息的主题采集。本文的特色在于通过调用API接口
4、实现对新浪微博信息的主题采集快速便捷,而且设计了一套完善的显示与保存方案,能够对新浪微博的后续研究提供数据。关键词:社交网络,新浪微博,API,信息采集AbstractThis paper is mainly to develop an information collector, which can collect the information of Sina micro-blogging by the use of Eclipse. The results of this paper have important guiding significance for the further
5、study of Sina micro-blogging.In this paper, we mainly introduce the principle of social networks. On the basis of this, we take Sina micro-blogging as our research object, using JAVA programming software for the information collection of it. The main work of this paper has the following aspects: Fir
6、st, we introduce the principle of JAVA SDK, which is provided by the Sina micro-blogging system to obtain data. The method to get the data by SDK is to use the API interfaces of Sina micro-blogging. This part of the work requires the use of JAVA SDK to get the access to the API. Only when we have th
7、e access to the API of Sina micro-blogging, we can get through the identity authentication of Sina microblogging. Currently Sina micro-blogging use the OAuth 2.0 protocol for the identity authentication. The advantage of OAuth2.0 is fast and accurate, which rarely changes due to changes of the micro
8、-blogging platform. But the drawback is that there are too many limiting factors for API. Then we use the JAVA programming software Eclipse to design a friendly interface to realize the information collection of Sina micro-blogging. By entering a keyword in the input area, the system we designed can
9、 match the keyword with Sina micro-blogging.Once the keyword appears in the micro-blogging, the system will collect the information of the Sina micro-blogging .By the same time, the system will save the information to the data file and save the recorded history of the collection, to achieve the auth
10、orized subject collection for the Sina micro-blogging.The research results show that by using the API interface to get data this way, we can realize the real-time information collection of Sina micro-blogging.The characteristic of this paper is to use the API to realize the subject collection of Sin
11、a micro-blogging, quick and effective, which can save a lot of time. In addition to this, I design a set of friendly interface, which can display and save the information effectively and provide data for the further study of Sina micro-blogging .Key Words:social network,Sina micro-blogging,API,infor
12、mation collectionII目 录第1章 绪论11.1 研究背景和意义11.2 国内外研究现状21.3 论文主要工作31.4 论文结构安排4第2章 系统相关技术52.1 JAVA技术简介52.2 新浪微博开发平台52.2.1 微博JAVA SDK52.2.2 微博应用的创建62.2.3 OAuth2.0授权认证72.2.4 微博内容的获取92.3 本章小结9第3章 信息采集系统设计与实现103.1 系统总体设计103.2 系统各模块实现113.2.1 授权认证的实现113.2.2 启动模块的实现133.2.3 微博内容的获取143.3 系统效果显示153.3.1 主页面效果显示153
13、.3.2 采集信息效果显示163.4 本章小结19第4章 总结与展望204.1 总结204.2 前景与展望20参考文献21致 谢22第1章 绪论1.1 研究背景和意义随着网络技术的发展,互联网跨入到web2.01时代。在web2.0时代中,整个互联网平台不停扩展着人们之间的社会关系,从而促使多种社交网络平台的出现,产生了多种新颖的交互模式和途径。社交网络是一种在线交互媒体,该媒体最显著特点为具有强大的信息传播能力与影响力。近些年来,社交网络迅速发展。在国外,以 FaceBook,Twitter为代表,在国内,以新浪微博,腾讯微博,QQ空间,百度贴吧以及人人网为代表。这些社交网络平台向人们提供社
14、会网络服务,使得用户能够方便快捷地通过互联网自由分享自己的个人信息,获取和传播其他用户的信息。如此一来,整个社交人群的交互信息和背景信息等形成一张社会网。国内社交媒体中,近年来以微博的发展最为迅速,用户群规模增长最快。根据相关统计,国内2014年1月份社会化媒体排行榜如表1.1所示。由1.1可以看出,有三大微博平台跻身社会化媒体分享榜前十,微博平台已经成为社会化媒体中最受欢迎的平台,其中尤以新浪微博最为火热。在2013年7月中国互联网络发展状况统计报告中提到:“截至 2013年6月底,我国微博网民规模为3.31亿,较2012年底增长了2216万,增长7.2%。网民中微博使用率达到了56.0%,
15、较上年底增加了1.3个百分点。2014年4月17日,新浪微博正式登陆纳斯达克,成为全球范围内首家上市的中文社交媒体。表1.1 2014年社会化媒体的排行榜排名媒体名称分享百分比排名媒体名称分享百分比1新浪微博17.93%6开心网5.09%2QQ空间16.49%7搜狐微博4.86%3微信16.17%8飞信4.14%4腾讯微博6.40%9百度贴吧3.86%5人人网6.22%10QQ好友3.16%随着微博的爆炸式发展,它逐步成为国内外学者共同关注的焦点。微博是一种允许用户用即时更新的简短文本(一般信息发布字数在140个以内)并可以公开发布的博客形式。微博包含海量的数据信息,它允许任何人阅读或者只能由
16、用户选择的群组阅读。目前微博已经成为网民获取信息的重要途径之一,微博从满足人们弱关系的社交需求上逐渐演变成为大众化的舆论平台,越来越多机构及公众人物都通过微博来发布或传播信息。微博的三大特点:(1) 便捷性。微博网站即时通讯功能非常强大,通过QQ和MSN直接书写,在有网络的地方,只要有手机就可及时发布微博,更新自己的实时信息。类例于一些大的突发事件或引起全球关注的大事,如果有微博在场,利用各种手段在微博客户端上发表出来,其实时性、现场感以及快捷性,甚至超过所有媒体。(2) 背对脸。与博客上面对面的表演不同,微博上是背对脸的交流,就好比你在电脑前打游戏,路过的人从你背后看着你怎么玩,而你并不需要
17、主动和背后的人交流。可以一点对多点,也可以点对点。当你follow一个自己感兴趣的人时,两三天就会上瘾。移动终端提供的便利性和多媒体化,使得微博用户体验的粘性越来越强。(3) 原创性。在微博上,140字的限制将平民和莎士比亚拉到了同一水平线上,这一点导致大量原创内容爆发性地被生产出来。微博集成了手机短信、博客与社交网站的优点,将消费者从原来单纯的信息接收者变成了接收和发布信息的完全参与者,从而让社会走进了全民记者时代。各行业、各领域的科研人员在社交网络现有基础上,开展了大量与微博相关的研究和实践工作。微博的流行给原有的企业沟通方式造成了前所未有的冲击,如何有效地利用微博已成为当前企业界和社会化
18、营销理论的重要问题。现阶段,随着微博网络影响力的快速扩大,政府部门、学校、知名企业、社会公众人物均开通了微博。随着公众的参与,微博成为了一个强大的虚拟社会,微博已经是网络信息的重要来源,如何用于快速有效地采集微博信息已经成为一个具有重要应用价值的研究。在各大微博平台飞速发展的同时,微博平台也为开发者和研究者提供了良好的数据获取方式。Twitter、新浪微博、腾讯微博等微博平台都提供了open API。如今各大微博平台如此风靡,在海量用户数据,关系数据及内容数据的环境下,各大微博平台通过open API2的方式使得大量用户可以在其平台上开发出各式各样的应用,提高平台的服务质量,同时也为社交网络研
19、究者提供了以网站服务方式对外的数据接口,这其中就包括大量数据下载的API,为针对微博平台的相关研究工作提供了优良的数据通道。目前,尚没有一个系统直接提供了微博数据并进行相关分析。因此需要开展对微博的信息采集研究。本文的主要工作就是要开发一套基于JAVA的新浪微博信息自动釆集程序,为社交网络舆情研究、网民行为分析等系统提供满足个性化服务的丰富的信息资源。因此,研究与设计新浪微博信息采集系统不仅具有较强的现实意义,也具有较强的理论研究意义。1.2 国内外研究现状目前国内外对社交网络的信息采集技术做了很多研究,也编写了很多开源的采集框架。国外学者主要是针对网络爬虫技术做出了一系列研究。Fish3系统
20、是最早的主题网络蜘蛛模型。它是一个基于客户端的实时信息检索系统,它假设相关页面在逻辑上彼此接近,采用深度优先算法搜索相关页面,并用一组关键词和短语判断页面的相关性。Hersovici4对Fish系统进行了改进,它从一个特定点开始并跟踪相关文本的链接,使用向量空间模型来计算页面的相似度,根据链接周围文本价值和链接的“继承价值决定优先级及爬行的深度。Cho5提出了通过先爬行更重要的网页使爬行更有效。他讨论了几种评价链接重要性的方式,提出了基于“驱动查询”(DrivingQuery)相似度、页面入度(Backlinks)、PageRank和页面位置的链接排序方法,并得出结论:PageRank指导的爬
21、虫表现最佳。此后,PageRank算法和Kleinberg提出的HlTS算法作为两种主要的链接分析算法很快被众多研究者用于指导主题爬虫预测URL的重要性,目前很多用于URL评价的Web分析算法都可以在不同程度上视为这两种算法的变体。印度理工学院的学者Chakrabarti等6,利用已分类的实例集训练分类器,来衡量页面与主题的相似度,并用于指导搜索顺序。Diligenti7从相关页面出发,构建“语境图”和分类器,并根据语境图的层次预测距离相关页面的远近,较近的页面较早访问。Estert8采用“隧道”技术指导搜索,当搜索精度低于某一预先定义的阈值时,则将主题范围增大,搜索未来回报较大的链接。Agg
22、arwal9将页面内容、页面的URL结构抽象为页面特征,并利用它们构建Web的概率模型,用于预测链接的价值。目前在国内也有很多学者对社交网络的信息采集技术进行研究,很多都是以新浪微博为例。吴斌杰等10提出了基于API的信息采集方法,然后设计了一个信息采集系统,能够对新浪微博的相关信息进行采集。康捷11等人提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据
23、的全面获取的问题。郭颖为12设计并实现了基于多生产者多消费者模型的网页信息采集与存储的网络爬行器,采用多线程的方式分别对每类结构化的数据进行存储。为了进一步提高爬行器的效率,文中利用新浪微博API接口对微博用户的社交信息进行辅助采集。冯典13设计并实现了一种可根据数据种类的不同,创建多种爬虫的数据采集系统,一方面使用多线程技术大幅提高爬虫的效率,另一方面,创造了多AppKey复用机制,突破了新浪对API调用频率的限制,保证了爬虫可以连续不间断的工作。1.3 论文主要工作本文主要工作是研究微博数据的抓取方式,并实现对微博授权用户的微博信息的主题采集,主要工作有: (1) 微博API研究利用微博系
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 JAVA 社交 网络 信息 采集 系统 研究 设计 毕业设计

链接地址:https://www.31ppt.com/p-4890612.html