在舆情监测中“网络爬虫”的应用探讨[权威资料].doc
《在舆情监测中“网络爬虫”的应用探讨[权威资料].doc》由会员分享,可在线阅读,更多相关《在舆情监测中“网络爬虫”的应用探讨[权威资料].doc(6页珍藏版)》请在三一办公上搜索。
1、在舆情监测中“网络爬虫”的应用探讨 本文档格式为WORD,感谢你的阅读。 摘 要:互联网技术的迅速发展,使得其在当今社会中承载传递的信息日趋增大,在给人们的生活带来方便的同时,也给相关领域的网络舆情管理工作带来了一定压力。爬虫技术是互联网搜索引擎通过一定的指令性程序,对网页进行信息提取技术,是当前有针对性地进行舆情的基础要素。以网络爬虫技术在舆情分析中的应用为中心展开讨论,介绍了互联网舆情检索技术的基本构成,分析了爬虫技术的特点,提出了优化网络爬虫技术的相关方案,同时通过实例进行了验证,具有一定的借鉴价值。 关键词:网络舆情;网络爬虫;网络资源;爬虫测速;主题更改 TP391.3 21世纪是信
2、息科学技术飞速发展的世纪,互联网在生活中的应用越来越广泛,尤其是随着智能手机逐渐普遍,人们能够通过移动互联网更加便捷地获得外部资讯。网络舆情是当前网民们针对热点社会事件以及社会政治经济状况等内容反映出的态度总和。“管中窥豹,时见一斑”,可以说网络舆情就是当前社会现状的放大镜,针对这些态度思想及政治倾向的社会舆论信息的收集整合,是分析社会动向、研究人民需求的重要手段。 互联网引擎搜索技术并未完全成熟,在很多具体环节仍旧存在着缺点,严重制约着网络舆情监测工作的全面展开。传统的网络爬虫技术在进行网络信息的获取时,对其内容的处理精确性和不足,存在着无用信息过多和部分关键信息缺失的情况。因而,针对网络爬
3、虫技术进行研究,提出更为有效的优化措施是一项十分必要的工作。 1 互联网舆情检索技术 现阶段建设的网络舆情监测系统基本涵盖了所有互联网领域的基本技术,是一项复杂而庞大工程。但从系统的功能实现上看,舆情监测系统的关键技术是由互联网信息采集技术和文本信息抽取技术构成的。 1.1 互联网信息采集技术简介 作为互联网搜索引擎获得信息的基本技术,信息采集技术的实现方法包括元搜索和网络爬虫两种模式。这也是当前网络舆情监测信息获得的主要途径。 所谓元搜索技术,就是在检索过程中将多个网络搜索引擎以串联的方式运行,监测方提交的搜索条件被初步处理后,分送给这些串行的搜索引擎,由其各自完成对相应数据库信息的检索工作
4、,在获得初步搜索结果后,再将这部分信息进行二次加工,通过去重、排序、过滤等方式完成冗余信息的处理。元搜索技术在检索信息全面性方面要明显优于单搜索引擎技术。同时,元搜索技术在进行信息检索时并不需要对所有互联网信息进行搜索,具有明显的效率优势。 1.2 网页信息抽取及预处理技术 作为网络信息获取的最终步骤,对检索程序获得的网页信息进行抽取和预处理是搜索信息全面的重要影响因素。所谓网页信息抽取及预处理技术是将网络信息中包含的自然语言根据检索条件进行提取,从中获得需要的实体、关系、事件等要素,最终并用易于理解接受的规范化形式对结果进行记录和展示。现阶段一个成熟的互联网网站,其页面通常包括导航栏、正文标
5、题、正文内容、相关链接、推广信息、版权公告等。而在这些内容中,真正吸引用户的是正文标题和正文内容,也就是切合用户需求的主体信息。在获取网络信息的过程中尽量获得这些主体内容,对其他次要信息进行选择性忽略正是网页信息抽取及预处理技术重要的功能。 2 舆情监测网络爬虫技术简介 作为当前重要的互联网信息采集技术,网络爬虫(We-bCrawler)技术在实际应用中收到了较好的效果。当前各领域构件的舆情采集系统中广泛采用的是Heritrix网络爬虫,这一开源程序允许用户的自主修改移植。Heritrix主要有三大部件:范围部件、边界部件、处理器链。其中,范围部件控制抓取的URL入队过程;边界部件则对选定的U
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 权威资料 舆情 监测 网络 爬虫 应用 探讨 权威 资料
链接地址:https://www.31ppt.com/p-3996997.html