互联网(舆情)信息监控系统白皮书技术白皮书.doc
《互联网(舆情)信息监控系统白皮书技术白皮书.doc》由会员分享,可在线阅读,更多相关《互联网(舆情)信息监控系统白皮书技术白皮书.doc(20页珍藏版)》请在三一办公上搜索。
1、互联网(舆情)信息监控系统IMonitor for Internet技术白皮书二一年一二月目 录一、前言3二、系统简介3三、为什么选择迅奥?4四、监控需求分析4五、系统特点65.1优越监控性能65.2标准的监控流程85.3监控流程概述(如上图)95.4新闻热点监控95.5新闻评论监控95.6BBS热点监控10六、系统架构116.1监控采集技术126.2监控分析146.3监控匹配156.4监控管理16七、关于迅奥217.1先进的技术227.2广泛的客户群体227.3显著的优势23八、部分客户23一、 前言当今社会,互联网蓬勃发展。随着网民的不断增长,越来越多的人把互联网作为获取信息的首选渠道。一
2、批有影响力的门户网站和BBS逐渐成为网民最常使用的互联网服务站点。然而,在互联网蓬勃发展的同时,也不断地产生一些问题。少数不法份子借助互联网开放自由的特点,传播暴力、色情内容,危害青少年身心健康;更有甚者把互联网作为反动、邪教活动的工具,散布谣言、蛊惑民心,公然以政府为敌,对社会的安定团结造成极大的危害。长期看来,如不对其加以监管,势必会影响社会信息化的发展,甚至会造成社会腐化和思想倒退的严重后果。党中央非常关心百姓心声,对互联网信息服务的健康发展一直非常重视。目前,已形成以国务院新闻办为中心,各省市外宣办为下级节点的监控体系。监管更从立法到行业普改,逐渐形成完备的监控格局。面对日新月异的互联
3、网技术发展,不断膨胀的互联网信息,还有其他不断出现的相关新问题,都要求监管机构以更新的技术和更快的反应速度来应对变化,武装自己,以保障中国互联网产业的持续、健康发展。迅奥作为国内优秀的互联网企业,拥有业界领先的搜索核心技术。凭借多年积累的海量信息处理和应用经验,震撼推出IMonitor互联网信息监控系统,并迅速成为业界领先的解决方案。迅奥的目标是成为国内互联网监管标准,为信息产业的健康发展做出应有的贡献。二、 系统简介系统的总体设计规划出发点来自于在互联网监管工作过程中实际存在的各种问题。系统的目标也正是为互联网监管带来实际的帮助,提高监管效率、完善监管质量;实现对互联网舆论及热点的监控、分析
4、。通过这款监控系统软件,无论是热点、BBS热帖还是违规监查的突发事件,都可以在简短的学习过程后,通过方便友好的系统配置,全面掌握所有的目标信息,从而把监控人员的工作重点从花费大量的时间寻找目标信息推进到对监控信息的深入分析和及时采取应变对策的监控过程。三、 为什么选择迅奥?北京迅奥科技有限公司是一家从事互联网信息应用技术的软件公司。迅奥是一家专注于海量信息处理的技术提供商,亦是专注于政府、企业消费信息的服务提供商。迅奥公司(原中搜.企业应用事业部)从事信息技术研发已有近十年的历史,客户遍及政府、媒体、大中型企业,致力于互联网信息抓取、全文搜索及信息的人工智能分析等多项网络信息技术的潜心研究。迅
5、奥互联网信息监控系统正是融合了多项前沿的信息处理技术所形成的产品。本产品的优势在于我们对互联网监控需求的深刻理解以及强大的技术实力和多年产品积累的保证。该产品秉承迅奥对产品及服务品质一贯的高要求,处处体现出企业旺盛的生命力和无尽的创造力,是客户价值的典范。四、 监控需求分析系统价值在于帮助用户解决互联网监管面临的实际问题。由于需求的特殊性,迅奥在系统设计阶段通过长达六年的需求调研,基本上完整的了解用户的实际需求;通过听取专家意见,吸取业界经验,从资源、技术、发展规划等方面进行了综合地分析;在产品设计上充分考虑了客户价值,力求使迅奥监控系统能够充分满足客户的需要,并把真正帮助客户解决监控工作中出
6、现的实际问题作为首要任务。监控需求产生的主要背景是互联网在国内的快速普及导致互联网影响力的不断加大,从而带来的一系列意识形态的新问题。为了能够正确地引导舆论,保障经济建设有良好的政治文化氛围,国家有关互联网内容监管机构对监管的体系和监管技术也提出了更高地要求。根据对市场深入了解和分析,我们发现主要的需求有两类:第一类是政府部门,主要需求是对互联网内容发布进行监管;另一类是互联网服务运营商。他们之间是监管与被监管的关系,面临的是监察违规和防范违规的问题,共同的目标是防止互联网成为非法信息的传播渠道,维护互联网产业健康发展。政府新闻主管部门对互联网舆情监管有较高要求,希望可以实时了解互联网中有哪些
7、热点以及社会上的某些突发事件对百姓的影响,随时掌握是否有别有用心的人,利用互联网散布谣言、鼓惑民心,误导普通网民大众,以便及时采取相关措施把网民舆论引导到正确的道路上来。大多数新闻网为网民提供新闻评论渠道,供网民表达对新闻的观点,而一些不法分子利用这个渠道散布诽谤,甚至反动言论。网站服务商面对主管部门的监管要求,需要对大量的评论进行内容筛选,传统的人工方式的效率不高,工作量庞大,导致经常不能对所出现的问题进行及时反馈,这是面临的主要突出问题。在BBS上,网民可以畅所欲言,对社会上的事件愤愤不平,群情激昂。老百姓最关心什么?他们都在议论什么?有哪些社会不公平现象是群众最难以忍受的?在BBS上基本
8、上都能够得以具体体现。因此,对以BBS为代表的互联网服务的即时监控,是互联网舆情监控的重点。许多事件的连锁反应和不断扩大大多是通过BBS渠道蔓延的,在此过程中,如果政府及相关监管部门能够及时发现问题,正确引导舆论,那么对于控制突发事件的局面,维护社会安定团结的大环境是非常必要的。论坛BBS是网民最常使用的互联网服务之一,具有开放和自由的特点,这种特点导致BBS中很容易滋生传播非健康非主旋律的不良内容。如何发现、有效防范并进而打击邪教、反动、色情及其他不良信息通过这种特殊的渠道进行传播是政府监控工作需要一直长抓不懈的工作重点和难点。五、 系统特点l 支持新闻热点发现、新闻评论监控。l 支持监控专
9、题。监控人可方便定制、管理自己的监控专题。l 支持监控报警。即使无人值守,也不会错过重要事件。l 全面支持BBS违规监控,自动统计跟帖量、浏览量,实时了解BBS热点。l 支持关键词模糊匹配。无论是同音词、相关词,甚至出现了不完整或是不完全匹配的情况,都可被有效监控,避免遗漏违规情况。l 支持灵活的优化机制,对处理器和带宽的占用率更低,使单机支持更大的监控范围。l 先进的监控下载技术,通过自动分析技术、模板技术、JS解析技术支持更广泛的监控需求。l 支持报表生成,并可按用户要求定制符合用户要求的报表。l 具有较高系统稳定性。具备完整地日志功能,可详细的显示系统状态,便于系统管理和维护。5.1 优
10、越监控性能系统拥有较高的资源利用率,可以在相同配置的硬件和带宽环境下拥有较高的监控性能,有效缓解因硬件及带宽限制为处理海量数据造成的压力。高速增量更新迅奥的新闻更新技术性能可以达到同时监控数千家网站。被监控网站所发布的新内容,几分钟内就可被系统收录和刷新。面向监控的全文库技术由于监控需要进行大量的数据吞吐,即使大型的关系型数据库也无法满足应用的要求,因此监控数据的管理采用的是全文库技术。系统不但集成了业界领先的全文库技术,更在此基础上为监控系统特殊要求进行了改造和优化。监控即时处理技术:传统的监控方式是将待处理的监控数据先放到本地,再进行监控处理。经过对监控应用特点的分析,我们采用了相比更好的
11、方案,即对采集到的数据直接进行监控分析,把其中一些明显没有价值的内容尽可早地通过分析剔除掉,系统只保留分析后的有效数据。这种方法的实现可以很好的优化系统的监控性能。理想的监控质量为了提高互联网信息监控的智能化程度,系统首次将人工智能、模糊匹配等技术应用于监控领域,提高了监控的质量,有效地避免系统在监控中的漏报、错报的问题。支持模糊匹配监控违规内容发布时,有些内容为了逃避监控,常常使用暗语及不完整的表达方式,甚至音同字不同。这样大大增加了监管难度,如果使用传统的技术是很难有效监控的。系统率先使用模糊匹配技术,支持对多种违规情况进行有效监控。5.2 标准的监控流程示意图元素说明:#元素名称元素说明
12、备 注1互联网指系统的监控对象,泛指各种类型的被监控网站对境外网站的监控,需要通过代理服务2防火墙指网络安全设备,保障互联网访问中的安全3监控信息库指系统监控数据及监控结果存放单元,以供日后查找、分析4互联网信息监控系统监控主系统5系统管理员指监控系统的管理和维护人员6监控结果分析处理指系统按照管理员定义的“监控需求”通过监控分析后产生的监控结果,供监管部门决策参考7监控报表对监控结果通过报表形式保存或打印8监管人员指系统监控功能的日常使用者5.3 监控流程概述(如上图)如上图“监控流程示意图”所示,标准系统使用流程是这样的:(”标号”为示意图中元素编号)首先由系统管理员5初始化系统,部署监控
13、目标。定义监控源分类,设置初始监控源,分配监管人员8账户。监管人员8可随时在管理员5设置的监控范围下开展监控工作,每一位监管人员可独立指定自己监控分类及监控专题。监控系统4按照用户设置监控要求对互联网1进行持续的监控,并返回监控结果(监控报表)。监管人员8可随时将监控结果总结,并生成监控报表7,提交相关决策部门参考6。长期积累的监控数据形成内容丰富的监控信息库5,可供随时查询,或进行趋势和历史数据研究分析。5.4 新闻热点监控如何鉴别新闻热点,一直以来都是互联网分析过程的难点和重点。系统在分辨热点新闻的时候主要参考了以下几个特征:首先应是各网站力推的信息,受到网站编辑的青睐,会在短时间内被多家
14、网站转载。其次是网民非常关注的信息,有较大的浏览量和评论量。同时信息的出处、类型、在网站中出现的位置也会从另一方面反应信息的价值。5.5 新闻评论监控互联网服务存在许多优越性,一个重要的特点就是可实现交互,网民通过网站留下自己的见解和观点,实现了网民与网站、网民与网民的讨论。这一特征是传媒发展的一个重要的里程碑,标志传媒进入了互动时代。针对这一特点,系统通过对新闻评论的监控分析,可以得到准确的舆情动态,了解用户真正关心的问题和他们对事件真实的态度和想法。5.6 BBS热点监控BBS论坛开放、自由的特点,一直是违规内容监管的重点。系统具备强大的BBS监管功能,通过JS解释、模板分析技术,使BBS
15、类网站的监控质量有很大提高。针对BBS的舆情监控,系统提供了热点分析功能。通过对BBS中帖子的转载量、点击量进行统计,可即时发现论坛中的热点。六、 系统架构互联网信息监控技术是一项全新的信息处理技术,是在“互联网信息下载技术”和“全文搜索”技术的基础发展出来的。信息监控系统的工作原理是将被监控内容自动下载到监控服务器,由系统根据用户定义的监控需求进行监控分析,从中发现违规内容,同时分析出信息的热点。监控质量的关键是尽可能快速、全面的发现待监控内容;其次要对监控内容进行精确的处理,并对监控结果进行分析,最终生成可提交决策用的监控报表。由于互联网监控的数据量非常巨大,处理时需要巨大的数据吞吐性能,
16、必然离不开支持海量数据管理的搜索引擎技术。从应用需求的角度,还需要形成一套符合监控流程和人员使用习惯的应用逻辑,以构成完整的系统体系。系统使用JAVA语言,基于Struts架构开发,符合J2EE规范。基本上JAVA支持的平台,如:Windws Server 2000/Linux/UNIX平台均可部署。通过JDBC技术支持主流数据库系统,如:My SQL、SQL SERVER、ORACLE;应用服务器支持:Tomcat、Resin、Weblogic、WebSphere。6.1 监控采集技术监控采集是互联网应用技术的一个分支,用于对互联网网页信息的抓取。面向监控的采集模块有一定特殊性,需要具备:“
17、快速、全面、准确、大范围”的特点;需要支持高强度的下载压力。因此模块需要支持良好的下载控制和优化机制。为了实现达到良好的性能,我们设计了抢先式多线程技术。这是下载Spider比较理想的技术。它是同蜘蛛一样行动的程序,该程序通过页面中的URL链接检查更新页面。链接验证不仅处理HREF对象,还会包括JavaScript、INPUT等对象中的连接。通过不断更新的URL队列,合理分配下载线程。即时性指标因为历史信息不是监控的重点,所以监控的即时性指标就十分重要。即时性是指对信息监控的时效性,是内容出现到被监控到的最短周期,也是监控质量的重要指标。互联网上每时每刻都会产生大量的信息。根据权威分析数据,通
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 舆情 信息 监控 系统 白皮书 技术

链接地址:https://www.31ppt.com/p-2880811.html