《网络安全审计管理系统可行性报告.doc》由会员分享,可在线阅读,更多相关《网络安全审计管理系统可行性报告.doc(50页珍藏版)》请在三一办公上搜索。
1、深圳市科技研发资金重大产业技术攻关计划项目可行性报告项目名称:互联网不良信息监控关键技术研发申请单位:深圳市*信息科技有限公司项目负责人:联系电话:电子邮箱:传 真:目录第1章项目实施的背景和意义41.1项目名称41.2项目简介与用途41.3项目必要性与重要性51.3.1满足国家对加强互联网信息安全管理的需要51.3.2满足运营商从产品向服务转型的需要61.3.3提升深圳市网络信息安全领域自主创新的能力61.4项目先进性71.5项目创新性81.6项目市场前景91.7项目预期经济效益10第2章国内外发展现状及趋势112.1相关技术发展趋势112.2国内外发展现状132.3产业化状况142.4相关
2、知识产权152.5市场需求分析152.5.1项目目标市场152.5.2市场预测16第3章项目主要研究内容173.1项目研究的主要内容173.1.1网络处理协议及体系结构研究183.1.2对敏感内容、黄色图片、敏感账号等进行识别和布控213.1.3对网站备案状态自动监测管理技术研究223.1.4基于信息搜集与内容分析相关的关键技术研究243.2项目的关键技术243.2.1主题爬虫(Spider)智能抓取技术253.2.2海量文件数据索引技术263.2.3内容搜索引擎技术263.2.4实时报警和阻断技术273.2.5智能学习库建立283.3项目拟采用的技术路线28第4章项目预期目标294.1项目建
3、设的主要目标294.2关键指标294.3功能目标304.4主要经济指标334.5人才培养目标33第5章项目实施方案345.1项目组织管理措施345.2技术实施步骤345.3科技资源综合利用355.4成果产业化策略355.5研发资金的筹集与投入355.6知识产权和技术标准的对策措施365.7特殊行业的许可报批36第6章项目计划进度37第7章现有工作基础条件387.1技术基础387.1.1已有研发基础387.1.2主要研究成果387.2支撑条件427.2.1研发资金427.2.2实验平台、大型仪器设备437.2.3产学研联合实验室447.2.4成立工程中心457.3近几年承担的国家、省、市相关科技
4、计划项目的情况46第8章研发团队478.1研发团队情况478.2项目负责人情况478.3项目人员情况49 第1章 项目实施的背景和意义1.1 项目简介与用途本项目是针对工信部对互联网服务信息安全的政策要求,为提高电信运营商IDC业务网络管理水平和服务质量,防止信息安全事件的发生,进行的互联网不良信息监控关键技术的研究项目,研发成果将建立高性能、大容量、安全稳定的互联网信息安全审计系统,在出现非法有害及敏感信息时能够及时进行告警并采取一定的措施,以保证移动互联网网络及下联客户、增值平台等的安全运行,杜绝网上非法信息的泛滥。该系统建成后,可支持10G链路的管控,通过流量分析、内容还原技术、特征量匹
5、配等关键技术快速发现未备案网站,快速抓取网内不良信息,有效提高互联网信息安全和备案管理水平,切实响应国家相关法律法规要求,为电信行业树立了互联网健康发展领跑者的形象。在发现未备案网站之后,系统立即触发短信告警,通知维护人员及时阻断未备案网站。系统对于已发现的网站还可以通过“内容搜索引擎”这一主动监控技术,快速抓取网页内容,判别含有不良信息的网页。对于用户上网内容里如果包含敏感、反动或非法信息,可设置阻断或过滤条件,阻断网络用户继续发起类似的信息,或者限制网络用户针对此类非法网站的访问,净化上网环境。该系统有效打击网络色情传播、网络非法销售等违法行为发挥了不可替代的作用,保障了互联网的健康持续发
6、展。1.2 项目名称互联网不良信息监控关键技术研发项目(以下简称“本项目”)。1.3 项目必要性与重要性伴随着互联网的发展,网站的数量急剧增多,至2011年初全国网站数量超过300万个,年增长率78.4%,全国网页数量达到84.7亿个,年增长率89.4%, 全国域名数量达到1193万个,年增长率达到了190.4%。网站信息总量达到198,348GB。随之而来各类非法信息(淫秽色情、迷信反动、赌博等)以网站为载体传播越发泛滥。因互联网信息虚拟度高,传播速度快等固有特征,目前仅能采取以下非常有限的措施,这其中包括:主管部门要求“谁接入,谁负责”,将责任加给运营商;用户举报、公安等部门调查,事后发现
7、补救;网站备案,以加大网站的管理等。因此,电信运营商提出建立“自动采集、自动分析、自动阻断及告警”于一体的互联网不良信息内容监控分析系统,以保证互联网持续健康发展。 自动发现网站,实现对网站情况的掌握 按照配置规则,实现对网页内容的自动浏览监控,及时发现违规信息 与信息产业部备案系统接口,及时发现未备案的网站 建立网站信息安全管理平台 1.3.1 满足国家对加强互联网信息安全管理的需要网络上充斥着色情、暴力、反动、迷信等各类不良信息,不但会对未成年人的身心发育和健康成长十分有害,甚至会影响到国家形象和尊严。因此,近年来国家不断加强对互联网信息安全的监控力度,先后下发了国务院令第292号互联网信
8、息服务管理办法和工信部令第33号非经营性互联网信息服务备案管理办法等相关规定,规定明确国家对经营性互联网信息服务实行许可制度,对非经营性互联网信息服务实行备案制度。未取得许可或者未履行备案手续的,不得从事互联网信息服务,否则就属于违法行为。未建立网站备案及内容监控系统前,没有技术手段对发布涉黄、反动、非法传销等传播非法信息的网站进行快速定位,不能自动发现海量互联网内未备案网站及含有不良信息的网站,不能及时打击网络不良信息传播等违法行为。因此,不能有效落实国务院令第292号互联网信息服务管理办法和工信部令第33号非经营性互联网信息服务备案管理办法的相关规定。经广泛调研,大部分省级电信运营商均未建
9、设网站备案监控系统,不能有效监控和打击网络违法信息,不能有效落实国家的相关规定。1.3.2 满足运营商从产品向服务转型的需要随着电信运营商互联网业务的发展和向服务转型的不断深入,越来越多的企业使用主机托管业务将网站服务器托管在运营商的IDC机房,未建设网站备案及信息监控系统之前,不但对未备案网站很难发现,而且对网站中的不良信息业无从下手,为非法网站的运营提供了可乘之机。为落实国家、工信部对打击未备案网站和网络不良信息的要求,保证互联网持续健康发展,迫切需要开展互联网不良信息监控关键技术的研发,建立网站备案监控系统。系统建成后,能快速发现未备案网站,快速抓取网内不良信息,有效提高了电信运营商对互
10、联网网站的信息安全和备案管理水平,保证了切实响应国家相关法律法规要求,在电信行业中为公司树立了互联网健康发展领跑者的形象。1.3.3 提升深圳市网络信息安全领域自主创新的能力从国内来看,网络安全审计属于信息安全领域,存在着明显的“北重南轻”的现象。北京仍然聚集了中国最多的网络安全研发厂商,拥有更多的专业人才及产业聚集地的优势,其典型代表如天融信、联想网御、网康科技等等。在南方,深圳市作为国家级的高科技产业聚集地,也相对具有一定的网络安全技术与人才优势,目前在深圳也有如深信服科技等厂商,但是无论是在企业规模还是人才质量方面都与北方同行企业存在着显著的差距。因此,加大在网络安全方面的投入与引导,支
11、持研发高性能网络内容安全监控系统对于促进深圳市产业升级以及自主创新能力的提升具有重要的意义。1.4 项目先进性项目技术创新性(1)精准的数据识别完全通过特征码进行协议判别,实现应用协议的精准识别,避免协议误判、漏判。(2)深度内容还原、协议分析采用独创的深度内容检测技术,可完全实现内容级的还原分析;通过强大的智能关联技术,可对多种协议之间的内容进行关联分析,实现多种协议协同深度分析。当前支持包括邮件、网站访问等100多种网络应用数据的内容还原。(3)灵活的业务、功能扩展采用先进的组件思想、模块化设计、完善的标准化接口、独特插件式可扩展结构 ,可以通过不同模块或不同插件的组合,实现功能上的极大扩
12、容,应用于多种多样的业务环境。(4)丰富的过滤方式,提供精确行为审计功能支持包括用户名、邮件地址、关键字、URL、HOSTNAME、IP等在内的多种过滤条件,同时支持各种过滤条件的组合,包括“与”、“或”、“非”等。通过多种过滤条件的组合,可以更加准确地分析出用户所需数据。(5)丰富的数据报表系统提供定制化得报表,根据运营商对内容审计业务的分配角色和操作流程提供每个工作环节的工作量报表统计,为客户的KPI考核提供数据支撑。(6)多种告警方式系统提供多种方式的告警。对于系统发现的非法网站,用户的工作量统计信息均可通过邮件、短信、彩信等方式及时通知到运维人员,保证工作的及时开展。项目商业模式创新l
13、 给运营商提供网络平台。本项目目标客户初期定位电信运营商,后期将服务于政府及第三方互联网服务提供商客户。依托本项目技术的创新性、独占性与先进性,快速发展运营商客户。l 给行业用户提供深度内容监测服务,通过包月、包年信息服务费方式获利。面向行业用户提供正负面舆情、预警信息、热点信息的发现、主题事件监测、分类监测、舆情监管、统计分析、辅助决策支持等多层次、多维度的信息加工服务。l 给行业用户提供信息专题分析报告,向签约客户收取按次服务信息加工费。面向行业用户的网络安全审计监测和定向追踪等信息需求,提供分析报告、移动快报服务。1.5 项目创新性预计本项目的成功建设,将极大地提高了发现未备案网站和含有
14、不良信息网站的效率和效果,满足了信息安全管理需求。其主要创新点有:(1)创新性地通过Http分析、爬虫分析、图片分析三种手段相结合发现网站,极大提高了网站发现的全面性和准确率,避免了对未备案网站或含有不良信息网站的“漏杀”,网站发现结果可靠性大大增强;同时,大大降低了传统流量监控方式对网络的改造量和改造成本。(2)通过类似谷歌、百度等搜索引擎的爬虫技术,将网页内容抓取下来,实现了自动取证、人工审核,避免对含有不良信息网站的“错杀”。(3)对服务器端口的扫描,可以实现对非法80/8080应用的发现,再由维护人员关闭未经批准打开的80/8008端口,既保证了服务器的安全性,也减小了存在未备案、非法
15、网站的风险。(4)通过短信、邮件、彩信等多种告警方式,及时通知管理人员处理,大大缩短了处理时限,使得问题网站在最短时间内被封堵,最大程度上减少了不良信息传播。系统的建设和成功应用,解决了以往在网站备案管理以及网络不良信息管理方面的问题,为落实工信部、集团公司对信息安全工作要求提供了手段,对信息安全管理的效率与效果提升明显。该系统的建成属于行业领先,具有显著的先进性,对于互联网健康发展有着重大意义。1.6 项目市场前景(1)市场容量及增长本项目目标客户为电信三大运营商。据权威预计,电信三大运营商针对本项目的投资(包括软件和硬件设备的投入)今后三年预计在10亿元左右。按照通常投资规划,软件在整体市
16、场中所占的比重为40%,即每年的市场占有在1.5亿左右。由于市场尚在早期,而目前在该市场取得突破的厂商还非常少。因此,本项目的市场前景非常大,预计本公司将取得20%的市场份额,总体达到8000万收入。(2)市场发展方向本公司作为电信行业系统研发企业之一,经过多年的发展和积累,已成为专业的电信系统业务合作伙伴。产品遍布全国十余个省市、自治区电信/广电行业,在三大电信运营商和广电行业内树立了良好的声誉,对运营商的业务理解和发展趋势有着深厚的积累,而且对电信及广电行业的发展现状和趋势十分了解,拥有横跨电信、广电、互联网三大信息行业的基础和实力。 本项目产品目标市场定位于国内省级电信运营商,主要分布地
17、区在华南、东南、东北、西北等地。本项目产品将充分借鉴公司服务于全国多个省份的电信运营BOSS、经营分析、增值业务和精确营销等项目的成功经验,拟推广到20个以上省份的国内市场,在产品指标和技术服务等方面以独特优势领跑。1.7 项目预期经济效益本项目以软件产品方式呈现研发成果,以电信、移动、联通三大运营商为目标客户。预计销售产品套数约20套,实现收入总额约8000.00万元,其中项目第一年执行期超过2000万。第2章 国内外发展现状及趋势2.1 相关技术发展趋势网络内容审计涵盖了计算机网络、自然语言处理、图像分析处理、数据挖掘、人工智能、模式识别等多个学科领域的知识,涉及的研究内容较多。因此,内容
18、安全监控管理是一个交叉性的研究方向,很大程度上需要依赖于这些方面的研究成果。总体上来说,基于内容的安全监控管理方面的相关技术研究主要有以下几类:(1)内容审计系统模型与体系结构研究在内容审计研究初期,系统模型为主要研究内容,已有结构模型主要有单一主机集中式结构及监听与审计分离的分布式结构等。单一主机集中式结构采用单一主机完成数据包提取、内容审计、报警等功能,该结构实现简单,主要应用于低带宽网络环境、小规模网络及算法研究与测试。分布式结构将监听与审计模块分布实现,同时会采用均衡算法对流量进行分流采取提取、搜索、滤除和审计4个步骤进行内容检查;。从总体上来看,已有的分布式结构具有较好的可实施性及可
19、扩充性,但主要还是面对局部网络的内容审计,对于大规模网络环境下的应用还存在不足并且这些结构在审计细节上描述较为粗略。离实用还有一定距离概括来讲,已有系统模型主要是针对局部网络区域的内容审计,难以满足大规模网络环境下的复杂多变的审计要求同时,由于网络流量的增长速度已远远高于处理器处理能力的增长速度,因此使用负载均衡算法来应付大流量内容审计是必须的。但已有的分流技术存在不足,不能实现真正的负载均衡,需要进一步完善数据负载均衡算法审计体系对系统自身的安全性能考虑较少,在审计系统内部模块的通信安全以及系统自身抗攻击能力等方面存在缺陷,极易受到有经验网络使用者的攻击。因此,研究一种适合于大规模网络环境的
20、分布式、可扩展的高性能内容实时审计系统模型,可提升审计性能和安全性。(2)不良文本内容分析技术研究文本内容分析在内容审计中用于深度识别可疑文本,同时发现当前信息流中的热点信息。目前文本内容分析技术大多以词语为基本元素,构建文本表示模型,分析文本相似度并采用分类等方法确定其属性。这种分词算法应用到网络信息内容审计中时,存在分词速度慢,缺乏权威、专业的分词语料库支持、鲁棒性较差等问题。因此,研究一种高效的文本分段分类算法,可以更高的查准率、查全率及正确率,并且分类所需时间也更少。(3)不良图像内容识别技术研究不良图像作为色情信息的重要载体,一直是内容审计的重点对象之一。色情图像的识别属于基于内容的
21、图像过滤范围,但又具有一定独特性,很难用一个简单模型把色情图像所有的特征表现出来,但色情图像也具有比较独特明显的特征,即皮肤裸露。概括来讲,不良图像内容识别主要包括肤色区域检测及敏感特征提取等技术。(4)在线处理与阻断技术研究内容审计系统中的在线阻断技术具有较大的实现难度。首先,对传播不良信息的数据包的准确判定具有较大难度,满足怎样的条件可以被认定为恶意数据包,是很难确定的。其次,使用在线阻断对网络流量进行过滤,会造成网络数据传输效率的下降,可能会严重影响正常流量的传输。一般只在网络安全态势严重时才采取在线阻断策略。目前,还没有形成成熟的技术。(5)关键词动态更新技术研究目前,在已有的内容审计
22、系统模型中,几乎都是采取人工建立关键词表,然后将数据包内容同关键词匹配,以查找可疑数据包。由于很难建立一个全面、客观、及时更新的关键词表,使得传统的处理流程局限性很大。特别是在知识爆炸的年代,网络上每天都会产生许多新兴的热点词汇,例如“超女”、“小三”等,并且与这些热点词汇相关的网络内容大多具有较强的舆论价值因此,有必要通过一些技术手段,动态追踪网络新兴词汇的产生及发展。新兴词汇的特征是在短时间、较小区域内重复大量出现。因此,可以通过对数据包内容进行分词处理,并统计词频信息,将短时间内以较高频率出现的词汇提取并提交给分析人员处理通过人工的分析,找寻出可能的新兴关键词汇,并用以扩充更新内容审计系
23、统中关键词列表。2.2 国内外发展现状网络内容监控技术目前还是一个新生事物,国内外对于网络安全审计领域的研究才刚刚起步,市场上的安全审计产品也还比较少。在上世纪80年代,美国的James PAnderson公司在一份名为(Computer Security Threat Monitoring and Surveillance)的报告中最早提出了“安全审计跟踪”的概念,但是直到1995年,才发布了第一个具有实用性的网络安全漏洞审计软件“SATAN”。近年来,国外出现了一些优秀的安全审计产品,但是国外专注于网络安全审计的公司,大都基于国际上的标准化应用,而由于网络安全审计的特殊性,要求安全厂商必须
24、对本地应用进行支持,例如对IM(Instant Messaging)软件的限制,国外的安全审计系统关注的是ICQ、MSN、雅虎Messenger、Skype等,而国内的用户关注的是腾讯QQ、网易泡泡、淘宝旺旺等,因此,国外的安全审计系统并不适用于国内的实际情况。国内,汉邦软科集团在2000年研制出了“信息安全综合强审计监控系纠”。这个系统是一个基于信息流的数据采集、分析、识别和目标行为分析软件,其采用分布式结构、模块化的设计思想,整个系统由审计中心、主机传感器、网络引擎三部分组成。其主要功能有:违规内外联监管、网络行为审计、移动存储介质管理、主机授权管理、数据库操作审计、智能报表系统等等。20
25、02年8月,启明星辰信息技术有限公司研制出了“网络安全审计系统”。在设计上采用审计中心、数据管理中心和网络探测引擎三级结构,它可以对网络数据流进行采集、分析和识别,实时监视网络系统的运行状态,记录网络事件、发现安全隐患,并对网络活动的相关信息进行存储、分析和审计回放。“网络安全审计系统” 的亮点在于可以对内容进行审计,其审计方法是采用关键词匹配方法。2003年6月,天融信公司宣布推出全新的综合安全审计系统TA(TOPSEC Auditor),它可以对安全产品(如防火墙、IDS、AV等)、网络产品(如Router、Switch)、应用系统(如Web、Mail)、操作系统(如Windows、Lin
26、ux、Unix)等多种产品和系统的同志信息进行收集,提供统一的集中管理平台,实现网络和系统的审计分析。除了以上几种产品,还有如复旦光华、西安交大捷普等也推出了各自研制的安全审计系统,其功能与前几种产品基本类似。以上这些安全审计系统都是目前成熟的产品,功能上对于各种常用的网络应用都具有很好的审计效果。但是,目前这些系统中绝大多数都只是针对网络应用的行为进行审计,即对各种网络活动进行记录与分析,而忽略了对网络活动中所涉及的信息内容进行审计。因此,目前成熟的安全审计产品基本上都存在缺乏内容审计的缺陷。另一方面,国内对于内容审计方法的学术研究也取得了很大的成果。主流的方法是利用字符串模式匹配的方法解决
27、内容审计的信息过滤问题,其代表方法是BM算法或其改进形式。这种采用字符串匹配的方法仅仅是对关键词进行比对。该方法虽然能够很好的过滤出含有关键词的内容,但是,过滤出的内容不一定是满足用户需求的内容。例如,一篇讲述医学研究的文章中出现了一个词“计算机” ,而用户想过滤与计算机相关的内容,根据关键词匹配方法,用户会过滤出该篇文章。但是,该文章的主题内容却不是有关计算机方面的内容。因此,关键词匹配方法的正确率并不理想。针对字符串匹配方法的不足,另一种采用信息过滤技术来设计内容审计方法的研究方向也开始起步。2.3 产业化状况从国内来看,网络安全管理平台,存在着明显的“北重南轻”的现象。北京聚集了中国最多
28、的网络安全研发厂商,拥有更多的专业人才及产业聚集地的优势,其典型代表如天融信、联想网御、网康科技等等。在南方,深圳市作为国家级的高科技产业聚集地,也相对具有一定的网络安全技术与人才优势,目前在深圳也有如深信服科技等厂商,但是无论是在企业规模还是人才质量方面都与北方同行企业存在着显著的差距。因此,加大在网络安全方面的投入与引导,支持研发高性能网络内容安全监控系统对于促进深圳市产业升级以及自主创新能力的提升具有重要的意义。2.4 相关知识产权(1)本项目前期产品在2007年获得了计算机软件著作权证书,登记号为:2007SR15794,注册名称为:电信行业互联互通监测与结算分析系统.V1.0(2)本
29、项目技术原型在2011年获得了计算机软件著作权证书,登记号:2011SR016334 ,注册名称:“新宇龙网络舆情监测系统V1.0”。2.5 市场需求分析2.5.1 项目目标市场本公司作为电信行业系统研发企业之一,经过多年的发展和积累,已成为专业的电信系统业务合作伙伴。产品遍布全国十余个省市、自治区电信/广电行业,在三大电信运营商和广电行业内树立了良好的声誉,对运营商的业务理解和发展趋势有着深厚的积累,而且对电信及广电行业的发展现状和趋势十分了解,拥有横跨电信、广电、互联网三大信息行业的基础和实力。 本项目产品目标市场定位于国内省级电信运营商,主要分布地区在华南、东南、东北、西北等地。本项目产
30、品将充分借鉴公司服务于全国多个省份的电信运营BOSS、经营分析、增值业务和精确营销等项目的成功经验,拟推广到20个以上省份的国内市场,在产品指标和技术服务等方面以独特优势领跑。2.5.2 市场预测据权威预计,电信三大运营商针对本项目的投资(包括软件和硬件设备的投入)今后三年预计在10亿元左右。按照通常投资规划,软件在整体市场中所占的比重为40%,即每年的市场占有在1.5亿左右。由于市场尚在早期,而目前在该市场取得突破的厂商还非常少。因此,本项目的市场前景非常大。预计本公司执行期第一年将取得2000万的产品销售收入。随着示范效应的扩大,本项目产品市场竞争力也将逐年上升,销售模式也将从产品到服务,
31、为行业用户提供深度内容检测和专题信息的分析报告等特色服务。因此,未来五年都将保持一定的市场容量及增长量,本产品市场占有率预计不少于20%。第3章 项目主要研究内容3.1 项目研究的主要内容归纳起来,本项目研究主要分为以下几类:(1)网络处理协议及体系结构研究。从网上内容安全宏观管控角度出发,研究了内容安全监控管理框架,并在此基础上从监控技术角度进一步研究了互联网上内容安全综合分析与监控技术体系结构。(2)面向不良信息的文本分类技术研究。实现对敏感内容、黄色图片、敏感账号等进行识别和布控。(3)对网站备案状态自动监测管理技术研究。通过自动发现技术、搜索引擎技术、智能识别等专项技术的研发,实现对当
32、前互联网低俗站点专项整理,协助各接入服务商完成非法域名自查整改的重任,成为对付黑名单网站、未备案网站、不良网站的利器,及时了解和掌握所服务网站的备案和内容安全情况并采取及时有效的管理行为。与运营商业务系统对接,提供IDC机房管理、服务器管理、工单跟踪等特色功能。(4)基于信息搜集与内容分析相关的关键技术研究。利用自然语言处理、人工智能与机器学习等许多领域的相关技术自动对互联网上的不良信息进行发现,为本项目研究重点之一。本项目确定以信息搜集和内容分析为基础的研究思路,研究了网页采集、文本特征提取、文本分类等具体技术,并结合不良信息监测的实际分别提出可行的解决方案,同时在此基础上提出了不良信息监测
33、平台的总体实现框架。该系统建成后,可支持10G链路的管控,通过流量分析、内容还原技术、特征量匹配等关键技术快速发现未备案网站,快速抓取网内不良信息,有效提高互联网信息安全和备案管理水平,切实响应国家相关法律法规要求,为电信行业树立了互联网健康发展领跑者的形象。在发现未备案网站之后,系统立即触发短信告警,通知维护人员及时阻断未备案网站。系统对于已发现的网站还可以通过“内容搜索引擎”这一主动监控技术,快速抓取网页内容,甄别含有不良信息的网页,通过快照的方式保存还有不良信息的网页。对于用户上网内容里如果包含敏感、反动或非法信息,可设置阻断或过滤条件,阻断网络用户继续发起类似的信息,或者限制网络用户针
34、对此类非法网站的访问,净化上网环境。3.1.1 网络处理协议及体系结构研究目前的安全审计产品一般由审计中心、审计代理、管理控制台和数据库等四部分组成。审计中心:将审计代理发来的审计日志存储于数据库中,并根据管理员定义的审计规则对审计日志进行过滤、分析等操作;或者将审计规则下发到审计代理,由审计代理完成部分的对审计日志的处理操作。 审计代理:用于接收来自操作系统、应用系统或网络设备的审计日志,将接收到的审计日志转发给审计中心;或按照审计规则对日志进行过滤、处理后再发送给审计中心。其中,审计代理接收日志有两种方式: 审计代理A:用于接收操作系统和应用系统的审计日志,安装在受审计操作系统或应用系统所
35、在的计算机主机上,由审计代理主动读取操作系统和应用系统日志文件中的信息。审计代理B:用于接收网络设备的审计日志,一般安装在独立的计算机上;同时在网络设备上进行设置,发送审计日志到该地址的主机,由审计代理被动接收网络设备的日志信息。 管理控制台:用于审计系统的管理员管理控制审计中心,执行管理操作,如:进行审计日志的查看、定义审计规则、生成日志报表等; 数据库:用于存储审计日志或审计报表等数据。多数厂商使用第三方的数据库产品。本项目采用TAP旁路部署模式接入,首先在核心层网络出口部署相关的监控节点并且建设互联网内容安全管理的中心节点。监测所有本网用户(专线用户、个人宽带用户)访问他网,如使用Web
36、服务、即时通信工具、FTP服务等的信息内容;并监测所有外网用户访问的本网数据,实现对IDC主要内容的监测。同时在汇聚层IDC部署对应的监控节点,以实现对IDC内容安全的全面管理。网络架构如下图所示: 系统网络部署图如上图所示,网络内容安全监测系统由内容监测前端机、图片识别服务器、应用服务器和中心报表服务器组成。监测前端机、图像识别机和应用服务器之间通信采用内部地址,探针监测网络出口数据流时,监测端口不需要配置IP地址,不需要访问被监测设备,对被监测设备的性能没有影响,不改变原有业务流程。监测前端机监测前端机可根据需要选择千兆以太网电接口或光接口,前端机采用数据旁路方式接入被监测链路,多接口或主
37、备链路采用前端机接入集群来实现数据接入和内容安全分析。监测前端机的主要工作任务是采集链路数据、还原业务内容并进行文字不良信息匹配识别,同时应用内容匹配去重机制过滤图片信息,将过滤后的图片传递到图像识别机进行黄色图片识别判定。高速数据接口分流转换设备对于2.5G/10G的高速数据接口采用旁路接入的光TAP分流设备对被监测链路完成数据分流和流量预筛选。数据分流设备将接口转换为千兆以太网电接口,通过千兆接口的监测前端机对分流处来的网络流量进行数据采集分析。对于多个GE接口,采用GE接口专用汇聚设备将多个GE接口数据过滤转换到若干个GE接口,实现流量汇聚分析。图像识别机图像识别机的主要工作任务是将监测
38、前端机传送过来的图片信息进行黄色图片智能识别判定,将判定结果上传到应用服务器。应用服务器应用服务器是内容安全监测系统的控制中枢,完成监测功能配置、监测记录存储记录、监测结果统计分析等功能。系统用户通过WEB浏览器完成对系统的功能配置和结果分析。如果监测入库的数据量汇总结果过大,可配置多台应用服务器实现应用服务器集群。由于应用服务器需要和监测前端机保持高速的大带宽通信接口,所以需要每个监测的物理节点配置至少一台应用服务器,实现主备或监测集群设置需配置两台或多台应用服务器。中心报表审计服务器中心报表服务器主要完成监测结果的汇总统计分析功能,中心报表服务器与应用服务器通过网络连接。3.1.2 对敏感
39、内容、黄色图片、敏感账号等进行识别和布控对互联网上敏感内容、黄色图片、敏感账号的识别研究需要考虑以下几个方面技术内容:(1)面向应用对象角度从该角度来看,网络内容安全监控管理涉及到文字、图片、网站、敏感帐号服务等诸多应用对象,因此体系架构必须满足多协议的处理。(2)信息获取方式角度从该角度来看,可以分为基于本地信息获取的和基于远程信息获取的两种网络内容安全监控管理技术方式。前者是指信息来自于网络内容安全监控管理技术所在的本地或者外来信息流至该地并被截取的。后者是指通过一定的网络技术主动获取远程信息源的信息。(3)技术布署层次角度从该角度来看,网络内容安全监控管理技术依次主要涉及各种协议解析、网
40、络机器人等与通信相关的技术;加密信息破解、恶意代码检测及清杀、隐藏信息检测和提取、信息内容去噪及格式识别转换等信息处理等前提辅助技术;分级监控、文本图像分析与处理、内容安全审计等信息处理技术;在上述技术基础上形成的电子邮件过滤、内容过滤网关、网站个人主页监控、内容安全管理平台等具体应用技术。基于以上对网络内容安全监控管理的讨论,从技术角度出发,我们给出了网上内容安全综合分析与监控技术体系结构。如图所示:系统体系结构图信息捕获及布控层:主要涉及各种协议解析、网络机器人等与通信相关的技术;信息处理层:加密信息破解、恶意代码检测及清杀、隐藏信息检测和提取、信息内容去噪及格式识别转换等信息处理等前提辅
41、助技术;应用内容安全层:分级监控、文本图像分析与处理、内容安全审计等信息处理技术;在上述技术基础上形成的电子邮件过滤、内容过滤网关、本地网站个人主页监控、内容安全管理平台等具体应用技术。3.1.3 对网站备案状态自动监测管理技术研究根据信息产业部、工业和信息化部等各部委的相关法律法规要求,结合国内互联网接入服务提供商在互联网接入服务管理方面的运营需求的基础上,通过自动发现技术、搜索引擎技术、智能识别等专项技术的研发,实现对当前互联网低俗站点专项整理,协助各接入服务商完成非法域名自查整改的重任,成为对付黑名单网站、未备案网站、不良网站的利器,及时了解和掌握所服务网站的备案和内容安全情况并采取及时
42、有效的管理行为。处理流程图如下:主要工作内容有:(1)工信部备案自动验证未备案域名定位。根据IP地址域名自动发现的结果,通过“工业和信息化部ICP/IP地址/域名信息备案管理系统-公众查询系统-备案公共信息查询”实现批量自动备案验证,对于已经完成备案的域名,自动提取备案号及备案单位名称;对审核中或未备案的网站,必要时可以自动向相关人员发送检测报告。(2)IP地址网站自动发现非法网站定位。能够对没有域名,直接采用IP及端口通过http或https方式访问的网站进行自动发现。(3)已知黑白名单域名自动轮询黑白名单域名匹配。根据IP地址域名自动发现的结果,自动检测已经查处的黑名单域名是否仍然存在接入
43、服务商辖区内继续运行,如果存在,则立即向相关人员发送告警信息。对于标识成白名单的域名或IP地址,系统默认情况下可以不再重复进行域名自动扫描与备案验证、不进行网站状态检测及首页敏感信息检测。3.1.4 基于信息搜集与内容分析相关的关键技术研究利用自然语言处理、人工智能与机器学习等许多领域的相关技术自动对互联网上的不良信息进行发现,为本项目研究重点之一。本项目确定以信息搜集和内容分析为基础的研究思路,研究了网页采集、文本特征提取、文本分类等具体技术,并结合不良信息监测的实际分别提出可行的解决方案。 (1)研究基于内容评价的爬虫搜索策略。深入研究了基于内容的链接与页面价值评价方法,对网络爬虫的工作进
44、行了深入分析。采用基于内容评价的方法,以超链接与网页具体内容指导爬虫搜索,提出了具体的链接价值评价策略。同时研究了相应的页面获取技术。(2)提出将基于重复串的特征提取方法应用于不良信息的监测并设计了特征提取算法,同时分析了不良信息的形式化特点,基于一类文档的主题相关性,把重复串思想应用于这一类不良信息监测,研究了基于重复串的特征提取方法。(3)提出实时文本分类器设计方案。深入研究了文本分类的有关问题,研究了基于统计学原理的贝叶斯分类算法,针对不良信息监测实时性的要求,对实时文本分类方法进行了深入研究,提出适合不良信息监测的实时文本分类器设计方案,同时,提出文档特征反馈机制以提高分类性能。3.2
45、 项目的关键技术 本项目的核心技术包括:网址内容智能抓取技术、海量文件数据索引技术、内容搜索引擎、在线阻断、专家学习库技术。 3.2.1 主题爬虫(Spider)智能抓取技术 网址内容智能抓取技术应用在互联网上,系统每周定期抓取数以百万计万计的页面,对数以万计的页面进行扫描处理。体系架构如下图所示: (1)内容采集服务 根据给定入口地址,通过深度遍历,抓取从指定入口地址的所有页面,记录下URL链接,下载时间,文档类型等信息。如果是文字信息,将内容交给敏感词扫描系统处理;如果是图片、视频信息,将内容提交数据保存服务存储。提供排重功能,只扫描更新的入口的链接,对于扫描的层次深度,可以根据配置文件进
46、行调整,对不同网站可以设定扫描频率的权重。(2)敏感词扫描服务敏感词扫描服务负责对文字信息中的关键词进行扫描,对于包含关键词字典中关键词的页面,提交数据保存服务,记录下该页面相关的信息。(3)数据保存服务 数据保存服务为其他模块提供数据服务,主要需要维护数据库数据与文件存储器上的图片和图片文件的数据完整性和一致性。(4)网址内容智能抓取技术关键业务流程 内容获取后进行分析和扫描,分析出页面上新的链接继续抓取,管理员可以定义抓取的层数,在抓取的页面层数已经到达管理员定义的数值或是已经没有新的链接的时候自动停止抓取。3.2.2 海量文件数据索引技术文件索引就是从网页中抽取出索引项,形成一个用于表示
47、文档及生成文档的索引表,目的是加快对用户的响应速度。索引表记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系。索引器主要有以下几项功能:(1)从页面存储库中读出文档,进行解压,完成文档分析工作。每个文档被分解、转化为一系列的词语出现状态记录。(2)分析每个WEB页面上的链接,并将其中的重要信息存储到链接点文件中。该文件记录了有关每个链接的来源和去向,以及链接文字等重要信息。检索技术的检索的处理过程是对用户输入的搜索关键字。搜索服务器先对应关键字典把搜索关键词转化为wordID,在标引库中得到docID列表。再对docID列表进行扫描和wordID的匹配,提取满足条件的网页。然后计算网页和关键词的相关度,给网页排序。最后返回前N篇网页给用户。本系统须支持从各种不同结构的网页中,通过抽取规则,将所需要的数据进行结构化处理,转换成所需要的数据结构和内容,这些结构和内容都将存储在索引系统中,以供检索模块调用,而在数据应用时就如同从数据库取字段那样简单。舆情监控系统也支持将抽取后的结构化数据保存进入用户的其它数据库中,方便其它应用和扩展。不仅如此,舆情监控系统也支持从互联网获取
链接地址:https://www.31ppt.com/p-3823077.html