《IP网络路由监控系统及流量监控研究.ppt》由会员分享,可在线阅读,更多相关《IP网络路由监控系统及流量监控研究.ppt(23页珍藏版)》请在三一办公上搜索。
1、中国移动集团级重点研发项目结题汇报报告,2011年11月15日,项目名称项目编号:CMNET新跨越解决方案和关键技术研究项目IP网络路由监控系统及流量监控研究,1.1 研究背景及目标,课题目标1:IP网络路由监控系统实现 完成情况:课题对比研究了业界主流的路由监控系统方案,并在北京移动CMNET现网进行了系统实现,实现了CMNET路由端到端拓扑呈现、网络三层故障监测及路由规划等功能,并对北京移动CMNET网络进行了故障分析和不合理路由分析;,课题目标2:路由流量监测及IP/传输统一拓扑的实现方案研究 完成情况:研究了IP网络的路由流量监测以及与传输网络的统一拓扑呈现方法。目前,现有网络流量的监
2、控实现方式要么是在固定的关键节点通过DPI设备对流量明细进行监控,要么是通过轮询方式监控路由器端口流量,无法实现基于网络路由的流量呈现,可通过将路由信息以及xFlow数据整合,同时结合用户的IP地址范围能够实现CMNET网络内同一用户各条路由的流量呈现,同时还可呈现每路由流量中的细致信息(包含的应用);对路由器之间的大流量业务,在光层设备上建立专用传输路径使这些大业务流量从源路由器节点,不经过中间P路由器中转,直接到达宿路由器节点;实现IP网络与光网络的统一拓扑呈现,实现IP与光网络路由的统一规划,规避由于路由规划不合理导致的网络故障;,1.2 主要研究内容,需求分析:,对于路由变化的发现、定
3、位和解决,现有手段是基于网络设备路由表检查,此方式只可得到单台设备路由变化情况,对于引起路由变化原因(点),不能快速定位,需登录每台网络设备进行查询后,进行综合分析,之后再进行原因定位,耗时较长,达不到“快速发现、快速定位”要求,对于问题的解决存在迟滞现象;IP网络所承载各类业务的流向无法可视化,IP网络的错误配置无法及时发现,在发生故障时,尤其是厂家设备BUG导致的故障,无法及时针对故障进行精确定位;,路由监测与SNMP监测的比较:,轮循检查设备和接口的健康状况和统计信息,并不具备路由的实时智能和可见性,对于动态的路由结构(第3层)不能提供任何信息;,路由监测,SNMP协议,路由监测通过分析
4、IP路由协议包而提供IP网络中路由状态的可视性,实现网络层的管理;,能够实现路由事件的记录与回放功能;,无路由记录能力;,报告全网事件及网络稳定分析报表功能;,仅能分析单台设备的接口及物理链路状态;,基于现网数据库进行IP网络规划、路由规划及仿真功能;,无此能力;,以下现网故障,现有手段无法发现:,路由错误配置的及时发现;网络设备本身BUG引起故障,仅能依靠业务的中断来发现;奥运INFO认证系统的CISCO_3825路由器接口在未连接的情况下处于UP状态;WLAN承载网JUNIPER_M320路由器端口环路撤销后,在无光纤连接情况下,依然处于环路状态;,1.2 主要研究内容,IP网络运行维护的
5、两大问题:,?端到端路径不可知?路由的流量及明细不可知,目前IP网络无法实现针对IP层网络路由的监控,IP网络所承载各类业务的流向无法可视化,IP网络的错误配置无法及时发现;,现有网络流量的监控实现方式要么是在固定的关键节点通过DPI设备对流量明细进行监控,要么是通过轮询方式监控路由器端口流量,无法实现基于网络路由的流量呈现,更无法实现一条路由内部不同flow流量的可视呈现;,项目目标:系统实现,项目目标:理论研究,1.2 主要研究内容,1.2 主要研究内容,路由监控实现方式对比,1.2 主要研究内容,路由探测器,将路由探测器连接至被测网络,分配IP地址后,配置与被测网络相同的动态路由协议,使
6、它成为被测网络的一个“成员”;通过与被测网络共享路由协议包(以交换路由协议包方式完成共享,监测系统本身不发送协议包,只接收被控网络发送的路由协议包),分析被控网络的路由协议包,得到网络动态路由情况,并以“拓扑”方式呈现;完成路由监测外,还可进行路由事件的详细信息分析,例如将链路状态、链路Metric等等;,在CMNET网络的关键PE设备上开启Netflow功能,建立CMNET网络的流矩阵;将CMNET各接入系统的IP prefix与基于flow的CMNET网络流量矩阵进行关联,关联出各接入系统(GGSN-1、GGSN-2、小区-1、小区-2、集团客户-1、集团客户-2等等)的明细流量;最后将关
7、联出的数据与IP路由数据进行关联,形成各客户各路由的明细流量;,IP路由监测系统解决方案(系统实现),IP流量监测系统解决方案(理论研究),IP流量监测系统目标架构(理论研究),现状:IP网络内部路由及流量完全不可知,目标:基于路由监控及NETFLOW技术实现IP网络云内部路由及流量的可视化,路由:Ra-Rb-Rc-CMNET骨干-电信骨干网-浙江电信城域网-浙江电信XXIDC电信机房;流 量:200Mbps;业务分类:业务1(20M),业务2(80M);备份路由:Rd-Re-Rf;服务质量:指标1、指标2、指标3;,实现:路由流量业务指标的全监控,1.2 主要研究内容,1.2 主要研究内容,
8、1、路由器所承载的流量增长带来扩容成本压力:,2、路由器网络承载在光网络之上,两个网络路由的规划相互独立,光网络上一个路径的通断会影响到IP网中多条路径不可达;,1、对路由器之间的大流量业务,在光层设备上建立专用传输路径使这些大业务流量从源路由器节点,不经过中间P路由器中转,直接到达宿路由器节点;,2、实现IP网络与光网络的统一拓扑呈现,实现IP与光网络路由的统一规划,规避由于路由规划不合理导致的网络故障;,优化前流量路由CE2-PE1-N1-N2-PE2-N2-N3-P1-N3-N4-PE3-CE3,流量进入第一个路由器后,不再通过中间的路由器设备,直接通过OTN网络疏导;,流量在每两个相邻
9、路由器之间都通过OTN网络疏导;,优化后流量路由CE2-PE1-N1-N2-N3-N4-PE3-CE3,IP与光网络拓扑的统一呈现及流量协同,路由监控系统部署:通过与被监测IGP域内的一个路由设备端口配置在同一个广播网络内或点到点链路上进行IGP协议的监测;通过以RR Client的方式与RR Server建立BGP Peer监测BGP协议;,1.2 主要研究内容,路由监控系统的功能实现:,1、实时呈现路由拓扑,通过旁挂学习全网路由,实时、精确显示路由拓扑图,路由发生变化时,拓扑图立刻更新;监测关键路由,发生故障时进行告警;,2、全网路由事件历史记录分析及回放,实时记录网络中的所有路由事件,而
10、无需设备轮询;可按任何时间段检索路由事件,进行事件回放、问题检测及诊断,及时找出问题根源,迅速定位故障;查看链路故障前、故障后与故障恢复后的路由变化情况;按时间顺序显示事件的详细内容;单步事件回放;,3、报告全网事件及网络稳定分析报表功能,能够以条状图显示指定时间段内所有路由事件的概况,表示链路变化的数量,以及所涉及的节点,对于快速识别正经历极大量路由事件的节点非常有用,这经常是产生网络问题的来源。,4、网络规划及优化仿真,当进入设计模式时,相当于把之前的路由数据库冻结,在该环境下对现网路由器设备进行调整及路由规划,比如,添加新的路由器,新的链路,路由器Metrics值的改变,可在仿真效果达成
11、后再到现网部署,极大地避免了风险;,1.2 主要研究内容,理论分析:路由监控系统在工作过程中端口处于Passive模式,只接收邻接路由送出的路由的update信息,并依次进行全网拓扑的发现、路由事件收集以及路由分析,其端口不会向外发送任何路由更新。因此,此设备的存在对网络运行没有影响,在国内外已部署的大量实际案例已证明;,测试分析:如下图建立测试环境,R1、R2及路由监控设备均启用OSPF:R2上show ip ospf nei显示路由监控系统是DRother,说明路由监控系统在接口上默认配置了priority为0,因此路由监控系统不会成为DR或BDR;通过在R2路由监控系统的链路上抓包,路由
12、监控设备在网络控制层面仅发送hello包维持邻居关系,不发送任何与update信息相关的LSA;R1路由器上show ip ospf database,不会看到路由监控设备的任何信息,说明路由监控设备数据层面不参与路由转发,不会对现网造成任何影响;,系统稳定性测试:,1.2 主要研究内容,1.2 主要研究内容,路由监控系统的实现(网络路由的端到端呈现),如图所示的四条路由的ECMP,1.2 主要研究内容,路由监控系统的实现(IGP运行日报),1.2 主要研究内容,路由监控系统的实现(BGP运行日报),1.2 主要研究内容,路由监控系统的实现(现网路由事件监控),1.2 主要研究内容,路由监控系
13、统的实现(BGP路由基于AS拓扑的呈现),问题一:数据业务中心将area0区进行不恰当配置,将area0“拉长”,如图中红色圈中部分所示,网络调整后的正确拓扑如下,1.2 主要研究内容,现网路由故障分析(1),现网已完成整改!,1.2 主要研究内容,现网路由故障分析(2),路由事件高发时间段,路由事件涉及的路由器,该路由器详细事件分析,定位震荡的子网,结论,221.179.139.0、27这个子网在8月2日、7日和8号等多日发生过多次up/down,每次都是drop之后便马上add,间隔为毫秒级,而drop的原因均是Premature(提前老化),且均是Area External路由(重发布进
14、来的路由),1.2 主要研究内容,现网路由故障分析(3),该路由1天发生2次flapping,设备状态为up,8月22号10:30:55秒,218.205.202.228/30开始不稳定,持续17分钟,在10:47:58秒处于稳定状态。,1.3 目标完成情况总结,1)解决了4项公司在生产运营中存在的关键问题答复:(1)IP网络维护中,一般由于路由器BUG导致的故障无法定位,比如部分路由器端口显示正常状态,但设备已不进行数据转发,通过路由监测系统可以迅速定位路由器是否正常发送hello报文,是否与其邻居建立了正常的邻居关系,从而方便定位故障设备及端口;(2)实现了网络规划与网络实际运行情况的可视
15、化验证,之前无法进行验证,某些链路链接和metric设置与实际规划不同,路由监控系统上线后,可方便地给予验证;(3)实现了IP网络规划的能力,可通过将现网的配置冻结,模拟加载路由器、配置路由协议并发布相关网段,验证网络割接后的效果,实现了IP网络规划的能力,给网络割接等运维工作带来极大便利;2)研究和提出了1项关键技术点的决策建议。答复:提出了1点关键技术点和决策建议,在进行IP网络流量监测方法研究上,提出基于FLOW、路由数据和用户IP地址关联的方法,实现指定用户所有路由及其相应流量信息的呈现,实现IP网络的精细化管理。同时,将IP网络与承载IP网络的光网络实现拓扑统一呈现,便利实现网络故障
16、的排查;3)挖掘了国内专利申请xx项,其中,专利族xx个(含专利xx项),实现应用的专利xx件(注:从以下4条线索分别统计专利应用情况,企标、国际标准、专利池、成果推广),专利风险评估报告xx份。答复:无;4)输出企业标准xx个,国际标准文稿xx篇。答复:无;5)完成新技术试验1项答复:完成一项新技术试验:路由监测系统试验。输出新技术试验报告一份。实现了CMNET网络路由的监测、分析和诊断,实现了全网IGP和BGP路由的告警和报表功能,模拟了网络故障和变化造成的影响;同时发现了北京移动CMENT城域网上一系列的问题并进行了整改,包括设备问题导致的路由震荡,网络metric设置不合理导致的大量非
17、对称路由等等;6)初步估计对企业绩效的贡献情况为(开放式回答)。答复:提高IP网络运维效率,平均每年节约3个维护人员,能够节省30万每年的人力成本;,22,谢谢大家!,MajpjMVcyzj21HLfrvy96dv02lPPfYgxUS7IYmZkyEmZ0kGeYZS3bpLCkYH1lt4EK7CxmUX3ijoYSOer7ZuaVWYgz4EpZrUirVpMzzvNtf1XZw5oswSXOtFaejnOcmfE1lZgnN1RSXg8wLCG8CVQ3XPJMvodPFWcpiYJgZazNSEPNIaklYSu7qSd1UpaxmZDlpN9zW7kljfsLCLi26Yv109f
18、fbnDH8LbUN1G6ACURQ39eG12KHL9tXsZ1jzgoCK8g1kuNOh5eFvcmVT5ZYVQt9zk3rp3qLnf02FovEXxVRxjCcFRNppiJljNiOuk6fONnyX7fyGg7sXZ49BmCN5oy9VesHpKzdjTKwjrkCEQCFDehVmGax3lrOEbw63VscA3YSijtUKoCyiLzAlVRp7l4QgPNHxvJFFDyjUVN3oHlMah0XBd4uTbkfPIhHtw0evPmYOrdhEDoPwvYhzlGplU1AU9mpyiCXH8gpPCBRYjq77VcnbXumNE1yGfyTsbSj89J63k
19、RTKDkKUg3mdS5sJ4X5cQ8dK7oW9IkScssECQdz2O9UTlpRjAFPChjhLdzopQzwxQf8ozdzOhogwAooXpUF83BX4C3jRgjDJiiXEUDMaNz4vQ4n164vspddHvOIVuBBdMA4xp1YhiHk0vOJ8TL1BxogzVlMpmod6ianYGmksQq6NWCEd56hZF4wfaNyZcrGfNxnPiG6ZAxSkfmhJAKtNmCqbRmppeXp8inz4eq3HkWCMSORyMMX522xpHG6basNr6KQfbZsFbHjzyNlJrruLolKFcC84dqfijBO5Dy2NaBcNEBPgQrT12PgpcKx2or2YChN5DPjs80zzdtdAdTKuW4uVv9bbZu3K2SZ2aEhTlIC1UqrIWibkzwHh6p8gLv26zr01mJybfOzFc4T7kQH1IpPwOzMDnAKPLsLrznXGjFNIA9bSWWms6ibKZwQIKrMzalwbFrQJvOP1rPH8rx2KkyYqrtQk5VRwM1HSX,
链接地址:https://www.31ppt.com/p-2204138.html