PON网络告警压缩.doc
《PON网络告警压缩.doc》由会员分享,可在线阅读,更多相关《PON网络告警压缩.doc(8页珍藏版)》请在三一办公上搜索。
1、成果上报申请书成果名称PON网络告警压缩关键词索引(35个)PON 告警压缩对企业现有标准规范的符合度:符合PON技术规范的业务配置标准成果来源:省公司自立项目(2012年上报集团的网络最佳实践项目和省内网络研究课题IP化传输网络感知提升研究项目)专利情况:无成果简介:随着全业务的不断发展,PON网络告警数量激增,使得网管运行速度慢,同时海量告警导致无法及时发现和处理重要站点告警;此外海量告警也造成网管服务器内存耗尽、CPU过忙、数据库异常等情况,致使网管系统不能正常、稳定的运行。本课题梳理PON网络告警原因,制定告警抑制策略,同时配合网管告警相关功能,实现告警数量的压缩。这些方案都是在江苏现
2、网实施,告警压缩率达89%。实施了告警缩减方案工作后,事件和通知的数量降低到缩减工作前的11%左右,同时服务器CPU和内存占用率也都降低明显,使不会由于告警量的异常情况导致内存消耗完而导致网管宕机重启,保证了网管服务器的长期稳定运行。省内试运行效果:已经在苏州分公司和镇江分公司试点应用,并推广至全省。实施了告警缩减方案工作后,事件和通知的数量降低到缩减工作前的11%左右,同时服务器CPU和内存占用率也都降低明显,保证了网管服务器的长期稳定运行。同时PON网络告警处理人员数量也下降至60%。文章主体(3000字以上,可附在表格后):一、概况随着全业务的不断发展,PON网络告警数量激增,使得网管运
3、行速度慢,同时海量告警导致无法及时发现和处理重要站点告警;此外海量告警也造成网管服务器内存耗尽、CPU过忙、数据库异常等情况,致使网管系统不能正常、稳定的运行。本课题梳理PON网络告警原因,制定告警抑制策略,同时配合网管告警相关功能,实现告警数量的压缩。这些方案都是在江苏现网实施,告警压缩率达89%。二、成果背景从现网上报的告警信息来分析可以发现,告警主要由告警、TRAP两方面产生,要压缩告警就需要从这两方面着手解决。告警方面,主要采用过滤次要告警,抑制频发告警,屏蔽误报告警等手段进行压缩。根据故障影响严重程度、故障影响范围大小、故障发生可预见性等信息对告警进行区分,过滤其中次要告警,判断次要
4、告警原则如下:1、故障点所处网络位置较低的告警2、故障点因传送质量不良对业务受损较小的告警3、故障点是最终用户正常行为导致的业务中断的告警4、故障点没有业务应用的告警5、故障处于临界范围而频繁上报的告警6、主要故障伴随、扩散产生的告警7、故障对象海量同时短时间内同时故障的告警8、故障点处于主动升级、工程施工、故障保修等维护活动的告警9、因扩容、搬迁等数据变更导致的告警,如删除、更换单板。现网PON设备派单告警列表:频发告警方面:1、对单板频繁复位导致告警频发的情况,要求厂家对设备进行优化,优化单板复位和告警报送原则。2、对于频发告警,要求厂家进行告警抑制,目前是利用网管的雪崩告警功能进行抑制。
5、3、对于重发告警,要求厂家有机制保证不会有故障重复上报。4、对于振荡告警,要求厂家建立双门限、恢复告警延迟发送等多种机制进行抑制。三、处理思路和现场策略对于PON告警压缩的思路如下:1、实施对不关注告警在设备上过滤的方案,在设备上直接抑制不在用的告警的产生。2、对关注的告警中出现数量多的情况,现网排查原因后在网管上通过雪崩告警进行抑制。3、对于可能导致告警频发、重发的故障原因,现网查明原因后尽快处理。现场处理采取的策略1)二八原则分析,TOP n方法锁定解决方向对于告警数量庞大的情况,采用二八原则,关注数量最多的TOP n告警,研究解决方法,并根据情况采取处理措施,比如,工程上消除告警产生根源
6、;若是设备缺陷或故障,则进行改进、解决;无关紧要告警进行网管屏蔽或网元屏蔽等。该策略通常是处理大量告警的首选,可以有效的降低告警总量。2)对告警是否可屏蔽的界定原则进行统一根据以往大量的工程经验,对于不产生用户明显可感知的服务质量问题的告警,用户是不敏感的。这种告警通常是应当屏蔽的。对于用户明确要求或对运维有重要影响的告警,不能屏蔽。3)以用户为中心的屏蔽可以采用试错法处理,即先尽可能地把我们认为不必要的告警屏蔽掉,然后通过用户在实际运维中的反应,逐个放开确实需要的告警。四、实际应用情况(以镇江市的现网应用为例)1、从现场获取告警数据根据进行“重点、典型局点分析”的思路,我们采集了某地市移动的
7、PON网管告警数据库,依据这些来自现场的数据进行分析。2、分析确定需要屏蔽的告警下面是该移动(4月17日-4月19日)网管告警数据统计的情况:4月17告警总数4月17掉线掉电告警总数4月17PON信号丢失告警总数4月17其他告警总数及其他主要告警26129258642623(OLT设备通信链路中断)4月18告警总数4月18掉线掉电告警总数4月18PON信号丢失告警总数4月18其他告警总数及其他主要告警23619234092091(OLT设备通信链路中断)4月19告警总数4月19掉线掉电告警总数4月19PON信号丢失告警总数4月19其他告警总数及其他主要告警24402241712301(上联口链
8、路中断)24402241712301(上联口链路中断)分析了这三天的告警情况:TOP3的告警为ONU掉电、掉线告警、PON口信号丢失告警,以上3类告警占用告警问题的98%,基本没有垃圾告警,可见镇江移动的中兴PON网管告警种类正常。 另在梳理统计中发现,PON网管中存在较多3分钟之内即恢复的告警约占50%.这部分告警可采用“告警延迟规则”进行压缩(即3分钟之内自动恢复的告警不上报网管)。4月24日在网管中添加针对OLT增加告警延时规则:43016,43265,43015 (ONU掉线、ONU掉电、PON信号丢失告警),延迟时间为90秒。下面是(4月29日-5月2日)网管告警数据统计的情况:4月
9、17告警总数4月17掉线掉电告警总数4月17PON信号丢失告警总数4月17其他告警总数及其他主要告警26129258642623(OLT设备通信链路中断)4月18告警总数4月18掉线掉电告警总数4月18PON信号丢失告警总数4月18其他告警总数及其他主要告警23619234092091(OLT设备通信链路中断)4月19告警总数4月19掉线掉电告警总数4月19PON信号丢失告警总数4月19其他告警总数及其他主要告警24402241712301(上联口链路中断)24402241712301(上联口链路中断)分析了这三天的告警情况:TOP3的告警为ONU掉电、掉线告警、PON口信号丢失告警,以上3类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- PON 网络 告警 压缩

链接地址:https://www.31ppt.com/p-4138061.html