OptiXOSN产品维护和故障处理专题中级.ppt
OptiX OSN 产品维护和故障处理专题(中级),前 言,本课程通过介绍一些故障定位的方法帮助故障维护人员分析定位故障。通过一些典型的故障来阐述常用故障定位方法的应用。,学习指南,本课程内容由浅到深,分初级、中级两部分,本胶片为中级部分。学习本课程之前,建议先学习SDH原理、NGSDH产品概述、OSN9500产品概述等课程;第三章为故障定位基本思路和方法,也是本次课程重点掌握的内容,从第四章到第十五章是通过一些典型案例来阐述第三章所介绍方法的应用。,参考资料,SDH 原理OptiX OSN 设备手册OptiX OSN 维护手册 故障处理分册OptiX OSN 技术手册-组网与应用分册OptiX OSN 维护手册告警及性能事件分册,目 标,学习完此课程,您将:理解故障处理前的准备措施掌握故障处理基本思路和方法掌握故障紧急恢复方法理解故障处理案例分析,第1章 故障处理前的准备第2章 故障处理基本思路和方法第3章 故障处理案例分析,内容介绍,故障定位前的准备,掌握专业技能熟练掌握SDH原理知识对SDH系统告警信号流及告警产生机理有深入了解熟练掌握常见告警信号的处理熟练掌握OSN设备和网管的基本操作熟悉常用仪表的基本操作,故障定位前的准备,熟悉网络组网信息网络拓扑业务配置设备运行状态工程文档做好故障现场数据的采集与保存告警与性能事件网元及单板配置数据网管操作日志,第1章 故障处理前的准备第2章 故障处理基本思路和方法第3章 故障处理案例分析,内容介绍,内容介绍,故障处理基本思路和方法故障定位的基本原则和分析方法告警、性能分析法环回法替换法配置数据分析法更改配置法仪表测试法经验法,故障定位基本原则,故障定位的关键是什么?,将故障准确定位到单站单板,故障定位基本原则,先定位外部,后定位传输 先定位单站,后定位单板先高速部分,后低速部分 先分析高级别告警,后分析低级别告警,故障分析方法,环回法,替换法,配置数据分析法,更改数据配置法,告警、性能分析法,仪表测试法,经验处理法,故障分析方法,故障定位的常用方法和一般步骤,可简单地总结为:一分析二环回三替换对于较复杂的故障,除之上三种方法外,还可综合使用配置数据分析、更改配置、仪表测试、经验处理等方法进行故障定位和处理。,内容介绍,故障处理基本思路和方法故障定位的基本原则和分析方法告警、性能分析法环回法替换法配置数据分析法更改配置法仪表测试法经验法,故障处理方法(告警、性能分析法),通过设备告警指示灯获取告警信息,一、通过机柜顶部的告警指示灯查看告警二、通过单板告警指示灯查看告警,设备指示灯仅反映设备当前的运行状态,对于设备曾经出过故障,无法表示设备指示灯状态只能反映设备告警级别,而不能准确告知具体告警,缺点,适用于设备维护人员配合处理故障时使用,故障处理方法(告警、性能分析法),通过网管获取告警和性能信息,适用于网管维护人员处理故障使用,全面性,不仅仅是一个站、一块板的故障信息,而且是全网设备的故障信息,详实性,能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值,告警、性能分析法,应用举例,分析:因网元B的西向有R_LOS,从而网元A相应光路有MS_RDI、HP_RDI,B、C的东向均有HP_RDI,是AU-AIS所回告的信息;因网元D有AU_AIS,TU_AIS,并且TU_AIS业务是与网元A业务,从而网元A相应通道有LP_RDI;网元B的R_LOS告警会导致AU-AIS,TU_AIS;结论:所有告警均由网元B的R_LOS引起,说明A到B传输方向光路故障。,A,B,D,R_LOS,MS_RDIHP_RDILP_RDI,AU_AIS TU_AIS,w,e,C,w,e,AU_AIS,HP_RDI,HP_RDI,内容介绍,故障处理基本思路和方法故障定位的基本原则和分析方法告警、性能分析法环回法替换法配置数据分析法更改配置法仪表测试法经验法,故障处理方法(环回法),线路,线路,内环回,外环回,SDH网元设备,支路,支路,软件环回/硬件环回 内环回/外环回 线路环回/支路环回 光口环回/通道环回,线路环回可能导致其他在用业务中断,故障处理方法(环回法),4.初步定位单板问题,“环回法”的步骤:,1.环回业务通道采样,2.画业务路径图,3.逐段环回,定位故障站点,故障处理方法(环回法),一、环回业务通道采样:,1、从多个有故障的站点中选择一个站点;2、从所选择站点的多个故障业务通道中选择其中的一个业务通道。由于自环第一个VC4通道,可能会影响ECC通信,因此尽量不要选择第一个VC4通道内的业务。,应用举例,故障处理方法(环回法),画出所采样业务一个方向的路径图。在路径图中表示出:该业务的源和宿,该业务所经过的站点,该业务所占用的VC4通道和时隙。,二、画业务路径图:,例如:,故障处理方法(环回法),依据中断业务的路径图,在3号站第1块支路板的第1个2M通道外接一个2M误码仪,监测业务好坏。,三、逐段环回,定位故障站点,四、根据环回现象初步定位故障单板,故障处理方法(环回法),OSN产品不同线路板对环回的支持情况汇总,内容介绍,故障处理基本思路和方法故障定位的基本原则和分析方法告警、性能分析法环回法替换法配置数据分析法更改配置法仪表测试法经验法,故障处理方法(替换法),适用场合,排除传输外部设备的问题 故障定位到单站后,排除单站内单板的问题,替换法就是使用一个工作正常的物件去替换一个被怀疑工作不正常的物件,可替换物件包括线缆、光纤、法兰盘、电源、单板、设备等。,故障处理方法(替换法),应用举例,业务配置:2-PQ1板63个2M配置双向业务到7-SL16A做单站调试,使用设备为OSN3500。故障描述:2-PQ1板第40个2M上报T_ALOS告警,其他2M通道正常。通过网管对第40个2M做环回,T_ALOS消失。DDF架 环回故障依然存在。,内容介绍,故障处理基本思路和方法故障定位的基本原则和分析方法告警、性能分析法环回法替换法配置数据分析法更改配置法仪表测试法经验法,故障处理方法(配置数据分析法),适用场合,故障定位到单站后,用以进一步定位故障 特定告警,如:HP_TIM、HP_SLM等,HP_TIM:J1字节设置 HP_SLM:C2字节设置 TU_AIS/AU_AIS:SDH业务配置 TPS倒换下业务中断:检查TPS保护设置 MSP环倒换下业务中断:MSP节点参数设置 SNCP环倒换下业务中断:通道保护属性设置,故障处理方法(配置数据分析法),A,B,C,应用举例,VC4,(开销穿通),(开销终结),(开销终结),HP_SLM,分析:1、HP_SLM告警与C2字节相关,为实收C2与应收C2不匹配;2、网元B开销穿通,对C2字节做穿通处理;处理步骤:1、检查网元C接受方向的应收/实收C2字节;2、检查网元A发送方向的应发C2字节;,内容介绍,故障处理基本思路和方法故障定位的基本原则和分析方法告警、性能分析法环回法替换法配置数据分析法更改配置法仪表测试法经验法,故障处理方法(更改配置法),适用场合,有空余时隙、通道或槽位 一个VC4中部分时隙业务中断情况,更改时钟配置:时钟告警、指针调整更改板位配置:怀疑单板或是母板槽位故障更改时隙配置:将故障定位到单站 判定线路或支路故障更改单板参数配置:以太网故障、对接故障,故障处理方法(更改配置法),故障描述:1、网元C收网元A方向所有2M业务中断;2、其他网元业务正常;可能原因:A:3-PQ1C:PQ1,应用举例,A,B,C,D,2-PQ1:30E13-PQ1:40E13-PQ1:20E1,30E1,1VC4:130,40E1,2VC4:140,20E1,2VC4:4160,TU_AIS,LP_RDI,w,w,w,w,e,e,如何将故障 定位到单站?,故障处理方法(更改配置法),配置一条从网元A到网元B的E1业务,使用第二个VC4,应用举例,A,B,C,D,2-PQ1:30E13-PQ1:40E13-PQ1:20E1,30E1,1:VC4,40E1,2:VC4,20E1,2:VC4,TU_AIS,LP_RDI,w,w,w,w,e,e,网元B有TU_AIS,无任何告警,网元APQ1板故障,网元CPQ1板故障,内容介绍,故障处理基本思路和方法故障定位的基本原则和分析方法告警、性能分析法环回法替换法配置数据分析法更改配置法仪表测试法经验法,故障处理方法(仪表测试法),适用场合,排除传输设备外部问题 设备对接问题 设备性能指标问题,光功率计:R_LOS、R_LOF万用表:接地或是电压问题SDH分析仪:设备对接,故障处理方法(仪表测试法),故障描述:B站收R_LOS可能原因:A到B方向光纤故障A站光板发送故障B站光板接收故障,应用举例,A,B,R_LOS,w,w,测试A发送光功率,异常,A站光板发送故障,测试B接收光功率,正常,正常,异常,B站光板接收故障,A发B光纤故障,内容介绍,故障处理基本思路和方法故障定位的基本原则和分析方法告警、性能分析法环回法替换法配置数据分析法更改配置法仪表测试法经验法,故障处理方法(经验法),适用对象,做为紧急恢复业务时使用,复位单板单站重启网管重新下发配置重配业务将业务倒到备用通道、备用单板交叉/主控板主备倒换,这些方法操作简单,可做为紧急恢复业务时使用,不能彻底查清故障原因。,故障处理方法,故障处理思路,1.排除传输外部设备故障 分离传输问题还是其他设备问题 光纤故障的排除 中继线缆故障的排除 供电电源故障的排除 接地问题的排除,2.故障定位到单站 将故障定位到单站,可以使用“环 回法”和“更改配置法”。告警性能分析法,也是将故障定位到站点比较常用的方法。,3.故障定位到单板并最终排除 故障定位到单站后,进一步定位故障位置最常用的方法就是替换法。,问题,故障处理的基本原则是什么?故障定位的分析方法有哪些,都适用于什么情况?以R_LOS告警为例简述一下故障处理思路?,第1章 故障处理前的准备第2章 故障处理基本思路和方法第3章 故障处理案例分析,内容介绍,内容介绍,故障处理案例分析业务中断类故障误码类故障通信类故障对接类故障,业务中断类故障,可能原因,外部原因供电电源故障接地故障环境异常光纤、电缆故障人为原因误操作设置了光路或支路通道的环回误操作更改、删除配置数据,设置业务未装载设备本身故障单板失效或性能不好,业务中断类故障,定位步骤,确定业务中断范围、中断数量 检查各站登录是否正常 检查有无设备告警,如BD_STATUS、NO_BD_SOFT等 检查保护倒换是否正常 分析故障,通过环回或是更改配置定位到单站 将故障进一步定位并解决,业务中断类故障,TU_AIS,LP_RDI,网络配置网元1为中心节点,为网关网元其他各点之间没有业务,故障描述 网元1和网元4 E1业务中断 节点 4:TU_AIS 节点 1:LP_RDI 其他各站业务正常,无其他告警,t2:1,t2:1,2:1,2:1,2:1,案例1:无保护链,业务中断类故障,1,2,3,4,w,w,w,w,E,E,TU_AIS,LP_RDI,t2:1,t2:1,2:1,2:1,2:1,告警查询,网元4有TU_AIS,网元4不能收网元1业务,网元1、2、3间业务正常,检查1到4的业务配置,告警分析步骤,可否做环回操作?,正确,业务中断类故障,1,2,3,4,w,w,w,w,E,E,误码仪,t2:1,t2:1,2:1,2:1,2:1,对网元2东向2VC4做内环回,正常,故障点在网元1、2,故障点在网元3、4,在网元3东向对2VC4做内环回,正常,故障点在网元3,故障点在网元3或网元4,尾纤在网元3东向做内环回,正常,故障在网元3东向光板,故障在网元4,业务中断类故障,1,2,3,4,w,w,w,w,E,E,TU_AIS,LP_RDI,t2:1,t2:1,2:1,2:1,2:1,故障定位到单站,可能LU/TU/XC 故障,业务正常,TU故障,更换TU,XCS主备倒换,TPS 倒换,业务正常,XCS故障,更换XCS,LU故障,更换LU,若无TPS或XCS主备怎么办?,业务中断类故障,w,SNCP Ring,e,e,e,e,w,w,w,3,2,4,1,案例2:SNCP 环,网络配置网元1为中心节点,各点有和网元1的业务 其他各点间无业务,故障描述 网元1和网元4间2M业务中断 网元 1,4:TU_AIS 其他各站业务正常,TU_AIS,TU_AIS,业务中断类故障,告警/性能分析,断开网元1和4光纤,转化为链处理,w,SNCP Ring,e,e,e,e,w,w,w,3,2,4,1,同上一案例,处理方法,检查配置数据是否正确,TU_AIS,TU_AIS,业务中断类故障,w,MSP RingSTM-4,e,e,e,e,e,w,w,w,w,3,2,4,5,1,案例3:MSP 环,网络配置网元1为中心节点,各站均有到网元1的业务其他各站之间没有业务业务均按最短路径配置,故障描述 网元2与网元3之间光纤断 R_LOS 网元1与网元3之间E1业务中断 网元1,3:TU_AIS 其他业务正常,TU_AIS,TU_AIS,R_LOS,R_LOS,业务中断类故障,w,MSP RingSTM-4,e,e,e,e,e,w,w,w,w,3,2,4,5,1,R_LOS,R_LOS,APS_INDI TU_AIS,APS_INDI,S,S,P,P,P,查询告警,检查倒换状态,正常,APS协议是否启动?,是,否,画倒换后的信号流,更换故障单板,重新下发配置,倒换状态正常?,否,是,重启APS协议,倒换状态正常,否,是,逐段环回定位故障到XCS/LU,是,否,启动协议,TU_AIS,业务中断类故障,w,MSP RingSTM-4,e,e,e,e,e,w,w,w,w,3,2,4,5,1,R_LOS,R_LOS,APS_INDI TU_AIS,TU_AIS,APS_INDI,S,S,P,P,P,倒换前路由,倒换后路由,对于比较长的链,建议采用二分法进行环回,业务中断类故障,w,MSP Ring,e,e,e,e,w,w,w,3,2,4,1,GXCS:BUS_ERRPD1:LP_SIZE_ERR,网络配置各点均和网元1有业务 其它各点间无业务,故障描述 网元4支路业务中断 GXCS:BUS_ERR PD1:LP_SIZE_ERR 其它各站业务正常,无告警,业务中断类故障,故障分析:BUS_ERR:交叉芯片损坏,线路板故障、线路到交叉的总线故障;LP_SIZE_ERR:TU规格错误,可能为支路或是交叉故障;处理过程:,做交叉板主备倒换,告警全消失,XCS故障,更换相应的线路板,不消失,不消失,BUS_ERR消失,更换子架,线路故障,更换支路板,BUS_ERR消失,XCS故障,支路故障不消失,内容介绍,故障处理案例分析业务中断类故障误码类故障通信类故障对接类故障,误码类故障,可能原因,外部原因光功率问题接地故障环境温度电缆故障设备外部干扰(瞬时大误码)人为原因时钟配置错误设备本身故障单板失效或性能不好(交叉、时钟、线路、支路),告警分析法、更改配置法、逐段环回法、替换法,误码类故障,是否所有站都有B1、B2误码,检查环境温度,是,否,时钟/交叉问题,是否仅本站有B1、B2误码,是,光功率问题,检查本站或上游站光纤、光板,否,是否有高阶、B3误码,是,本站或上游站线路/交叉/时钟故障,否,是否有V5误码,是,本站或上游站支路/交叉/时钟故障,否,仪表测试有误码、性能上报无误码,是,DDF/电缆接地问题,定位步骤,误码类故障,网络配置网元1为中心节点,其他点均与网元1有业务 其它各点之间没有业务,故障描述 网元3东向有大量RSBBE、MSBBE、HPBBE 网元4西向有MSFEBBE、HPFEBBE、LPFEBBE 网元1有LPBBE,1,2,3,4,w,w,w,w,E,E,LPBBE,LPFEBBE,RSBBEMSBBEHPBBE,MSFEBBEHPFEBBE,排除外部故障(电磁干扰、温度),性能事件分析,LPBBE 为1收4误码,RSBBE/MSBBE/HPBBE 为从4到3光路误码,高阶误码导致低阶误码,继续,故障在3与4之间,误码类故障,告警性能分析,1,2,3,4,w,w,w,w,E,E,LPBBE,LPFEBBE,RSBBEMSBBEHPBBE,MSFEBBEHPFEBBE,解决问题,继续,检查风扇和温度,正常l,是,否,正常,是,否,替换光纤、接头、法兰盘、单板,用仪表测试光功率(通过性能查询),误码类故障,告警性能分析,替换法,1,2,3,4,w,w,w,w,E,E,LPBBE,LPFEBBE,RSBBEMSBBEHPBBE,MSFEBBEHPFEBBE,在网元1接误码仪,在网元3东向做光/电口内环回,环回、替换法,正常,网元4西向光板/XCS,不正常,网元3东向光板/XCS,误码类故障,网元4交叉主备倒换,网元3交叉主备倒换,正常,不正常,XCS故障,光板故障,正常,不正常,XCS故障,光板故障,误码类故障,网络配置网元1为中心节点,其他点均与网元1有业务,业务走短径 其他各点之间没有业务 故障现象 见图,LPBBELPFEBBE,LPBBELPFEBBE,LPBBELPFEBBE,RSBBEMSBBEHPBBEMSFEBBEHPFEBBE,同网元3 W向,同网元3 W向,同网元3 W向,误码类故障,故障分析 网元3时钟单元故障故障处理 做交叉主备倒换或是更换交叉板结论 当全网大部分网元线路上出现误码,此时可能原因为时钟故障;所有光方向都产生线路误码的站点为故障点,内容介绍,故障处理案例分析业务中断类故障误码类故障通信类故障对接类故障,外部原因网线、网卡、网管计算机、HUB、路由器等外部设备故障 光缆性能劣化人为原因 ECC路由规划不合理 IP地址设置不对网元ID重复 网元未加入到系统管理域中光纤错连 设备本身故障主控板故障 光接口板故障,通信类故障,可能原因,通信类故障,定位步骤,排除外部因素,如网线、网卡、网管计算机、HUB、路由器等外部设备故障 排除人为因素,检查ECC路由规划是否合理;网管计算机和网关网元的IP地址是否正确;网元ID是否重复;是否存在未将网元加入到系统管理域;是否设置人工路由 检查主控板。如果存在主控板故障,则替换主控板 检查光接口板。如果存在光接口板故障,则替换光接口板,通信类故障,w,MSP RingSTM-64,e,e,e,e,e,w,w,w,w,3,2,4,5,1,R_LOS,R_LOS,故障描述某日,网元2,3之间发生断纤,发现网元3在网管上脱管,无法再次登录,经测试业务可正常倒换。,网络配置网元1为网关网元,网管中各个网元均可正常登录全网已正常运行,应用举例,通信类故障,分析过程 正常情况下,网元3的ECC通道为12 3,当2,3之间发生断纤时,网元3的ECC通道为1 5 4 3 根据现象分析,网元3无法登陆,是由于1 5 4 3这条ECC通道出现问题,大致可以判断出可能是网元3的主控,东向光板,或网元4的西向光板,主控出现问题。,通信类故障,处理过程首先使用命令行cm-get-eccroute查询网元4的ECC路由表,正常,可以找到网元的信息。再使用cm-get-bdinfo和cm-get-chanerror查询网元4的DCC通讯状态,发现无误码,从查询的结果来看收发均无问题。在网管上软复位网元4的西向光板和主控板,问题没有解决。在站点4的维护人员将该网元4的主控拔出(若网元为双主控配置,则首先做主控板主备倒换),发现网元3可正常登录。恢复断纤出后,携带备板到网元处,更换主控板。再次测试ECC通道,问题解决,通信类故障,现象描述:将原有2500+设备上的3条155M链割接到一个OSN3500设备的4板位SLQ1上,割接后3条链上的业务正常。OSN3500为网关网元,但是155/622H无法用网管监控。处理过程:检查155/622H所属网关网元,正确。查询ECC端口分配情况,SLQ1单板没有分配到ECC路由。,OSN3500(GSCC),155/622H,155/622H,155/622H,SLQ1-1,SLQ1-2,SLQ1-3,案例二,通信类故障,原因:SSN1GSCC默认只支持10路D1D3字节解决方法:可以通过网管或使用命令把没有使用ECC的单板端口关闭。把ECC模式改为第二种(40,0,0),但是此种方法可能会影响到以后智能业务的开通。,OSN3500(GSCC),155/622H,155/622H,155/622H,SLQ1-1,SLQ1-2,SLQ1-3,案例二,内容介绍,故障处理案例分析业务中断类故障误码类故障通信类故障对接类故障,对接类故障,现象描述:将原来的两套OSN3500组成的无保护链上增加两台2500设备,OSN3500和2500设备对接的光板上报J0_MM/TIM/SLM告警,业务可以正常开通,无影响。处理过程:检查上报告警的光板实收和应收J0/J1/C2字节是否一致 检查结果发现,实收和应收不一致。,OSN3500,2500,2500,SL16,SL16,SL64,案例一,OSN3500,对接类故障,原因:NGSDH产品应收/应发的J0/J1/C2字节默认值为单子节模式“0”,而包括2500在内的老产品默认值为16字节模式的“HuaWei SBS”解决方法:可以通过网管或使用命令把OSN3500相应光板的应发/应收J0/J1/C2 字节改为和对端2500一致的16字节模式的“HuaWei SBS”。因为对于我们自己设备来说J0_MM/TIM/SLM字节适配告警不会影响业务,可以将这些告警屏蔽。,OSN3500,2500,2500,SL16,SL16,SL64,案例一,OSN3500,问题,简述MSP倒换导致业务中断的故障处理步骤?简述误码问题的故障处理步骤?简述出现故障后的一个基本处理思路?,了解故障处理的基本原则掌握故障处理的常用方法了解各类分类故障的处理思路和处理步骤,小结,