华为ETH专线类问题定位指导.ppt

上传人：小飞机

文档编号：6103236

上传时间：2023-09-24

格式：PPT

页数：33

大小：4.48MB

《华为ETH专线类问题定位指导.ppt》由会员分享，可在线阅读，更多相关《华为ETH专线类问题定位指导.ppt（33页珍藏版）》请在三一办公上搜索。

1、2023/9/24,ETH专线类问题定位指导,目录,以太专线配置不通类问题定位指导影响业务的配置参数ETH专线丢包异常类问题定位指导ETH专线业务异常中断类问题定位指导,以太专线配置不通类问题定位指导,基本业务模型影响业务的配置参数配置不通定位手段典型案例,Page 4,基本业务模型,E-Line业务包含业务接入点V-UNI和业务承载点V-NNI业务接入点V-UNI将用户业务接入L2VPN，每个业务可以包含1到2个V-UNI，每个V-UNI可以采用多种接入方式（Phy、P+C、P+S），可以实现接入侧端口带宽共享业务承载点V-NNI通过关联隧道实现用户业务报文的跨运营商网络传输，每个业务可能包

2、含0或1个V-NNI，支持多种传送技术（MPLS、QinQ、Phy），支持网络侧端口带宽共享，通过动态信令或静态配置建立与对端NNI的连接，通过OAM机制维护NNI侧连接。,影响业务的配置参数(一)端口属性,Page 5,影响业务的配置参数(二)业务分界标签与PW属性,Page 6,影响业务的配置参数(三)业务配置限制和注意事项,Page 7,专线业务只有上PW的业务支持Service分界标签，且配置Service分界标签后，Uni端口只支持1个Vlan；Uni-Uni等其他类型业务配置分界标签无意义；业务支持MTU配置，根据报文的最大长度配置合适的MTU;配置本地专线业务的一个uni端口封装

3、类型为null时，必须保证另一个uni也为null，且vlanlist为0(dcn去使能)；配置P+V+Pri专线业务时，只支持上PW的远端专线业务；在Access端口作为专线UNI端口时，该端口的默认vlan与业务vlan必须相同；,Page 8,常见配置错误,(1)两端端口的工作模式配置不一致，例如：一端配置为自协商，另一端配置为全双工；(2)两端端口Tag属性配置不一致，或者端口属性与业务报文特征不一致，例如：用户报文携带VLAN，但端口属性配置为access；(3)网络侧Tunnel/PW参数配置不一致，例如：Tunnel/PW的Label是否一致，两端PW控制字设置是否一致；(4)网

4、络侧两端端口IP不在同一网段；,Page 9,配置不通定位手段,以下故障场景优先排查配置错误：(1)创建后业务不通；(2)修改配置后业务中断；(3)新增业务后其他业务受到影响。,Page 10,典型案例（一）,【问题现象】新创建的ETH专线业务不通。【定位过程】1、使用性能统计，检查网元各个业务端口的收发包统计，发现报文从uni端口进入后，nni侧能够正常发送报文，说明报文在入隧道这边没有问题；2、检查对端nni侧端口的性能统计，发现nni侧没有收到从对端发过来的报文；3、在本端对nni侧报文进行抓包分析，发现nni侧报文带有控制字，检查本端pw控制字设置，发现pw属性设置控制字为：fst-u

5、se;4、检查对端nni对应的pw控制字设置，发现对端nni对应的pw的控制字设置为：not-use，确认为nni对应的pw配置错误；5、将本端nni对应的pw控制字属性设为：not-use，再检查业务，发现专线业务恢复。,典型案例（一）,【问题结论】在专线业务中，要保证两端nni对应的pw控制字属性设置一致，要么都启用控制字，要么都不启用控制字。如果一端不支持控制字，则需要将对端nni对应的pw的控制字属性设置为：not-use。【处理意见】检查两端nni侧对应的pw控制字设置是否一致，如果不一致，将两端端口的控制字设置为一致。,Page 11,Page 12,典型案例（二）,【问题现象】X

6、X移动，PTN3900与PTN950对接，创建静态TUNNEL不通。【定位过程】1、一线确认两个站点之间只有一条链路；2、知会一线分别在两个网元上PING对端端口，发现PING不通，怀疑是光纤连接不正确；3、通过查询核心路由发现，下游PTN950没有直接连接到PTN3900而是连接到其它网元上，从而确认两站之间没有链路。是一线光缆连接不对造成的问题。【问题结论】网管上配置的光缆信息与实际的链路配置不符，导致配置错误导致。【处理意见】检查光缆信息与实际链路配置是否设置正确。,Page 13,典型案例（三）,【问题现象】移动，PTN 950网元的Tunnel大量上报MPLS_TUNNEL_LOCV

7、告警。【定位过程】1、MPLS_TUNNEL_LOCV 为Tunnel 连通性丢失告警。连续3 个周期内没有收到希望的CV/FFD 报文时出现此告警，怀疑Tunnel不连通。2、检查Tunnel设置，发现Tunnel的下一跳ip地址配置错误；3、与一线确认，发现一线更改了端口的IP地址，却没有更新Tunnel的配置，问题原因找到。【问题结论】网元之间的Tunnel的下一条ip地址配置错误。【处理意见】更改端口ip地址的时候注意同步更改Tunnel下一跳ip地址。,ETH专线丢包异常类问题定位指导,原理介绍丢包定位丢包定位示意图典型案例信息采集,Page 15,原理介绍,PTN,城市1,城市2,

8、在之间添加VLAN,添加tunnel的标签和pw的标签,剥标签,剥VLAN，还原用户报文,设备将用户侧特定端口或者特定端口中特定VLAN的报文，送到网络侧的某个端口或者某个PW上，实现用户数据的点到点透传。,PW,Page 16,丢包定位流程,Page 17,丢包定位流程,如果已确定网元NNI侧TUNNEL/PW发生丢包，可继续检查以下内容：1)端口的ARP学习地址是否发生修改；2)端口的工作模式是否匹配？如果模式速率不一致可能会丢包；3)端口的配置是否约束产生丢包；4)单板、光纤、光纤模块是否有问题；5)处理板是否复位过；6)TUNNEL/Pw和端口的MTU是否设置不对；如果已确定网元UNI

9、发生丢包，可继续检查以下内容：1)检查业务、UNI端口MTU是否设置不对；2)利用端口性能统计检查是否有异常帧或出错帧；3)检查UNI端口是否link down过；4)端口的工作模式是否匹配？如果模式速率不一致可能会丢包；,Page 18,丢包定位流程示意图,PTN 1,PTN 2,PTN 3,PTN 4,PTN 5,如图所示，PTN1至PTN5建立远程专线业务，PTN1为ingresss节点，PTN5为egress节点，其他为透传节点，丢包定位流程如下：,查看PTN3收发计数差别特别大，就是在它这里丢包啦,!告警,!告警,步骤1：检查网管告警信息，利用告警信息定位问题故障。比如：1)MPLS

10、_TUNNEL_LOCV告警检查网络是否拥塞；检查节点是否复位；2)MPLS_TUNNEL_SD/MPLS_TUNNEL_SF告警检查端口是否存在误码；tunnel带宽是否占用已满；3)MPLS_TUNNEL_BDI检查本端网元与上游网元之间的物理链路是否存在故障；4)MPLS_TUNNEL_FDI检查本端网元与上游网元之间的物理链路是否存在故障；5)检查是否有MPLS_PWL_LOCV告警检查网络是否拥塞；检查对端PW是否复位；业务接口配置是否对；6)检查是否有MPLS_PW_SD/MPLS_PW_SF告警检查端口是否存在误码；PW对端单板是否复位；7)检查端口是否有FLOW_OVER告警检

11、查流量是否超过端口带宽；8)检查ETH是否有ETH_CFM_CSCL/ETHCRCALI告警检查网络是否拥塞；光模块质量；链路硬件故障；,如果从告警无法定位问题？那么要用性能统计来定位。先确定此处是大量丢包还是少量丢包呢？,查看各节点TNL/PW性能统计！,如果是大量丢包！,ingresss,egress,步骤2：从ingress节点到中间节点最后到egress节点，分别查看它们TNL/PW性能统计，检查收发包是否相差比较大。如果某个NNI收发计数差别大，可认为丢包发生在此网元端口上。,既然已经知道这个网元NNI TNL/PW出现丢包了，继续检查是否因带宽受限而丢包？还是ARP地址被修改?或者

12、MTU不匹配？按这样思路下去找到问题位置啦,如果是少量丢包！,网络存在业务和协议报文，并且业务不可中断，对于少量丢包很难使用性能统计找出丢包位置，单纯从收发数量已不能确定是否丢包。,PTN1有收到PTN2的响应报文并且数量相同，说明PTN1-PTN2之间的TNL/PW路径是正常没有丢包哦!,PTN1发PING报文给PTN3。一段时间后PTN1没有收到PTN3响应报文或者收到报文比发送的报文少，说明PTN2-PTN3之间TNL/PW路径会丢包啦!,既然已知道这个TNL/Pw路径出现问题了，继续检查是否因带宽受限而丢包？还是ARP地址被修改?或者MTU不匹配？按这样思路下去找到问题位置啦,步骤4：

13、如果以上步骤还是没有定位到丢包位置，那可以打开UNI性能统计和端口性能统计来查看是否有业务异常。比如UNI性能收发是不是相差特别大？如果是的话那丢包就发送在UNI侧。检查UNI侧端口性能统计，看看有没有校验错误帧或者其他异常帧，如果有的话，可能单板存在异常或者光纤链路出现问题啦,Page 19,典型案例（一）,【问题现象】如下测试方案中，主通路以太专线业务丢包。X=1为主通道，X=2为保护路径，2路径上配置专线PW业务。查看路由器CX1统计，在主通道数据从3900-4到3900-1上测试1%微量丢包，倒换到保护路径不丢包。,PTN3900-1129.10.39.1,PTN3900-4129.1

14、0.39.4,PTN3900-2129.10.39.2,CX2129.10.6.67,CX1129.10.6.66,CX8129.10.6.71,G3/1/10-G3/0/1,G3/1/11-G3/0/4,G2/0/10-G3/0/2,G2/0/11-G3/0/5,G1/0/0,G2/0/0,EX2G11/1,EX2G7/2,EX2G5/2,EX2G11/1,EX2G11/2,EX2G11/2,EG8G3/3,EG8G3/3,X=1,X=2,X=3,步骤1：在主路径3900-4和3900-1上检查是否有相应的告警信息。,在网管中没有发现2台设备的告警信息。,步骤2：现象为少量丢包，从性能统计中

15、无法看出具体在哪里丢包。使用OAM PING自定义包长来检查是否有丢包。,步骤3：发现存在丢包现象。检查TNL/PW带宽/MTU；检查ARP是否学习到；检查端口工作模式；检查配置等，检查后并没有发现问题。,步骤4：打开3900-4 NNI侧端口性能统计，检查是否有校验出错帧或异常帧。此时发现性能统计中出现一些校验出错的数据包。根据这个情况很有可能是端口和光纤路径出现问题。需要进一步检查单板、光纤模块及光纤线问题。,步骤5：将光纤和光纤模块连接到保护通道测试未发现问题，排除光模块和光纤问题。更换3900-4 EX2单板，丢包现象消失，说明丢包来自EX2单板。,Page 20,典型案例（二）,【问

16、题现象】某地区现网突发大量丢包，而后恢复正常，PTN10036PTN10023为工作tunnel，分析丢包原因。,PTN10036,PTN10023,10GE,10GE,10GE,POS,PTN10035,PTN10024,工作TUNNEL,步骤1：查询网管当前告警和历史告警，发现在丢包问题出现之前一小段时间上报MPLS_TUNNEL_LOCV告警。,步骤2：在网管上查询保护信息，发现该丢包的业务所在的TUNNEL配置了APS保护组，该保护组为可恢复式。,步骤3：业务恢复后查询APS组状态，为工作在工作TUNNEL。通过告警我们知道MPLS_TUNNEL_LOCV会触发APS倒换，于是下一步需

17、要确定APS保护组中工作TUNNEL和保护TUNNEL分别的实际路由。,步骤4：通过查询发现APS保护组中的工作tunnel是1跳走10GE端口。而保护tunnel是4跳，其中的一跳走的是POS口。,步骤5：通过使用端口流量统计发现在最后一跳走POS口的时候速率明显下降，认定为最后一跳出现问题。,步骤6：查询APS组中的保护tunnel发现约束配置错误，没有严格约束保护tunnel不经过pos口。10GE端口并未严格约束在“路由约束端口IP”中。当MPLS_TUNNEL_LOCV告警发生时，业务被倒换到经过了POS端口的保护Tunnel，在带宽仅为155M的POS链路上，业务出现大量丢包。当M

18、PLS_TUNNEL_LOCV告警清除后，可恢复式的APS保护组又自动把业务倒换回工作Tunnel，仍然走10GE端口，使得业务恢复正常。【问题结论】添加路由约束条件，确保保护Tunnel必须经过10GE端口,保护TUNNEL,Page 21,典型案例（三）,【问题现象】XX运营商PTN设备与XX基站对接在近两个月期间70多台基站出现频繁掉话现象。技服称在某时间段内，在基站侧发送报文长度为1000字节，频率为35个/分钟的PING报文。共有3万多个报文，丢失9个报文。据此称是由于中间的PTN设备丢包导致了掉话问题频现。【定位过程】1、检查历史告警，发现某期间几乎所有的站点均有发生Eth_LOS

19、的告警，比较集中在23：00 以后，时间以10秒频率较高，怀疑是链路状态不好。2、对没有出现掉话和出现掉话频率低的站点进行分析。发现这些站点中物理接口也呈现多样性。不仅有ETH百兆电口，还有ETH百兆光口，而且这些站点多为室外站点。没有出现掉话的站点以ETH百兆光口居多。3、考虑到ETH百兆光口的工作模式只能是百兆全双工工作模式，而且在这种类型的端口计数中没有发现CRC校验错误报文。故而怀疑为端口工作模式不一致导致。4、检查基站端口工作模式。确认基站的ETH百兆电口工作模式全部设置为自协商模式。5、根据IEEE 802.3的标准，如果端口工作模式为自协商，而对端端口工作模式为百兆全双工，

20、此自协商端口的协商结果为百兆半双工。6、修改两个基站的端口工作模式为百兆全双工，无掉话现象。,Page 22,典型案例（三）,【问题结论】XX移动PTN与XX设备掉话的根本原因就是XX基站与PTN设备的端口工作模式设置不一致。【处理意见】尽管从最终的定位结果来看这确实是非常小的配置问题，但是其造成的影响却非常大，而且耗费非常多的时间和人力。端口工作模式的问题比较容易被人忽略，定位起来比较让人摸不着头脑。,Page 23,信息采集,ETH专线业务异常中断类问题定位指导,原理介绍问题定位定位示意图典型案例信息采集,Page 25,原理介绍,PTN,城市1,城市2,在之间添加VLAN,添加tunne

21、l的标签和pw的标签,剥标签,剥VLAN，还原用户报文,设备将用户侧特定端口或者特定端口中特定VLAN的报文，送到网络侧的某个端口或者某个PW上，实现用户数据的点到点透传。,PW,Page 26,问题定位,Page 27,问题定位,确定TNL/PW故障位置:TNL/PW配置不正确:1)检查TNL/PW的标签是否匹配；2)检查PW的tag属性是否两边一致；3)检查Tunnel的出端口和下一跳IP地址是否正确ARP没有学到，可能原因：1)对接的两端口是否存在异常告警，例如ETH_LINK_DOWN/ETH_LOS/；2)对接的两端口工作模式是否一致；3)对接的两端口封装属性和Tag属性是否一致；4

22、)对接的两端口IP是否在同一网段；5)端口所在的单板或者处理板上报了异常告警，例如HARD_BAD、COMMU_FAIL告警确定UNI故障位置:检查UNI配置是否正确:1)检查UNI端口封装属性；2)检查UNI端口工作模式；3)检查UNI端口是否link down;4)检查MTU是否正确；检查UNI端口性能是否正常:1)是否有校验错误帧；2)是否有丢包；3)是否有异常帧；,定位示意图,Page 28,告警弹出！请处理,告警弹出！请处理,1.先检查设备弹出的告警信息，根据告警信息来定位故障点。如果此刻告警信息比较明确，通过告警信息就可以定位出问题在哪。比如单板hard_bad这种告警就指明了那块

23、板出了问题，直接更换单板解决问题！,PTN 1,PTN 2,PTN 3,PTN 4,PTN 5,3.检查业务UNI是否正常？查看当前故障网元UNI性能统计计数，检查收发是否正常,2.通过TUNNEL/PW的OAM功能来检查TUNNEL/PW是否正常连通。使用MPLS Ping/Traceroute方式来确认通路失效点。,Ping/Traceroute,Ping/Traceroute,Ping/Traceroute,故障点,查看UNI性能统计计数，检查收发是否正常,Page 29,典型案例（一）,【问题现象】单板概率性故障导致业务中断。出现两次中断，每次中断时间为20分钟。NNI侧采用GE光接口

24、对接。业务中断时，网管上报MPLS_TUNNEL_LOCV和ETH_APS_LOST告警。处理步骤见图,NB 1,NB 1,RNC,RNC,ETH,PTN 1,PTN,PTN 3,PTN,RNC,RNC,Tunnel路径,ingress,egress,1.在网管中检查告警信息，发现一段时间内网元有MPLS_TUNNEL_LOCV和ETH_APS_LOST告警。说明TUNNEL在一段时间内连通性失效。,2.检查业务TUNNEL是否正常。使用MPLS TRACEROUTE报文在ingress节点发送来检查TUNNEL路径，发现不正常，说明tunnel是连通失效，导致业务中断。,ETH,PTN 2,

25、PTN,上报网管收到traceroute报文,没发出tracerout报文,从ingress发送traceroute报文后，PTN2可以收到，PTN3收不到traceroute 报文，证明失效路径发生在PTN2PTN3之间。,告警,是否ARP没学到？,是否TNL/PW配置不正常？,是否性能统计不正常？,3.检查PT2 NNI侧端口是否正确学习到对方MAC，检查NNI侧ARP表，发现正确的MAC地址被概率性修改了，导致ARP协议报文中的“目的MAC地址”被设置为错误的信息（被修改）。而业务正常时，源网元NNI侧出端口学习到的对端端口的MAC地址应是正确的。从中可以判断TUNNEL中断是因为对端A

26、RP地址被修改，导致业务不通。,对端网元收到携带错误信息的ARP报文后，因校验不通过就全部丢弃，ARP协议协商失败，Tunnel中断，业务也随之中断。,经过ARP老化时间后，源网元NNI侧出端口重新学习到对端端口正确的MAC地址，ARP协议协商成功，业务恢复正常。这是业务恢复正常的原因。,4.继续查询APS保护组，发现保护Tunnel也经过了同一物理链路，故障发生时，工作Tunnel和保护Tunnel同时中断，APS保护组失效。5.更换故障单板，避免再次出现小概率性的错误。故障未再发生，问题解决。因为网管未上报ETH_LOS告警，可以判断出物理链路连接良好。业务中断时间又与ARP老化时间吻合，

27、可以推断故障原因是MAC地址学习失败。,Page 30,典型案例（二）,【问题现象】某运营商网络通过在PTN设备上配置专线业务，专线业务穿越波分设备网，一段时间后发现业务中断，PTN2、PTN3上报MPLS_TUNNEL_LOCV告警。,NB 1,PTN 1,Tunnel路径,ingress,PTN 3,RNC,波分设备网,egress,PTN3设备上报MPLS_TUNNEL_LOCV告警,1.通过TUNNEL OAM告警得知TUNNEL连通不正常,PTN 2,2.从ingress发送traceroute报文，确定故障点,上报tracerout响应报文,无tracerout响应报文,3.失效路

28、径发生在PTN2PTN3之间,4.检查端口发现ARP已学到；TNL/PW配置正常，没有发现问题。从PTN2设备向PTN3设备发送包长1000字节PING报文，查看报文响应时间，发现响应超时。,Ping无响应,5.为确定路径时延，在PTN2和PTN3设备上分别打开性能统计，统计发送PING包和收到PING包的时间,打开性能统计计数，查看PING报文发包时间,打开性能统计计数，查看PING报文收包时间,检查性能统计计数，查看PING报文发收包时间，相差10s，可以说明穿越的波分设备网中存在较大延时，导致TUNNEL OAM产生MPLS_TUNNEL_LOCV告警。请波分相关技术人员过来定位，确实是

29、波分设备中存在延时。,Page 31,典型案例（三）,【问题现象】激光器状态异常导致LAG组业务中断。某日，客户反馈一条LAG（链路聚合组）上的以太网业务突然中断。该LAG组包括一个主端口，三个从端口。从网管上看，四个端口同时上报LASER_SHUT告警并且激光器确实无光输出，但该四个端口均已使能。,主端口,从端口,LAG组,LASER_SHUT告警,LASER_SHUT告警,1.检查当前告警，发现有LASER_SHUT告警,2.检查上报告警的端口的状态为“使能”,3.查询历史告警，发现单板曾经上报HARD_BAD告警，说明该单板出现过故障，LAG组自动关闭了所有端口的激光器,4.但是当HARD_BAD告警消失时，单板的状态并未随之恢复为正常，导致LASER_SHUT告警一直存在,5.硬复位该单板，单板状态恢复正常，LASER_SHUT告警消失，业务恢复正常,LAG组检测到单板状态为异常，自动关闭了所有端口的激光器，但无法改变端口的“使能”状态.,Page 32,信息采集,