《故障排查》PPT课件.ppt
7750故障排查,龚俊安2012年2月22日,目录,1.常见故障分析2.故障处理方法3.阿尔卡特技术支持,3,常见故障分析,1,4,常见故障分析ping大包不通故障,ping大包不通故障:1,检查传输链路。2,修改端口和传输MTU值。,5,常见故障分析ping丢包故障,ping丢包故障1,1块mda板卡上多个端口ping丢包。a,检查IOM2板卡是否报pchip错误和MDA板卡是否报xpl错误。2,1个端口丢包,其他端口正常。a,检查传输链路,主要是收光情况。b,检查端口协商模式。c,filter抓包,是否7750能发出ping request,对端设备未给回ping reply报文。,6,常见故障分析2台设备相同vpn 互相ping不通,2台设备相同vpn 互相ping不通:1,检查设备RT配置。2,检查loopback地址是否分配标签。3,检查vpnv4是否建立。,7,常见故障分析设备ping外网地址部分正常,设备ping外网地址部分正常:设备ping外网地址有的通,有的不通(路由信息正常,转发异常)1,检查iom2板卡是否pchip报错。2,切换cpm板卡。,8,常见故障分析新增端口直连无法ping通,新增端口直连无法ping通:1,检查端口协商模式。2,检查端口光衰情况。3,端口通过尾纤自己打环,传输通过尾纤打环。,9,常见故障分析新增上联端口直连正常,isis无法up,新增上联端口直连正常,isis无法up:1,isis密码错误2,isis错误配置,10,常见故障分析新增端口开通pppoe,全部用户报691错误,新增端口开通pppoe,全部用户报691错误:1,group-interface和vpls未做关联或者关联错误。,11,常见故障分析pppoe用户报734错误,pppoe用户报734错误:1,地址池满。2,同一帐号在7750不同端口使用。,12,常见故障分析pppoe用户报678错误,pppoe用户报678错误:1,检查2层通道是否正常。2,检查端口协商模式。,13,常见故障分析pppoe某个端口用户上线几分钟被7750踢下线,pppoe某个端口用户上线几分钟被7750踢下线:1,检查传输链路是否正常,14,常见故障分析新发布路由网段不通,新发布路由网段不通:1,检查3层接口是否up2,地址段是否冲突,15,常见故障分析部分用户无法上网,部分用户无法上网,部分正常:该问题一般为路由发布问题注意新增网段需要三个步骤,必不可少1,dhcp pool中新增subnet2,subscribe-interface增加网关3,policy-option 中增加prefix,注意首先begin,最后一定要commit,16,常见故障分析PON下面pppoe用户异常掉线,7750和PON之间有PTN,PON下面pppoe用户异常掉线:1,PTN MTU设置小于7750和客户端,导致丢包,17,常见故障分析7750总是不停重启,无法启动成功,7750总是不停重启,无法启动成功:将console连接到设备,查看设备启动的logAlcatel 7x50 Boot ROM.Copyright 2000-2006 Alcatel.All rights reserved.All use is subject to applicable license agreements.Build:X-4.0.R1 on Thu Apr 27 12:42:18 PST 2006 by builderVersion:0 x0BStarting CPU/Switch card*Local memory(2 Meg)tested BAD!COLD boot on processor#1CPU Control FPGA version is 0 x17 根据设备启动log,可以查看到内存硬件损坏,无法通过设备检测,在更换内存后可以正常启动。确认为内存损坏。,18,常见故障分析CPM板卡插入时不停的查找启动文件,CPM板卡插入时不停的查找启动文件:1,CPM板卡的CF3卡中无启动文件导致2,CF卡损坏,19,常见故障分析pos端口无法UP,pos端口无法UP:以一个oc48 pos端口为例,要查看端口协议是否up,需要通过show port 6/1/1.sts48命令查看,通过show port 6/1/1无法真正判断该端口协议层是否upPos端口常见故障为协议无法up,首先需要检查端口配置,确认以下参数配置是否正确:Scramble/加扰,要求与对端口一致,配置命令:config port X/X/X sonet-sdh path scramblesignal-label/C2开销子节,要求与对端一致,否则传输会有诉告警,与juniper设备对接,必须一致,配置命令:config port X/X/X sonet-sdh path signal-label XXXtrace-string/C2开销子节,要求与对端一致,否则传输会有诉告警,与juniper设备对接,必须一致,配置命令:config port X/X/X sonet-sdh path trace-string XXXcrc/CRC检验位,要求与对端选择一致的CRC检验位,配置命令为:config port X/X/X sonet-sdh path crc 32/16clock-source/时钟源,配置应情况而定,如果二台设备直接用裸光纤互联,则一端取本地时钟一端取线路时钟即可,如果二台设备间经传输互联,则取线路由时钟即可,配置命令有:config port X/X/X sonet-sdh clock-source node-timed|loop-timed(node-timed为本时钟,loop-timed 为线路时钟)framing/帧格式,配置应该与传输一致,如果没有传输则应该与对端设备一致,配置命令为:config port X/X/X sonet-sdh framing sdh|sonet,20,常见故障分析链路无法负载均衡,链路无法负载均衡:7750两条链路双上行至核心设备,两条链路metric设置一样,分别从两台核心设备学习到缺省路由,但只有一个端口有流量。在ospf或者isis database中可以看到有到达缺省路由相同metric的lsa,但路由表中只有一条缺省路由,需要注意这是7750和其它厂商区别的地方,象思科设备,igp缺省就开启了4条等值路由,无需配置。但7750需要在router下面配置ecmp 数目,否则即使数据库中有多条相同metric的lsa,也只会选取下一跳地址最小的进行转发。无法实现流量的负载均衡。,21,常见故障分析访问控制列表配置不当引起路由协议DOWN掉,访问控制列表配置不当引起路由协议DOWN掉:配置Management Access Filters,设定对指定源IP地址用户的Telnet访问权限,其它的用户不能Telnet设备,配置情况如下management-access-filter default-action permit entry 10 action permit src-ip dst-port 23 65535 exit entry 200 action deny exit exit在完成上述配置后,用户原意是想对其它的源IP地址做Telnet访问限制,但是在配置时对最后一个entry没有指定匹配条件,仅仅指定了动作为Deny,结果引起了路由协议Down掉。7750的Management Access Filters访问控制列表控制所有进入CPM的流量,包括路由协议报文。控制列表中可以配置若干entry,每个entry在配置action行为之后即生效。在上面的故障中,当路由协议的报文到来后,顺着前面的entry依次处理,都没有匹配上,来到最后的entry 200,由于在最后一个entry 200 中没有指定匹配条件,那么所有的报文都认为匹配上,于是执行deny动作把报文丢弃,致使OSPF、BGP协议Down掉。修改最后的entry 200,指定它的匹配条件为TCP端口号23的精确匹配。entry 200 action denydst-port 23 65535exit上面配置目的端口号时,掩码用来确定端口号的范围,65535代表精确匹配,这是默认值。访问控制列表对设备影响很大,在配置时一定要确认参数的正确性。,22,常见故障分析配置了将直连路由重分发进ospf后,直连路由没有发布出去,配置了将直连路由重分发进ospf后,直连路由没有发布出去:现象描述:7750上配置了如下policy,将直连路由重分发进ospf,但是其它设备却无法学到7750的直连路由configrouterpolicy-options#policy-statement to_ospf entry 10 from protocol direct exit to protocol ospf exit action accept type 1 exit exit exit其它友商设备在redistribute直连等外部路由后,会自动计算本路由器为asbr,但7750在软件实现上和其它设备有差异,需要在ospf中指定本路由器为asbr,否则外部路由将无法成功重分发进ospf协议。这是和其它设备差异的地方,需要注意。进行如下配置后,其它设备学到了7750的直连路由。configrouterospf#info-asbr,23,常见故障分析ies割接后业务不通,ies割接后业务不通:1,用户做了MAC地址绑定2,用户端网关地址配置错误,24,常见故障分析CPU利用率持续过高处理,CPU利用率持续过高处理:虽然7750在CPU利用率达到100%的时候也能正常业务转发,但是CPU利用率持续过高还是对设备性能上有一定的影响。CPU占用率高主要可能的两方面是system和IP Stack:1,system占用CPU资源高,有可能是因为CF卡已满、端口震荡、SSH协议攻击、FTP攻击、Telnet连接吊死等2,IP Stack占用CPU资源高,主要是因为用户攻击导致,包括icmp攻击、UDP攻击、TCP攻击、ARP攻击等部分关于CPU利用率高的故障处理请参考附件,25,常见故障分析低电压保护,低电压保护:机房市电停电后通过蓄电池供电,7750在蓄电池供电的状态下,因为蓄电池的供电电压是线性下降的,一旦电压低于7750的额定电压,此时7750会处于低电压保护状态,将所有板卡处于down的状态。随后即时供电正常,7750也不会自动重启,需要人工干预重启。,26,常见故障分析ICC ERROR报错,ICC ERROR报错:现象:7750节点上连链路down,该节点下所有下挂业务均受影响。现场主用CPM正常,能通过串口登陆,备用CPM和所有IOM反复重启Log信息如下:26956 2010/06/11 21:25:22.32 BEIJ MAJOR:CHASSIS#2001 Base Card 1Class IO Module:failed,reason:Failed ICC transaction ICC是Internal Communication Channel,是CPM卡和IOM卡内部通讯通道。上述信息表示CPM卡和IOM卡的内部通讯中断,因此CPM卡发信号使IOM卡重起试图恢复。由于ICC通道没有恢复,IOM卡和CPM卡的内部通讯不能恢复,因此一直重复上述过程。直到把故障CPM卡拔出后ICC通道恢复正常,故障恢复。当主CPM与备CPM失去ICC通讯时,主备CPM双方并不知道是主用还是备用CPM有问题,因此设计上主CPM会发信号让备CPM重起,试图清除硬件错误,恢复故障。备CPM重起时要先与主CPM同步,但由于ICC故障,同步已经不能正常完成。而发生切换必须在同步之后才能进行,备CPM没有完成同步就不具备切换条件,直到ICC故障人工干预恢复。在ICC通道故障时,主用CPM卡与所有的其它卡失去通讯联系,包括备用CPM卡,因此主CPM卡发信号使备用CPM卡重起试图恢复,主用CPM卡本身并没有死机,它在控制系统。备用CPM卡重起后ICC故障并没有恢复,同步无法进行,备用CPM卡就不具备切换条件,因此主备CPM卡没有发生切换。如果主用CPM卡死机了或重起了,而之前备用CPM在启动时已经完成同步,备用CPM卡会立即切换接管。,27,常见故障分析网吧用户使用过程中掉线,网吧用户使用过程中掉线:为了防止异常用户对7750SR设备的icmp攻击,保持7750SR设备的稳定性,7750SR设备对于icmp做了一定的限制,防止因为ipstack的异常导致CPU的利用率过高。个别网吧在做网关检测的时候,采取了ping方式的检测手段,因为网吧的网关是在7750SR上面,7750SR设备会收到大量的icmp包,同时7750SR设备在icmp上的过滤机制,会丢弃一部分的icmp包,导致个别网吧收不到回包,因而理解成网关不存在而无法上网。基于7750SR设备的稳定性安全性和网吧用户的正常业务开展,建议网吧用户尽量采用arp方式做网关检测,因为网关的arp在7750SR设备上,正常情况下不会改变丢失。,28,故障处理方法,2,29,故障处理方法,以下操作注意保存操作的log信息1、故障出现,第一时间收集相关logshow log log-id 99show log log-id 1002、间隔15分钟以上收集TS文件,取2个以上admin tech-support cf3:-.tech,30,故障处理方法,硬件故障show chassis show card detailshow mda detail主要查看电源、风扇、启动时间、板卡的告警,31,故障处理方法,BRAS业务检查用户在线情况,基于subscriber 端口 sap MAC IP地址进行索引查找show service active-subscribersshow service active-subscribers xxx detailshow service active-subscribers summaryshow service id xxx pppoe session show service id 3000 pppoe session ip-address detail show service id xxxx subscriber-hostsshow service id 3000 subscriber-hosts subscriber“nj_debo13”detail 检查DHCP分配情况Show router dhcp local-dhcp-server“xyz”summaryShow router dhcp local-dhcp-server“xyz”free-addresses summary Show router dhcp local-dhcp-server“xyz”leases跟踪7750和radius之间的消息debug radius detail跟踪7750和client端的消息debug service id xxx pppoe packet mode egr-ingr-and-droppeddebug service id xxx pppoe packet detail-level medium debug service id xxx pppoe packet discoverydebug service id xxx pppoe packet pppdebug service id xxx pppoe packet dhcp-client跟踪全部的DHCP消息debug router ip dhcp detail-level mediumdebug router ip dhcp mode egr-ingr-and-drop 所有debug消息输出到创建logconfig log log-id 33 from debug-trace to memory 1000 exitexit,32,阿尔卡特技术支持,3,33,阿尔卡特技术支持,销售代表:胡亮 项目经理:聂汝骁 技术经理:龚俊安 工程师:张海亮 伏胜强 王轩 阿尔卡特服务热线:800-820-5182移动用户请拨打:400-820-5182,34,www.alcatel-,