05-第5章 系统支持的故障分析与定位.docx
《05-第5章 系统支持的故障分析与定位.docx》由会员分享,可在线阅读,更多相关《05-第5章 系统支持的故障分析与定位.docx(12页珍藏版)》请在三一办公上搜索。
1、目录第5章系统支撑的故障分析与定位5-15.1常见的故障现象5-15.2单板硬件故障和端口故障的分析与定位5-15.2.1预备知识5-15.2.2单板硬件故障和端口故障的常见原因5-25.2.3单板硬件故障和端口故障的基本处理步骤 5-25.3 CPU 过载的故障分析与定位5-45.3.1 CPU过载的常见原因5-45.3.2 CPU过载的处理步骤5-55.4单板加载不成功的故障分析与定位5-75.4.1预备知识5-75.4.2单板加载故障的解决思路5-75.4.3相关案例5-85.5倒换异常的故障分析与定位5-95.5.1常见原因5-95.5.2倒换异常的故障定位5-10第5章系统支撑的故障
2、分析与定位5.1常见的故障现象系统支撑是MSOFTX3000中起支撑、管理和控制作用的单板和交换机主机软件的 总称,是交换机业务实现的底层部分,它的故障将直接影响交换机的业务实现。本 章将介绍与系统支撑有关的故障处理。系统支撑的常见故障如表5-1所示。表5-1系统支撑常见故障现象故障分类故障现象的具体表现形式单板硬件故障和端口故障告警台上报某块单板故障告警或者某块单板的端口故障告警且告 警不能恢复。CPU过载交换机或某个模块的呼叫出现大范围的阻塞现象,接通率急剧下 降,CPU的占用率超过过载阈值,出现CPU过载告警。单板倒换异常不能倒换、倒换后主用异常、倒换后影响其他单板单板加载异常不能加载、
3、反复加载、加载超时、加载后前后台版本不一致5.2单板硬件故障和端口故障的分析与定位5.2.1预备知识MSOFTX3000系统中单板通过如下三种方式与WSMU板通信: 前插板通过共享资源总线向WSMU板上报单板状态; 无处理器的后插板的状态由对应的前插板采集后通过共享资源总线上报WSMU 板; 有处理器的后插板的状态则经背板的串口总线直接上报给WSMU板。WSMU板依据单板状态的正常与否产生相关的硬件故障告警或者恢复告警。扩容框 的WSMU板通过基本框的WSMU板向BAM发送告警。硬件异常和告警信息上报 路径如图5-1所示。w Hs C共享配电框W E P IW B AIW S I UW B F
4、 IBAM串口+总线W S M UW A LUU背板 pW RLMT应急工作站告警箱图5-1单板硬件告警信息上报路径5.2.2单板硬件故障和端口故障的常见原因单板硬件故障和端口故障的常见原因有: 告警单板自身硬件故障 告警单板的上级单板故障 单板与槽位接触不良 母板故障 单板端口连接故障 桥板WHSC故障 LAN Switch 故障5.2.3单板硬件故障和端口故障的基本处理步骤各种单板硬件故障和端口故障的处理步骤基本上都很相似,如图5-2所示。图5-2单板硬件故障的基本处理步骤在处理单板硬件故障和端口故障的操作中需要注意以下几点:(1) 复位、更换、倒换、拔插单板将对系统造成一定的影响,应当在
5、华为技术支持 人员的指导下方可进行;(2) 对于主备用单板,只有在故障单板处于备用状态下,才可进行单板的拔插和更 换;(3) 拔插和更换单板应严格按照更换单板的操作规范进行,其要点包括:更换单板必须在凌晨等话务量小时进行;拔插和更换单板前需要将单板上的中继、信令、资源通道等进行闭塞、隔离操 作;拔插和更换单板后,单板完成加载,维护人员注意查询加载后的单板的软硬件版本是否正确;单板运行正常后需将单板资源进行解闭塞、激活操作,并对单板功能进行一定 的测试。(4) 在不确定哪些单板与故障有关联时,不要轻易进行操作,应首先通知华为技术 支持人员。(5) 对于端口故障,请首先确认所有端口连接的正确性,其
6、次应该注意桥板和母板 的状态是否正常,LAN Switch是否有问题。5.3 CPU过载的故障分析与定位CPU过载是MSOFTX3000的严重故障,当CPU占用率过高时,MSOFTX3000会对话务量进行流量控制,从而导致呼损上升,接通率下降。5.3.1 CPU过载的常见原因CPU过载的常见原因有:(1) 话务量过大;(2) 话务统计任务周期过短;(3) 位置区设置不合理;(4) 维护操作不规范;(5) 数据设置不正确;(6) CPU过载阈值设置不正确。5.3.2 CPU过载的处理步骤CPU过载的基本处理步骤如下:1. 检查维护操作是否合适大量的操作维护任务会占用大量的CPU资源,从而容易使C
7、PU过载,为了避免在 话务忙时因维护操作而导致CPU过载,应注意以下几点:(1) 忙时不要运行大批量的修改命令。(2) 忙时不要执行显示结果过多的显示命令。(3) 忙时不要将统计输出到终端。(4) 忙时不要对链路进行过多的动态跟踪。注意:由于向大量用户发送广播短消息时,会对MSC Server造成很大的冲击,因而在发 送广播短消息时,需避开话务高峰的时间,而且尽可能分批发送广播短消息,每一 批的人数要尽量少一些。对于话务量已经非常高的地区,建议不要发送广播短消息。2. 检查话务量交换机某一时段的实时话务量,可通过以下几种途径了解:(1) 查询近段时期的话务统计报告。分析“试呼次数、接通次数、平
8、均占用时长” 等与呼损、话务量有关的关键信息,了解系统的话务量。查询中继电路的占用情况。若中继电路的占用率超过70%,说明系统的局间 话务量很大。对于话务量很大导致的CPU过载,一般是以观察为主,对于长期的因话务量而导致 过载可以和其他局协商,采用话务分流的方法减少话务量,或考虑进行适当的设备 升级。3. 检查话务统计任务的统计周期话务统计任务的统计周期设定对CPU占用率也有这重要的影响。由于绝大多数话务 统计任务与呼叫关系紧密,因此,当任务的统计周期过短的时候,会造成CPU的负 荷加重。目前比较合理的周期设置是1小时,这一信息可以通过维护命令查询和修 改:(1)查询命令字:LST TRFIN
9、F,填入相应的任务ID,按F9即可列出该务的所 有信息,其中就包含了改任务的统计周期信息。(2)修改任务周期命令字:MOD TRFTM,填入相应的任务ID,并且在Period下 拉菜单中选择对应的时间参数,按F9即可进行修改。需要注意的是,修改话务统计任务的统计周期对话务统计结果有一定的影响,那就 是修改后的第一个统计周期将不会有话务统计的结果,请谨慎使用。4. 检查数据配置是否正常对于MSC Server而言,数据配置错误导致的CPU过载主要有两个方面,一个方面 是关于信令链路、中继的负荷分担配置不均衡,导致某些信令链路负荷过大,以致 负责处理该部分的业务处理板过载,这种情况应该调整数据链路
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 05-第5章 系统支持的故障分析与定位 05 系统 支持 故障 分析 定位

链接地址:https://www.31ppt.com/p-4874260.html