网络故障分析与处理.ppt
《网络故障分析与处理.ppt》由会员分享,可在线阅读,更多相关《网络故障分析与处理.ppt(283页珍藏版)》请在三一办公上搜索。
1、第八章 常见网络故障分析与处理,8.1 网络故障概述8.2 网络故障的方法8.3 网络故障的排查工具8.4 网络故障的分类处理8.5 常见网络故障诊断及维护案例,网络是复杂的,网络出现故障的原因是多种多样的,那么该如何诊断网络故障,以及如何进行网络故障的修复呢?在修复网络故障的过程中,常常会遇到许多问题,有没有可以遵循的原则呢?对于大多数管理员来说,主要任务就是整个企业网络系统的维护。每当网络系统出现故障时,是最令管理员们头痛的事。因此,故障管理成为整个网络管理的重中之重。,8.1 网络故障概述,1网络复杂性的原因 当今的网络互联环境是复杂的,而且其复杂性还在日益增长.主要原因如下:现代的因特
2、网要求支持更广泛的应用,包括数据、语音、视频及它们的集成传输;新业务发展使网络带宽的需求不断增长,这就要求新技术的不断出现。例如:十兆以太网向百兆、千兆以太网的演进;提供QoS能力等。新技术的应用同时还要兼顾传统的技术。例如,传统的SNA体系结构仍在某些场合使用,DLSw作为通过TCP/IP承载SNA的一种技术而被应用。,8.1 网络故障概述,2网络故障及故障管理 什么是网络故障?网络故障就是网络不能提供服务,局部的或全局的网络功能不能实现。用户感知的只是应用层的服务不能实现,但应用层的服务要依赖它下面几层的正确配置和连接;不仅仅是依靠服务器,同样也需要客户端的正确配置。,8.1 网络故障概述
3、,2网络故障及故障管理 故障(失效)管理(fault management)是网络管理中最基本的功能之一。用户都希望有一个可靠的计算机网络。当网络中某个组成失效时,网络管理系统必须迅速找到故障,及时排除。分析网络故障原因是网络故障管理的核心内容。对故障的处理包括故障检测、故障定位、故障隔离、重新配置、修复或替换失效的部分,使系统恢复正常状态。故障管理具有如下功能。,8.1 网络故障概述,1)故障警告功能 由管理对象主动向管理主机报告出现的异常情况,叫故障警告,其必须包含足够多的信息,详细说明出现异常的地点、原因、特征,以及可能采取的应对措施等。,8.1 网络故障概述,2)事件报告管理功能 事件
4、报告管理功能目的是对管理对象发出的通知进行先期的过滤处理,并加以控制,以决定通知是否应该改善给其它有关管理系统,是否需要改善给后备系统以及控制改善的频率等。有两个管理对象,一个是区分器,主要作用是对管理对象发出的通知进行测试和过滤;另一个是事件转发区分器,主要用于确定转发的目标。,8.1 网络故障概述,3)运行日志控制功能 管理对象发出的通知和事件报告应该存储在运行日志中,供以后分析使用。定义了两个管理对象类:运行日志和日志记录。管理对象发出的通知通过本地处理形成日志记录,日志记录存储在本地运行日志文件中。,8.1 网络故障概述,4)测试管理功能 管理主机有一个叫做测试指挥员的应用进程,而代理
5、有一个叫做测试执行者的应用进程。指挥员可以向执行者发出命令,要求进行某种测试,执行者根据指挥员的命令完成测试。测试结果可以立刻返回给指挥员,也可以作为事件报告存储在运行日志中,待以后分析用。,8.1 网络故障概述,5)确认和诊断测试的分类 确认和诊断测试可分为连接测试、可连接测试、数据完整测试、端连接测试、协议完整性测试;资源界限测试、资源自测;测试基础设施的测试。用故障标签对故障的整个生命周期进行跟踪。所谓故障标签就是一个监视网络问题的前端进程,它对每一个可能形成故障的网络问题,甚至偶然事件都赋予唯一的编号,自始至终对其进行监视,并且在必要时调用有关的系统管理功能以解决问题。,8.1 网络故
6、障概述,3网络故障管理的一般思路 首先,网络故障管理首先能够自动发现、生成和维护网络拓扑结构,形成网络模型。该模型应该与管理员头脑中的网络图像一致。通过核对该图,管理员可以纠正错误认识,或者发现用户私自增加和改变的网络连接。一般网管软件可以生成基于IP网络的拓扑结构图,高级网管软件则可以生成和维护基于交换机的物理连接的拓扑结构图。,8.1 网络故障概述,然后,故障管理以此模型为基础自动定期轮询网络设备,监视线路设备的运行状况和故障情况。故障管理的核心是对采集到的故障信息的处理。网管软件可以理解网络拓扑结构和故障来源、严重性,自动、及时、直观地在网络拓扑界面表示该故障。这对实时监视和解决问题非常
7、有效。界面的直观易用性是考察此类软件的侧重点。,8.1 网络故障概述,4故障管理对于网络管理员的知识要求当网络遭遇故障时,最困难的不是修复网络故障本身,而是如何迅速地查出故障所在,并确定发生的原因。网络故障的现象有很多,即使同一个故障的表面现象也可能不一样,所以作为一名网管员,要善于抓住问题的本质,用最快的速度去排除故障。,8.1 网络故障概述,4故障管理对于网络管理员的知识要求对于网管来说,首先要有一个清晰的排障思路。另外,经验也是非常重要的。网络故障诊断以网络原理、网络配置和网络运行的知识为基础,从故障的实际现象出发,以网络诊断工具为手段获取诊断信息,通过故障排除方法确定网络故障点,查找问
8、题的根源,排除故障,恢复网络的正常运行。,8.1 网络故障概述,5网络故障的分类 网络故障的一般分类如下。根据网络故障的性质分为物理故障与逻辑故障。根据网络故障的对象分为线路故障、路由故障和主机故障。根据网络故障的程度分为连通性问题和性能问题。连通性问题包括:硬件、媒介、电源故障;软件配置错误和兼容性问题。性能问题包括:网络拥塞、到目的地不是最佳路由、供电不足、路由环路、网络错误。,第八章常见网络故障分析与处理,8.1 网络故障管理概述8.2 网络故障管理的方法8.3 网络故障管理的工具8.4 网络故障管理的分类处理8.5 常见网络故障诊断及维护案例,8.2 网络故障管理的方法,有很多工具可以
9、辅助管理员发现网络什么时候出故障了,同时有几种方法可以用来应对这些警报。但是哪种方法是最佳的呢?没有任何一种方法适用于所有情况。本节将阐述故障修复中所使用的几种方法。,8.2 网络故障管理的方法,8.2.1 网络故障诊断及解决的一般步骤8.2.2 分层故障排除法8.2.3 分段故障排除法8.2.4 替换法8.2.5 隔离法8.2.6 各种方法总结,8.2.1 网络故障诊断及解决的一般步骤,故障处理系统化是合理地一步一步找出故障原因并解决的总体原则。它的基本思想是系统地将由故障可能的原因所构成的一个大集合缩减(或隔离)成几个小的子集,从而使问题的复杂度迅速下降。网络故障解决的处理流程是可以变化的
10、,但故障处理有序化的思维模式是不可变化的。下面以华为技术有限公司的一个故障处理的实例来介绍如何应用这些步骤。该处理流程是网络维护人员所能够采用的排错模型中的一种,如果根据自己的经验和实践总结了另外的排错模型并证明是行之有效的,请继续使用它。,8.2.1 网络故障诊断及解决的一般步骤,案例8-1:用户网段广播包过多造成该网段的服务器FTP业务传输速度慢。该案例组网如下:某校园网的3个局域网,其中 10.11.56.0为一个用户网段,其中:10.11.56.118为一个日志服务器 10.15.0.0是一个集中了很多应用服务器的网段(如图8.1所示)。,8.2.1 网络故障诊断及解决的一般步骤,8.
11、2.1 网络故障诊断及解决的一般步骤,1.故障现象描述要想对网络故障做出准确的分析,首先应该了解故障表现出来的各种现象。用户反映“日志服务器与备份服务器间备份发生问题”这就是一个不完整、不清晰的故障现象描述。因为这个描述没有讲述清楚下列问题:这个问题是连续出现,还是间断出现的?是完全不能备份,还是备份的速度慢(即性能下降)?哪个或哪些局域网服务器受到影响,地址是什么?,8.2.1 网络故障诊断及解决的一般步骤,正确的故障现象描述是:在网络的高峰期,日志服务器10.11.56.118到集中备份服务器10.15.254.253之间进行备份时,FTP传输速度很慢,大约是0.6Mbps。,8.2.1
12、网络故障诊断及解决的一般步骤,2相关信息收集搜集有助于查找故障原因的详细信息。向受影响的用户、网络人员或其他关键人员提出问题。根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议。使用分析仪、相关display和debug命令等。测试性能,与网络正常情况下的记录进行比较。,8.2.1 网络故障诊断及解决的一般步骤,如上述案例,可以向用户提问或自行收集下列相关信息:网络结构或配置是否最近修改过,即问题出现是否与网络变化有关?是否有用户访问受影响的服务器时没有问题?在非高峰期日志服务器和备份服务器间FTP传输速度是多少?,8.2.1 网络故障诊断及解决的一般步骤,通过该步骤,收集到了下面一
13、些相关信息:最近10.11.56.0网段的客户机不断在增加;129.9.0.0网段的机器与备份服务器间进行FTP传输时速度正常为7Mbps,与日志服务器间进行FTP传输时速度慢,只有0.6Mbps;在非高峰期日志服务器和备份服务器间FTP传输速度正常,大约为6Mbps。,8.2.1 网络故障诊断及解决的一般步骤,3经验判断和理论分析利用前两个步骤收集到的数据,并根据自己以往的故障处理经验和所掌握的知识,确定一个排错范围。通过范围的划分,就只需注意某一故障或与故障情况相关的那一部分产品、介质和主机。如上述案例,现在能够确定是一个网络性能下降问题。那么,是网段10.11.56.0的性能问题,是中间
14、网络的性能问题,还是10.15.0.0网段的性能问题呢?根据129.9.0.0网段的机器与备份服务器间进行FTP传输时速度正常为7Mbps这一事实,可以排除10.15.0.0网段的性能问题。,8.2.1 网络故障诊断及解决的一般步骤,4各种可能原因列表该步骤列出根据经验判断和理论分析后总结的各种可能原因。如上述案例,可能原因如下。网段10.11.56.0的性能问题,其原因可能为:日志服务器A的性能问题;10.11.56.0网络的网关性能问题;10.11.56.0网络本身的性能问题;中间网络性能问题,主要是到网络10.15.0.0的路由不是最佳路由。,8.2.1 网络故障诊断及解决的一般步骤,5
15、对每一原因实施排错方案根据所列出的可能原因制定故障排查计划,分析最有可能的原因,确定一次只对一个变量进行操作,这种方法能够重现某一故障的解决办法。如果有多个变量同时被改变,而问题得以解决,那么如何判断哪个变量导致了故障发生呢?,8.2.1 网络故障诊断及解决的一般步骤,6观察故障排查结果当对某一原因执行了排错方案后,需要对结果进行分析,判断问题是否解决,是否引入了新的问题。如果问题解决,那么就可以直接进入文档化过程;如果没有解决问题,那么就需要再次循环进行到故障排查过程。,8.2.1 网络故障诊断及解决的一般步骤,7循环进行故障排查过程在进行下一循环之前必须做的事情就是将网络恢复到实施上一方案
16、前的状态。如果保留上一方案对网络的改动,很可能导致新的问题。循环排错可以有两个切入点:当针对某一可能原因的排错方案没有达到预期目的,循环进入下一可能原因制定排错方案并实施;当所有可能原因列表的排错方案均没有达到排错目的,重新进行故障相关信息收集以分析新的可能原因。,8.2.1 网络故障诊断及解决的一般步骤,如上述案例,在列出了可能原因列表后,开始制定方案进行故障处理。可能原因1:网络10.11.56.0到网络10.15.0.0的路由不是最佳路由。制定的方案:在10.11.56.0网段的网关上使用tracert 10.15.245.253命令,发现探测报文返回时长仅为10ms,表明该可能原因并不
17、是造成故障的原因。进入循环排错过程。可能原因2:日志服务器A的性能问题。制定的方案:测试同一网段的主机C和日志服务器间的FTP传输速度,是6Mbps,正常。可见问题与服务器A无关。,8.2.1 网络故障诊断及解决的一般步骤,可能原因3:10.11.56.0网络的网关性能问题。制定的方案:测试主机C和备份服务器B间FTP传输速度是7Mbps,正常。排除了网关因素,因为B、C在不同网段上而速度正常。,8.2.1 网络故障诊断及解决的一般步骤,再次询问用户该网段主要运行的业务是什么,而得出了故障最终原因如下:10.11.56.0是普通用户网段,由于业务原因每个用户需要发送大量广播包和多播包,随着近期
18、越来越多的用户接入该网络,在这个网段上的服务器需要花费更多的资源来处理越来越多的广播和多播包,因此其服务的传输速度自然减慢。这是一个网络布局不恰当的问题,需要重新安排服务器的位置,将服务器移到10.15.0.0网段后,故障解决。,8.2.1 网络故障诊断及解决的一般步骤,8故障处理过程文档化当最终排除了网络故障后,流程的最后一步就是对所做的工作进行文字记录。文档化过程决不是一个可有可无的工作,原因如下:文档是排错宝贵经验的总结,是“经验判断和理论分析”这一过程中最重要的参考资料;文档记录了这次排错中网络参数所做的修改,这也是下一次网络故障应收集的相关信息。,8.2.1 网络故障诊断及解决的一般
19、步骤,文档记录主要包括以下几个方面:故障现象描述及收集的相关信息;网络拓扑图绘制;网络中使用的设备清单和介质清单网络中使用的协议清单和应用清单;故障发生的可能原因;对每一可能原因制定的方案和实施结果;本次排错的心得体会;其他,如排错中使用的参考资料列表等。,8.2 网络故障管理的方法,8.2.1 网络故障诊断及解决的一般步骤8.2.2 分层故障排除法8.2.3 分段故障排除法8.2.4 替换法8.2.5 隔离法8.2.6 各种方法总结,8.2.2 分层故障排除法,1分层故障排除法的原理所谓分层的思路,是把TCP/IP的分层模型和现实的网络环境相对应,从高到低或从低到高地判断故障。由于TCP/I
20、P的层次结构把每层功能及职责范围定义得非常清晰,为管理员分析和排查故障提供了非常好的组织方式。由于各层相对独立,按层排查能够有效地发现和隔离故障,因而一般使用逐层分析和排查的方法。,8.2.2 分层故障排除法,据统计,网络故障有35%在物理层,25%在数据链路层,12%在网络层,10%在传输层,8%在对话层,7%在表示层,3%在应用层。由此可以看出网络故障通常发生在网络分层模型的下3层,即物理层、链路层和网络层。故一般主要是考虑分层模型的下3层的对应关系,即把维护的网络设备的各种故障现象归类到物理层、链路层和网络层。通常有两种逐层排查方式,自上而下和自下而上。,8.2.2 分层故障排除法,2.
21、自下而上的方法 对于自下而上的网络故障修复,首先要检查网线,接着是协议堆栈。具体的分析按“物理层数据链路层网络层传输层上层应用”的次序分析问题。如果使用自下而上的方法,那么需要检查所有的物理媒介,并且这个步骤是不可以跳过的,因为可以ping一下设备或者查看连接信号灯。另外一方面,如果我们没有看到连接信号灯亮那问题就很明显了。这样,可以继续检查步骤检查网卡诊断、交换机端口统计,然后到应用。,8.2.2 分层故障排除法,当有一个用户出现故障时,可以很容易地从物理层开始,然后一直往上修复。该方法适用于物理网络不够成熟稳定的情况,如组建新的网络、重新调整网络线缆、增加新的网络设备;如果错误的出现要么是
22、连续的要么是间歇性的,检查一下物理层。,8.2.2 分层故障排除法,3.自上而下的方法 在自上而下的方法中,从TCP/IP协议栈的最上层开始分析。要先测试应用是否正常工作,然后ping服务器,等等。直到到达协议栈的最底层,也就是物理层。自上而下的方法适用于物理网络相对成熟稳定的情况,如硬件设备没有变动。这个方法最适用于多用户登录服务器的情况。物理层问题几乎很少可能成为影响所有用户的问题。当然,除非遇到服务器连接问题时。这个方法可以用来确定应用或服务器是否Down了、变慢了,或者其它某些原因没有响应网络命令。,8.2.2 分层故障排除法,4各层可能的故障 1)物理层 物理层的故障一般包括以下几个
23、方面:线路方面故障;端口设置方面的故障;集线器故障;电源方面的故障;网卡故障。网卡故障包括:网卡参数设置错误、在同一网段的网络设备的参数设置要一致、对网卡的干扰和网卡驱动不正常等。,8.2.2 分层故障排除法,案例8-2:各种指示灯的状态。例如调制解调器的灯指示的是物理层的信息,CD代表载波,不亮的话指示电话线的连接有问题。CTS代表与电脑的接口是否正确地连接,不亮的话要么是连接线有问题,要么就是RS232口有问题。网卡的Link灯代表网线的好坏或者与Hub的连接是否正确,网卡的100M灯代表是否100M连接。大中型的服务器上一般都有液晶的小条,实时显示服务器的运行状态,可以从中看出设备的故障
24、情况。大部分网络设备的物理层的信息虽然标识一样,但在细节上很不相同,需要仔细研读产品说明书来了解。,8.2.2 分层故障排除法,2)数据链路层 数据链路层的故障一般包括以下几个方面:数据链路层帧的问题,通常的帧错发、重发、丢失及帧碰撞等;数据帧的流量控制及差错控制;链路层地址的设置;链路层协议的匹配问题,在相互连接的两端口应该使用同一种协议封装;链路通信的时钟同步问题;数据终端设备(DTE)在数据链路层驱动程序的加载问题。,8.2.2 分层故障排除法,案例8-3:数据链路层。从链路层开始就需要对网络协议有比较清晰的了解。在网络中运行的设备一般都严格遵守分层协议,可以运用网络规程仪表对网络进行监
25、控,也可以运用本地环或者远端环对线路的质量进行检查。在以太网上,一般可以运用Sniffer对所有的包进行窃听来判断故障的位置。目前交换机普及后,也可在交换机上观察各以太口上获得的MAC地址来判断故障。链路层的信息一般和物理层的信息交织在一起,除非出现误码率高和设备运行状态不稳定等,都不需要对链路层进行排障。,8.2.2 分层故障排除法,3)网络层 网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。案例8-4:网络层。排除网络层故障的基本方法是沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络故障 分析 处理
链接地址:https://www.31ppt.com/p-2409571.html