网络故障和网络诊断工具（2.0）

网络故障管理系统

使用ping的方法只能针对小型网络，在一些大型网络中一般用网络故障管理软件，一个网络的故障管理系统不但能反应网络平时运行时的故障状况，更应该在发生重大网络故障时，快速准确地报告、定位和排除故障。

网络故障管理系统包括：

navis NFM故障管理系统

netcool故障管理软件

navis NFM（network fault management）网络故障管理系统是朗讯科技网络运行系列软件中最著名的产品。其功能强大，能够提供实时故障检测和相关处理，快速定位故障，关联故障，并可提供多厂家、多技术和多业务区的集中管理。另外，“现成的方案”可以快速进行工程实施，并提供本地化的客户和技术支持。

navis NFM核心功能包括：

告警信息采集、浏览、过滤、分类等。

支持信息压缩，可根据信息发生的次数、数值、时间和分组进行压缩。

告警门限设置和级别升级（critical、major、minor、other、cleared）

自动的告警通知和告警处理功能（寻呼、发送电子邮件、生成工单、网元重新启动等）

多种颜色的故障信息显示和图形化的网络地图显示。

支持开放的接口和API（ASCII、SNMPv1~v3、CORBA、X.25、TL1）

远程登录到网元和网元管理系统

NFM可以根据用户的级别，实现分权和分级管理。系统管理员可以为不同的用户设置不同的权限，只定义该用户关心的网元的故障信息的浏览、查找、操作和远程登录等功能。每个用户用自己的账户登录系统后，只能看到权限之内的信息，以及执行被允许的各种操作。同时，NFM还备有用户使用记录，从而实现对人员使用情况的管理，加强对整个系统的安全保障。

NFM提供强大的告警抑制功能，可以对非告警类报告提供过滤；根据各种门限进行告警抑制；告警回恢复后，NFM可以自动清除原告警，并将其转入已清除告警中；对告警进行域内、域间的相关性处理等，从而大幅度地减少告警的数量，并有效地减少分析故障根源所花费的时间。

用户还可以将客户信息和服务相关数据集成到navis NFM数据库，NFM可实时地显示与故障相关的客户和服务数据信息，产生针对特定客户和服务的故障报告，并在故障影响客户之前对其进行评估。

信息时代的来临，使得计算机网络技术迅速普及和不断发展，作为信息社会的基础设施，无论各级行政机关、科研院所，还是部队、学校、企事业单位都十分重视它的建设和使用。为了更好地发挥计算机网络的作用，更好的利用已有的网络资源，就必须做好网络故障修复工作。一般的网络故障修复对管理员来说当然简单，但是专业的、深层次的网络故障只有经过专业训练，并借助专业软件和工具才能诊断，并最终排除。

网络故障诊断

网络故障诊断是管好、用好网络，使网络发挥最大作用的重要技术工作。

网络故障诊断是从故障现象出发，以网络诊断工具为手段获取诊断信息，确定网络故障点，查找问题的根源，排除故障，恢复网络的正常运行。

网络故障通常有以下几种可能：

物理层中物理设备相互连接失败或者硬件和线路本身的问题

数据链路层的网络设备的接口配置问题

网络层网络协议配置或操作错误

传输层的设备性能或通信拥塞问题

网络应用程序错误

诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行。首先检查物理层，然后检查数据链路层，以此类推，确定故障点。

故障诊断步骤

故障诊断应该实现三方面的目的：

确定网络的故障点，排除故障，恢复网络的正常运行

发现网络中的故障点的原因，改善优化网络的性能

观察网络的运行状况，及时预测网络通信质量

故障诊断的步骤如下：

（1）确定故障的具体现象，分析造成这种故障现象的原因。例如，主机不响应客户请求服务。可能的故障原因是主机配置问题、接口卡故障或路由器配置命令丢失等。

（2）收集需要的用于帮助隔离可能故障原因的信息。从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息

（3）根据收集到的情况考虑可能的故障原因，排除某些故障原因。例如，根据某些资料可以排除硬件故障，把注意力放在软件原因上。

（4）根据最后的可能故障原因，建立一个诊断计划。开始仅用一个最可能的故障原因进行诊断活动，这样可以容易恢复到故障的原始状态。如果一次同时考虑多个故障原因，返回故障原始状态就困难多了。

（5）执行诊断计划，认真做好每一步的测试和观察，每改变一个参数都要确认其结果。分析结果，确定问题是否解决，如果没有解决，继续下去，直到故障现象消失。

故障排除过程

在开始动手排除故障之前，在记事本上将故障现象认真仔细记录下来，观察和记录时一定要注意细节，因为有时正是一些最小的细节使整个问题变得明朗化。

1.识别收集故障现象

作为管理员，在排除故障之前，必须确切地知道网络上到底出了什么毛病。知道出了什么问题并能够及时识别，是成功排除故障最重要的步骤。为了与故障现象进行对比，必须知道系统在正常情况下是怎样工作的，反之，是不好对问题和故障进行定位的。

识别收集故障现象时，应该向操作者询问以下几个问题：

（1）当被记录的故障发生时，正在运行什么进程（即操作者正在对计算机进行什么操作）？

（2）这个进程以前运行过吗？

（3）以前这个进程运行是否成功？

（4）这个进程最后一次成功运行是什么时候？

（5）从那时起哪些发生了改变？

带着这些疑问来了解并分析问题才能对症下药来排除故障

2.对故障现象详细描述

当处理由操作员报告的问题时，对故障现象的描述显得尤为重要。如果仅凭他们的一面之词，有时很难下结论，这时就需要网络管理员亲自操作出错的程序，并注意出错信息。例如，在使用web浏览时，无论输入哪个网站都返回“该页无法显示”之类的信息。使用ping命令时，无论ping哪个IP地址都显示超时连接信息等。诸如此类的出错消息会缩小问题范围提供许多有价值的信息。对此在排除故障前，可以按以下步骤执行：

（1）收集有关故障现象的信息

（2）对问题和故障现象进行详细的描述

（3）注意细节

（4）把所有的问题都记录下来。

（5）不要匆忙下结论

3.对计算机设备本身的运行状况进行检查

作为网络管理员，应对计算机设备本身的运行状况进行检查：

（1）检查操作系统的运行、网络协议、网络地址的设置、网络接口设备驱动程序和设备收发网络数据包的情况。

（2）检查网络接口设备与网络接入设备的连接状况

（3）检查服务器到网络接口设备的连接状况

（4）检查网络连接设备运行状况

（5）检查网络主干设备流量状况

（6）检查端口数据流量的大小，检查重发包、错包和丢包的比例，检查设备上数据包发生碰撞的比例，检查流量情况的日志文件内容，注意拥塞控制的报警阀值设置

4.列举可能导致错误的原因

作为网络管理员，则应考虑导致无法查看信息的原因可能有哪些，如网卡硬件故障、网络连接故障、网络设备（hub）故障、TCP/IP协议设置不当等。这里需要注意的是：不要着急下结论，可以根据出错的可能性把这些原因按优先级别进行排序，一个个先后排除。

5.缩小搜索范围

对所有列出可能导致错误的原因逐一进行测试，而且不要根据一次测试，就断定某一区域的网络是运行不正常或不正常。另外，也不要在自己认为已经确定了的第一个错误上停下来，应知道测试完为止。

除了测试外，网路管理员还要注意，千万不要忘记去看一看网卡、hub、modem、路由器面板上的LED指示灯，通常情况下：

绿灯表示连接正常（modem需要几个绿灯和红灯都要亮）；

红灯表示连接故障

不亮表示无连接或线路不通

长亮表示广播风暴

指示灯有规律地闪烁才是网络正常运行的标志

同时不要忘记记录所有观察、测试的手段和结果

6.隔离错误

经过一番检查后，基本上知道了故障的部位。对于计算机的错误，可以开始检查：

该计算机网卡是否安装好

TCP/IP协议是否安装并设置正确

web浏览器的连接设置是否得当等一切与已知故障现象有关的内容。

处理完问题后，作为网络管理员，还必须搞清楚故障是如何发生的，是什么原因导致了故障的发生，以后如何避免类似故障的发生，拟定相应的对策，采取必要的措施，制定严格的规章制度。

故障原因

虽然故障原因多种多样，但总的来讲不外乎就是硬件问题和软件问题。说得在确切一些，这些问题就是网络连接性的问题、配置文件选项问题和网络协议问题。

1.网络连接性

网络连接性是故障发生后首先应当考虑的问题。连通性的问题通常涉及网卡、跳线、信息插座、网线、hub、交换机、modem等设备和通信介质。其中，任何一个设备的损坏，都会导致网络连接的中断。连通性通常可以采用软件和硬件工具进行测试验证。如某一台计算机不能浏览web，网络管理员应当考虑以下情况：

网络连通吗？

看得到网上邻居吗？

可以收发电子邮件吗？

ping得到网络内的计算机吗？

只要其中一项回答为yes，那就可以断定本机到hub的连通性没有问题。再在那台计算机上重复上述操作，只要有一项回答为yes，则肯定本机到“数据源”的连通性没有问题。当然，即使都回答no，也不能表明连通性肯定有问题，也有可能是其它问题，如计算机的网络协议的配置出现问题也会导致上述现象的发生。当然，还要看一看网卡和hub、交换机接口上的指示灯是否正常。

如果排除了由于计算机网络协议配置不当而导致故障的可能，接下来要做的事情就复杂了。查看网卡和hub、交换机的指示灯是否正常，测量网线是否畅通。

2.配置文件和选项

服务器、计算机都有配置选项，配置文件和配置选项设置不当，同样会导致网络故障。如服务器权限的设置不当，会导致资源无法共享的故障；计算机网卡配置不当，会导致无法连接的故障。当网络内所有的服务都无法实现时，应当检查hub、交换机。

3.使用诊断工具

ping无疑是网络中使用最频繁的小工具，它主要用于确定网络的连通性问题。ping程序使用ICMP（网际消息控制协议）来简单地发送一个网络数据包并请求应答，接收到请求的目的主机再次使用ICMP发回相同的数据，于是ping便可对每个包的发送和接收时间进行报告，并报告无影响包的百分比。这在确定网络是否正确连接，以及网络连接的状况（包丢失率）时十分有用。ping是Windows操作系统集成的TCP/IP应用程序之一，可以在“开始”--“运行”中直接执行。

ping 主机名

ping IP 地址

ping 本地计算机名（即执行操作的计算机）

如ping Lily 或 ping 本地IP地址；

如ping 172.0.0.1（任何一台计算机都会将172.0.0.1视为自己的IP地址）

使用ping命令后常见的出错信息通常分为以下4种。

（1）unkonwn host（不知名主机）

这种出错信息的意思是，该远程主机的名字不能被命名服务器转换成IP地址。故障原因可能是命名服务器有故障，或者其名字不正确，或者网络管理员的系统与远程主机之间的通信线路故障。这种情况下屏幕将会提示：

C：\Windows>ping www.163.net

Unkonwn host www.163.net

C：\windows>

（2）network UNreachable（网络不能到达）

这是本地系统没有到达远程系统的路由，可检查路由器的配置，如果没有路由，可添加。

（3）no answer（无响应）

即远程系统没有响应。这种故障说明本地系统有一条中心主机的路由，但却接收不到它发给该中心的任何分组报文。故障原因可能是中心主机没有工作，本地或中心主机配置不正确，本地或中心的路由器没有工作，通信线路有故障或中心主机存在路由选择问题。

（4）timed out（超时）

即台站与中心的连接超时，数据包全丢。故障的原因可能是到路由器的连接问题或路由器不能通过，也可能是中心主机已经关机或死机。此时，屏幕显示：

C:\windows>ping 10.11.1.1

ping 10.11.1.1 with 32 bytes of data:

request timed out.

ping statistics for 10.11.1.1:

packets:sent=4,received=0,lost=4(100% lost),

approximate round trip in milli-seconds:

minimum=0ms,maximum=0ms,average=0ms

C:\windows

4.使用硬件工具网络测试仪

使用网络测试仪测试网线

网络故障的内容和故障排除的步骤

网络故障的内容有：

协议故障、连通性故障、DDOS攻击、配置、设备故障。

网络故障的排除是计算机专业人员面临的最困难的任务之一。问题往往出现在工作过程中，或者在任务有限期要求的时候，要快速修复出现的问题，困难就会很大。

网络发生故障后，首先要诊断是协议故障、连通性故障、DDOS攻击、还是配置、设备故障。找到问题的来源，然后进行故障排除。

网络故障的排除过程大致可分为5个步骤。

（1）定义问题

这一步非常重要，却经常被人们忽视。如果对整个问题没有进行全面的了解，就有可能将大量的时间花在对症状的研究上，而不是对问题的原因进行探讨。这个阶段所需的工具仅仅是纸、笔和良好的接受能力。听取客户或者网络用户的意见是最好的信息来源。记住，尽管您可能知道网络是如何工作的，并且可以发现故障的技术原因，但那些每天都在使用网络的人在问题出现之前或者之后都在网络上工作，并且可能会回想起导致故障的事件。通过从他们的意见中汲取信息，可以从纷繁复杂的各种可能的故障原因中理出头绪。列出故障发生之前的事件发生顺序将有助于了解问题。您可以希望能建立一张表格系统地向用户提出以下一些问题（具体问题将由具体的情况而定）：

您是在何时注意到问题或者错误的？

计算机最近是否进行了移动？

最近是否在软件或者硬件上有所更改？

工作进行了变化吗？是否有某些东西砸在计算机上面？咖啡或者苏打水是否曾经洒在键盘上？

问题发生的确切时间是什么时候？是在启动的过程中吗？在午餐后？仅仅在星期一的商务活动中？在发送电子邮件之后？

您可以使问题或者错误再现吗？如果可以，怎样产生错误？

问题或者错误的症状怎样？

描述计算机的任何变化（如噪声、屏幕更改和磁盘工作状况等）

用户（甚至那些没有技术背景的人）在收集信息的过程中都可能非常有帮助，只要您有效地对他们提出一些问题。例如，你可以问他们当网络出现何种表现时让他们感觉到出现了问题。用户的观察可能会构成解决网络问题的基础。这些问题包括：

“网络真慢”

“我不能连接到服务器”

“我曾经连接到服务器上，但是后来又掉线了”

“我的一个应用程序不能运行”

“我不能打印”

当您继续提出问题的时候，就可以逐步缩小范围

（2）找出原因

这一步是隔离问题。首先排除明显的问题，然后再排除复杂的、隐晦的问题，目标将重点缩小为一个或者两个分类之内。

要确保您亲眼见到故障。如果可能的话，让某人为您演示一下发生错误的情况。如果这是一个操作人员引起的问题，那么很重要的一点是观察问题是如何发生的，以及问题造成的后果。

最难以隔离的问题是间断性发生的问题，并且，它们似乎从来不在您在场的时候发生。解决这类问题的唯一办法是重新创建产生问题的环境。有时，使用排除法是最好的方式。这个过程需要时间和耐心。用户也应该对问题出现之前和期间的所做所为进行记录。这可以有助于告知用户在计算机出现问题的时候不要对它进行任何操作，并且及时通知您，这种方式可以保证现场不被破坏。

尽管收集的信息为隔离问题提供了基础，但管理员也应该参考记录的基准信息，并与当前的网络操作进行比较。在与创建基准条件相同的环境下重新进行测试，然后比较两个结果。两者之间的任何变化都可能指示出问题的原因。

信息的收集包括对网络进行扫描，以及寻找问题的明显原因。快速扫描包括对网络的历史记录进行查询，以确定问题以前是否发生过，如果是的话，是否存在记录在案的解决办法。

（3）计划修复

在缩小了研究的范围之后，就可以开始下一过程：排除

根据目前已经掌握的情况制定一个隔离问题的方法。首先尝试使用最显而易见的或者最简单的方法进行排除，然后再采用更复杂和麻烦的方法。必须对过程中的每个步骤都进行记录，以及每个操作和该操作的结果。

在制定好计划后，必须严格遵循计划的步骤。随意的行为可能会导致问题的出现。如果第一个计划没有成功（非常有可能），那么，应在先前计划的基础上重新制定一个计划。一定要对前一个计划中所做的任何假设进行参考、重新检查和重新评估。

在确定了问题后，或者对缺陷进行修复，或者替换有缺陷的部件。如果问题是与软件有关的，那么一定要对前后的变化进行记录。

（4）证实结果

在进行修复之后，如果没有证实结果如何，就不能下结论说已经成功地完成了任务。您应该确保问题不复存在了。请用户对问题的解决进行测试和验证。您也应该确保修复没有带来新的问题。不仅要证实您已经修复了问题，而且要确保您的操作没有对网络的其它任何部分带来负面影响。

（5）对输出进行记录

最后，对问题和修复进行记录。记录故障排除过程的收获非常有益。没有任何东西可以去掉您排除故障的经验，并且，每个新问题都为您提供了一个丰富经验的机会。在您的技术资料库中保留了一个修复过程的备份。这样，当问题（或类似问题）再次出现的时候就非常有用了。对排除故障的过程进行记录是建立、保持和共享经验的一种方式。

要记住，您所做的任何更改都可能会影响基准条件。您可能需要对网络的基准进行更新，以备未来出现问题时使用。

如果对网络统计数字和症状进行初步了解之后，还不能提出一个明显的问题，那么排除故障的下一步就是把整个网络分为较小的部分，以帮助隔离出问题产生的地方。