疑难网络故障处理记录-链路聚合组的异常降速

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/firehadoop/article/details/87938889

   今天处理了一个以前没有遇到也没有想到的关于链路聚合配置隐患导致的链路故障,总结如下供大家参考。

   一、网络拓扑图

二、故障现象

     内网出口网速突然变慢,通过SPEEDTEST测试红色链路出口实际测速无法突破100M,实际出口带宽应为1G。

三、故障排查思路

1、排除客户机网卡性能问题

  通过调整防火墙A的静态浮动路由设置,使客户端出口同时通过防火墙A与防火墙B出口,此时测试网速可以达到200M,单独测试防火墙A出口或防火墙B出口的流量都只有100M,这说明本地网卡是可以吞吐大于100M的网络流量。

  其实也可以在本地查看网卡的物理连接或在接入交换机上查看网卡对应端口的物理连接来识别网卡连接速度。

2、排除出口带宽限速问题

   通过找电信维护人员,通告实际出口IP地址,请其查询IP地址是否限速,回复没有对IP地址进行限速,因为这条链路是共享链路实际出口有20G,刚调通时实测确实没有限速,所以正常情况下确实不会人为限速。

3、排除内网网络故障

交换机一聚合配置

interface Bridge-Aggregation1
 description to_vip5554-dist
 port link-type trunk
 undo port trunk permit vlan 1
 port trunk permit vlan 101 103 107 110 125 to 126 199 304 382 426 501 
 port trunk permit vlan 505 1001 1010 to 1012 1260 1501 3000 to 3010 4001
 link-aggregation mode dynamic

交换机二聚合配置

interface Bridge-Aggregation1
 description to-vip5554-center
 port link-type trunk
 undo port trunk permit vlan 1
 port trunk permit vlan 101 103 107 110 125 to 126 199 304 382 426 501 
 port trunk permit vlan 505 1001 1010 to 1012 1260 1501 3000 to 3010 4001
 link-aggregation mode dynamic

查看端口实际运行状态,发现链路聚合组实际运行带宽只有100M,就是因为聚合带宽的下降导致两台H3C5554交换机之间流量最大只有100M,聚合组成了两边网络的速率瓶颈。

接着使用disp int brief查看 链路聚合组物理端口状态,发现聚合组的第一个物理端口链接速率从1G变成了100M,导致

整个链路组的速率都下降为100M,故障原因找到了,是因为链路组中的一个端口速率下降导致整个链路组被降速至物理连接端口中最低速率

四、故障分析 

  1、链路聚合回顾

     链路聚合适用于并行组合(聚合)多个网络连接的各种方法,以便增加超出单个连接可以维持的吞吐量,并且在其中一个链路发生故障的情况下提供冗余。链路聚合组(LAG)将多个物理端口组合在一起构成一条高带宽数据路径,实现组内成员端口之间的流量负载分担,提高连接可靠性。术语包括端口中继[1] 链路捆绑[2] 以太网/网络/ NIC绑定[1]信道绑定NIC组合

2、链路组降速原因分析

a、测试链路组物理端口全部自适应模式情况下,任意物理端口降速后,链路组状态

交换机两侧的物理端口全部自适应模式,将其中一条物理链路手工设置为100M,查看链路组状态如下:

b、测试链路组物理端口全部强制1000M全双工模式,任意物理端口降速后,链路组状态

 

 交换机两侧的物理端口全部1000M全双工模式,将其中一条物理链路设置为100M,查看链路组状态如下:

查看链路组实际物理端口连接状态,发现被手工降速的端口直接DOWN掉:

五、总结回顾

1、原因总结

       链路聚合组原则上必须采用相同速率的物理链路进行聚合,如果链路组中存在不同速率的物理链路,则整个链路组向下兼容至最低物理链路的速率,这个是链路聚合使用过程中的风险点,一旦链路聚合组中的物理端口速率发生变化将导致整个链路组的速率变差。除非物理端口的速率只要发生变化就自动DOWN掉,这种情况下才能起到链路聚合的端口保护效果。

2、总结提高

     考虑到上面总结的关于链路聚合原理,凡是链路聚合配置要求物理端口必须被设置为强制物理最高速率且全双工模式,这样可以保证一旦聚合组内的物理端口因为外部网络环境影响导致端口不会降速而是直接DOWN掉,最终不会拖累整个聚合组的速率下降。

猜你喜欢

转载自blog.csdn.net/firehadoop/article/details/87938889