Linux: nework: switch: 业务量上来之后对外的网络包有延迟问题一例; SFP

之前碰到一例说,客户的网络部署已经就绪,只差把业务量提上来,验证整个网络的容量。
但是当用户将业务切过来之后,在高业务量的时候,各个网元就会出现网络延迟的现象,导致业务无法继续。来来回回试了几次都是在高业务量下出现问题。

客户的技术经理也是一个狠人,放下狠话:再不解决,就要替换另一个厂商的产品,所有的网元都换!这是赤裸裸的恐吓:)。大家表示亚历山大,纷纷将自己的技术骨干拉进来分析。最后大家一致认为是switch出了问题,是因为switch的性能或者其他问题导致网络包数量上来之后,它处理不过来,最终导致网络延迟。而且都认为自己所负责的产品块没有问题。这就需要负责交换机的团队出来分析问题。

虽然后续不知道交换机团队,最后是怎么定位出来最终问题是什么。但是看问题的最终的解决方法是替换了交换机上的一个SFP,问题就解决了。目测这个SFP所负责的这个端口是一个对外的住业务端口。不然也不会导致多个网元出现问题。不禁感叹:看似简单的一个SFP替换,背后所要花费的人力物力,面临的风险真是非常的巨大。

SFP所具有的一般性问题:质量太差,接触不良,同步问题,内里设计的缺陷…;而且可以通过一些计数,警告来判断问题。
下面链接有说,什么时候(不)需要替换sfp,算是一个有用的参考。
https://erwinvanlonden.net/2018/04/when-to-replace-an-sfp/
https://linkompc.com/item/why-sfp-transceivers-stop-working-and-their-possible-troubleshooting-guide/16155/

猜你喜欢

转载自blog.csdn.net/qq_36428903/article/details/132844271
SFP