外围环境对linux系统性能的影响

今年年初刚来到目前这家公司时,一个十五平米左右的小机房,摆了两个服务器机柜,一个网络机柜,里面放满了服务器,一个不给力的空调费劲的吹着不冷的风,噩梦就这样开始了。

三月底的北京,还算是比较冷的,可是我们的机房却不冷,空调吹出来的风还没室外的风凉,当时机房的温度估计在30度左右,温度这个问题当时是我一个最大的心病,在接下来的两个多月中,服务器的故障率非常高,平均每周都有服务器出现故障,经过统计,从我刚来公司,到机房温度问题得到解决这段时间里,有29次服务器故障,其中2次硬件故障,5次服务器性能问题,7次服务器死机,4次服务器宕机,11次服务器重启。在这段时间里干着非常被动的运维工作,在机房温度这个大问题没有解决的情况下,每次服务器出现故障都要明确找出故障原因给领导汇报,除了服务器重启和宕机还有硬件故障在惠普ilo里有明确的记录外,服务器莫名其妙出现性能问题,莫名其妙卡死、宕机,虽然在linux 日志里有相应的记录,可大多是一篇一篇看不懂的信息,却没有明确表明是温度引起的(虽然这个时候机房温度偏高)。两次硬件故障分别是电源模块坏了,网卡坏了,领导一方面质疑硬件质量,一方面想知道为什么坏了,却不关心机房温度已经破30了,无奈通过惠普服务器ilo收集服务器一个星期的温度情况,做成曲线图给领导看,得到的回复是新机房正在规划,再坚持一段时间,随着时间的推移,北京的天气也变热了,机房温度升到了34、35、36度,服务器机箱内的温度也长期维持在40度以上,45度就要宕机的呀,眼看服务器实在受不住了,跟领导汇报后,这才又买了一台空调,两台空调温度调到最低,之后,服务器几乎再没有出现过问题。

回头看看那两个月被动的工作,心有余悸,但是也让我在linux服务器故障排查方面有些感悟。在有几次服务器莫名出现性能问题,莫名宕机时,linux系统也记录了相关的日志信息,把这些日志信息放到google一查,也有人遇到了一样的问题,在网上讨论问题原因,大多数回复是根据日志信息字面上的问题做出相应的猜测,他们做出那样的猜测不无道理,不过他们的思路局限在了linux系统,忽略了linux系统之外的大环境(服务器硬件,机房环境,网络环境等)。

在我接触到的问题中,有不少是由于系统以外的问题导致系统不正常的,所以我觉得在做linux系统运维时,当服务器出现问题,除非明确是系统问题,否则故障的排查应该从外往内,既从外围的机房环境(温度,湿度等)到网络环境(需要有一定的网络基础),到服务器硬件(磁盘,raid卡、网卡,内存等),再到操作系统,这样才能准确又快速的找到问题的原因。

猜你喜欢

转载自2482696735.iteye.com/blog/2262268