如何快速定位数据中心链路故障

加速布局新型基础设施建设,正成为中国实现多重战略目标的关键之举。数据中心(IDC)作为数字基建的地基工程,进入了“争分夺秒”的建设期,人才紧俏度急速攀升,甚至一些数据中心龙头企业的员工已被点名“挖角”。

现在的系统规模越来越大,以前银行可能几台大机和几台小机就够了,现在分布式。昨天老领导说亚马逊有 500 万台服务器,阿里有 200 万台服务器,这个数量级和以前是完全不能比的。技术架构越来越复杂,以前可能是一个单机,现在虚拟化加上容器,整个应用的复杂度呈指数级增长。面对故障时实时性的要求越来越高。以前银行ATM机取不了钱打个电话投诉我们处理,但是一天同时会有多少人在 ATM 机取钱?现在大家用手机随时随地进行交易、转账,一旦出现问题就会有投诉,如果几分钟之内解决不了还会有更大的投诉。比如钱要拿去炒股,影响我赚钱,要赔偿损失,这都是真实的案例。影响程度越来越大。阿里云出现一些小故障可能会导致整个地区的服务器用不了。程序员说这个应该没什么问题吧,就手工执行了一个配置,结果都挂了,影响很大。阿里云、AWS、微软、腾讯、谷歌都出现过故障和问题,我们要做的是怎么去应对。系统越复杂越容易导致失控的连锁性的反应,我们对故障越来越难以预测,什么时候故障会出现,我们是无法预计的。

对于运维人来说压力特别大,监管要求越来越严格。在传统银行,一个故障超过30分钟必须向银监会报备,报备是行长带着科技老大去解释,这种压力会传导到底下做运维的人,我们会有一个生死线,如果30分钟之内解决不了可能今年的绩效就没有了。运维的资源越来越多,传统银行好一点5万台,互联网公司百万台很正常。故障影响越来越大。排查问题也越来越难,以前就几台服务器很容易,现在靠人工去查根本不可能。业务要求越来越快,甚至今天上午提出的需求晚上能不能帮我实现,这是非常实际的案例。

因此我们说运维人员不仅紧缺而且面临的压力也越来越大,大家之前做运维时,靠人去做事情的时候很容易发生错误,这是不可避免的,如果我们能将手工去做的事情自动化,这样就可以减少由手工操作带来的负面影响,可以降低人工操作的风险。

耐威迪机房设备与线路可视化运维管理平台能够代替大部分人为工作,例如:设备上下架之前传统的运维方式是运维人员需要现场勘查机房容量,设备应该上架在哪些机柜的哪些U位,设备的剩余端口容量等等,如果有了耐威迪机房设备与线路可视化运维管理平台系统就省去了运维人员现场勘查这一步骤,因为系统是与数据中心机房现场场景真实一致的,运维管理人员只需要在系统上做勘查之后再做规划,规划做好之后生成工单发送给具体实施人员,规划做好的同时相当于运维记录也做好了,长此以往就保证了数据的准确性,电子化存档方式的优势是多年后也可以轻松去查找需要的数据。
在这里插入图片描述
在这里插入图片描述
对于意外和不确定性我们可以排斥可以预防,但是意外和不确定性是人生的常态。意外肯定会发生,我们要做的是直接应对。我们希望的是在面对不确定性时能够尽量避免更大的损失。耐威迪机房设备与线路可视化运维管理平台能够快速定位故障,对于数据中心来说各种线缆的连接是较为复杂的,一根光缆或者网线的本端端口和对端端口分别连接在哪些设备,中间经过了哪些链路,这些设备分别位于哪个机房和机柜,以上信息在故障发生时是非常关键的,也是查找起来最难的,耐威迪机房设备线路可视化系统能够根据线缆或者设备的其中任何一条属性快速定位检索需要查询的内容,相比传统的看EXCEL表格或者图纸的方式效率提高了很多倍,故障处理的时间大大缩减,因此提升了数据中心整体运维效率。在这里插入图片描述
在这里插入图片描述
姚艳艳

猜你喜欢

转载自blog.csdn.net/NWVDI/article/details/109645117