运维累是有原因的——故障自愈的应用实践分享

企业开发 2023-06-18 19:58:34 阅读次数: 0

【摘要】运维累都是有原因的，此时就可以轮到故障自愈出场了。

背景

最近晚上23:00甚至是凌晨总收到告警通知：磁盘可用量低于20%，这个时候不得不爬起来处理告警。当然这里要提醒大家：对于小问题，运维也绝不要抱着侥幸的心理，因为只有痛过才知道。

磁盘类告警只是我们诸多告警中的冰山一角，虽然我们有值班人员甚至是运维团队支撑，但是也不能因为这种小问题就分散注意力，这时我们就需要考虑如何通过自动化实现。

针对这种情况，我们通常会想到以下几点：

▪ 在告警机器上设置定时任务；

▪ 编写脚本压缩日志或清理磁盘空间。

这种方案虽然可行，但是试想下：如果我们管理的是上千台机器且目录结构混乱，那么我们面临的将是上千个脚本及定时任务，这个工作量是非常大的。

运维累都是有原因的，此时就可以轮到故障自愈出场了。

故障自愈

如图所示，对于生产故障，运维标准的处理流程是收到告警、登录跳板机、故障处理、故障恢复，整个过程都是通过人工手动处理。而故障自愈则是接受监控平台的告警定位，匹配预设的故障处理流程，进而通过自动化手段实现故障的自动恢复。

在认识故障自愈后，我们需要考虑的就是如何让运维管理的生产环境更广泛的接入故障自愈，而不是只针对单一的机器或某一类故障。因此在正式接入故障自愈前，我们还有很多的工作要

猜你喜欢

转载自blog.csdn.net/weixin_70923796/article/details/131199859

运维累是有原因的——故障自愈的应用实践分享

通过运维编排实现自动化智能运维与故障自愈

通过可视化运维配置，实现故障秒级自愈

DevOps运维实践分享

运维经验分享：故障处理方法总结

特来电自动运维应用实践

运维故障汇总

遇到运维故障，有没有排查和解决故障的正确流程？

运维故障管理的思考

【经验分享】银行应用运维平台设计与建设建议

IT运维干货分享

运维技能分享

分享it运维经验

智能运维根因分析应用实践

开源运维监控系统-Nightingale（夜莺）应用实践（未完）

《DevOps故障排除Linux服务器运维最佳实践》pdf 附下载链接

AIOps 如何优雅服务应用运维？看民生银行智能运维实践与探索

TOP100summit分享实录 | 如何构建一套全链路的故障追踪和故障自愈系统？

运维，我想过一个没有故障的春节

Linux系统运维故障排查

日常运维故障记录和解决

阿里云故障，又是运维的锅?

Linux运维故障排查思路

MooseFs集群故障恢复运维

运维故障管理系统FMS

运维故障处理方法论

Linux运维故障排查总结

高效实践｜运维指标体系在银行业务的应用实践

故障自愈系统应当如何构建？【MySQL】

故障自愈了解一下

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)