关于运维之故障复盘篇-Case Study - 代码天地

关于运维之故障复盘篇-Case Study

其他 2019-07-01 00:18:15 阅读次数: 0

关于故障的事后复盘，英文名 Case Study是非常有必要做的，当然是根据故障的级别，不可能做到每个故障都Case Study，除非人员和时间充足；

文档能力也是能力的一种，一般工程师的文档能力比较薄弱或者一般，但是一般各种类型的文档其实都有模板，根据模板填充内容也能事半功倍。

故障要有记录，每个公司应当都有wiki，这些复盘应当记录下来，能学习到很多。Case Study会占用大量的时间，但是中级以及重大故障还是有必要的。

下面介绍的就是复盘的整体套路：

故障描述

xxx业务状态码报警，存储MySQL3台云主机宕机， 根本原因是所在的宿主机宕机.

故障复盘

16:00 故障开始
16:02 发现xxx 状态码报警
16:03 op查看报警，web机器正常，同时收到三台数据库机器down机报警.
16:06 xxxxx
16:11 云厂商反馈3台云主机所在的物理机异常宕机，目前运维同事在紧急处理
16:14 云厂商反馈物理机正在启动中
16:22 金山反馈启动成功，并进行热迁移工作
16:23 云主机机器启动，启动数据库报警 （此时5xx状态码报警恢复）

原因：

云主机所在的宿主机物理故障导致多台服务器同时宕机.

影响面

1. 故障时间： 06/16 16:00 ～ 06/16 16:23 （此时间段是宕机时间 23min ）

2. 影响服务： xxxx

3. 损失率： 11.35%

错误总计： 66312

请求总量: 584472

后续优化

将云主机打散，分布在不通的物理主机上.

以上是一个简单的故障复盘模型，第一步是先根据时间线还原整个故障开始到结束的过程，第二就是找出问题点（root cause），第三就是看有什么具体的改进措施以及优化，避免再次出现同类故障。

猜你喜欢

转载自www.cnblogs.com/topicjie/p/11111805.html

关于运维之故障复盘篇-Case Study

salesforce case study

Regression: Case Study

Case Study - 预测肺癌

Case Study - 用户复购行为预测

Of Study

study(*)

study

XI Case Study - IDoc to IDoc

VM escape - QEMU Case Study

XI Case Study - IDoc to File - File to File

ML Lecture 1: Regression - Case Study

1、Regression - Case Study（回归-案例分析）

PROJECT BRIEF Movie Store Case Study

做好case study最关键的是什么？

Case Study: 技术和商业的结合点在哪里？

The insecurity of home digital voice assistants -amzon alexa as a case study

【机器学习（李宏毅）】二、Regression: Case Study

build case study 提示 the java db location is not set correctly

Rocket - 断句 - Diplomatic Design Patterns: A TileLink Case Study

【ASE模型组】Hint::neural 模型与case study

留学生如何搞定Case Study？

C2-Week 2 Quiz - Autonomous driving (case study)

关于RWS（real-world study）有感

Git Study

study container

Internet study

PHP STUDY

hcatalog study

HDFS study

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)