系统故障处理

前些天看到caoz一篇文章出了bug怎么办提到bug修复问题，之后airbnb的朱赟发了当工程师收到了 Bug Report ，都谈到了bug修复的问题。互联网行业面对的用户量较大，程序中可能有的bug最后都会在线上出现；如果bug的影响范围变大，则会演变成线上故障，造成较大范围的业务影响。

前段时间在团队内整理了一份线上事故处理的流程，修改后在这里分享。

这个是获取故障最常用的手段。
一般的系统正常运营过程中都会有一定的指标监控。如：在系统层面某种报错出现的次数，系统常规指标，如可用内存，JVM GC，连接池等信息；业务指标，如业务的曲线异于基准线。

如配置一些基本的业务曲线：

当业务曲线发生异常抖动的时候，就可以主动报警，可以实时的开发
这种报错出现之后比用户反馈的要好排查，因为这种bug影响范围较大，可重现的。

这里的用户主要是公司的客服人员，一般客服人员会手机普通用户的问题，并做分类统计，如果发现某种现象比较集中，就很可能是系统出现故障。

一般当系统&业务监控不够全面的时候会部分依赖用户反馈来发现系统问题。

收到故障报告之后需要迅速判断故障的影响范围，系统/业务报警类的故障影响范围都会比较大，很多时候都会是事故；用户反馈的bug，因为情况复杂，比如设备问题、网络问题、用户操作逻辑等，而且因为用户并非专业人员所以用户的现场数据难以收集全面，所以针对这类bug的影响范围就难以判断。

针对第二种bug的影响范围判断，需要根据已有的用户描述现象以及相关后台数据，判断用户是在什么情况下出现这种bug；特别需要检查后台数据是否大量类似数据，以辅助判断bug是否为大范围影响，是否已经达到事故的影响范围。

这个是线上处理最常用也是最管用的三种方法。

根据我的工作经验，线上近80%的故障是因为新上线导致的，所以遇到线上问题的时候，如果短期内有项目上线，如果该故障影响范围较大，需要优先考虑将项目回滚或者将新功能的入口关闭以降低风险。

还有一些故障是系统运行到一段时间后系统自身的连接池，内存等耗尽，为了尽快解决问题需要马上重启；不过为了后续继续分析问题，一般会留一台线上机器尸体做后续分析。

还有一些问题是线上流量突然增大，如运营活动上线，这时候需要联合运维一起判断，该如何扩容来解决问题。一般的扩容方式是增加线上机器，增大数据库连接池，增加数据库读库等方式。

事故出现之后，首先要考虑的就是消除线上现象，这时候需要一些降级方案或者临时方案，可以让系统继续运行，不影响后续用户的正常使用。

比如用户进入一个native的列表页，这个列表页频繁的crash，可以app已经发版了，已经较大范围的影响了用户，这时候如果有个h5的页面可以替换，直接在服务端决定使用哪种页面，就可以有效消除故障。

降级/临时方案一般是通过削减非必要功能来保证核心功能的正常运行，比如h5页面替代native之后，通过降低体验可以让用户继续使用功能。

经过以上处理之后，线上故障基本消除了，但有些故障需要深入分析之后才能根除；还有些故障修复之后，但会有些脏数据已经写入，需要针对这些脏数据针对性的修复。有些在虽然消除了线上出错，但还需要继续对代码进行调整以消除bug。
一般事故后处理主要包括以下内容：

线上脏数据处理，挽回可挽回的损失

一些事故会造成实质性的经济损失，其中部分经济损失可以通过技术手段挽回。比如在给商家结算打钱的时候多打了，这部分钱可以通过正常反结算方式追回；或者一些用户在未付款的情况下购买商品成功了，针对这部分订单可以通过取消订单的方式挽回。
测试环境复现bug，分析事故原因

尽量在测试环境复现bug，这样可以仔细分析bug的根本原因，一般代码逻辑导致的bug在测试环境都可以复现。但一些bug只会在特定情况下才会程序出现，比如流量达到一定阈值之后，会触发JVM的GC问题等；针对这种问题优先分析线上日志信息及系统监控信息，分析线上留下的机器实体，之后再试图在测试环境复现。
修复及优化措施

代码逻辑bug的修复，通过正常的业务测试正常上线即可。针对上面系统问题导致的，可以灰度上线一台机器以验证是否解决了问题。
事故报告
不再详述。