如何提高线上服务可用性

上一篇文章中我简单介绍了一次线上服务的可用性下降追查过程，今天我们接着上次的内容来学习如何保证服务的高可用性。

具体分为开发阶段、测试阶段、上线阶段、监控阶段等几大项。这些内容就像是一套组合拳，练好了你也是一个江湖高手了。哈哈！

遵循（公司/业界）代码编写规范，并通过git进行版本管理；代码git 合入前需要经过他人的code review；经过专业漏洞扫描工具的评估，不存在明显的注入漏洞
各种容错调度机制完善，有完整的重试机制（但不能无限重试）、健康检测、心跳检测
功能解耦、上下游解耦，核心服务和非核心服务解耦
防攻击，如果是直接部署在外网环境下一定要开启服务器的防火墙功能。

通过运营商或公司内部的监控快速定位服务，先通报，后止损，最后追查问题。

一定要保证自己第一时间收到报警。

根据服务可用性下降应急预案，快速响应，大致有以下几种。

备份永远是第一位的！备份永远是第一位的！备份永远是第一位的！重要的事情说三遍！！！

备份就是你的“后悔药”，不到事故出现的那一刻，你永远不知道备份的重要性。当然，一定要保证你之前的备份是有效的。

前事不忘后事之师，做好事故复盘。

如果是流程规范问题，加强完善流程规范；如果是机器流量等问题，扩充（下掉）机器；

以上总结的是本人日常工作中在实践运用的，分享出来希望对大家有帮助！

扫描二维码关注公众号，回复： 4594362 查看本文章