雪崩效应及其常见场景和解决方案

一、什么是雪崩效应？

在分布式系统架构中，多个系统之间通常是通过远程 RPC 调用进行通信，也就是 A 系统调用 B 系统服务，B 系统调用 C 系统服务等（实现方式有 Spring Boot + Dubbo 实现微服务调用，以及各个公司自研的一些 RPC 框架等）。当下游应用 C 发生故障，而系统 B 没有服务降级的时候就可能会导致 B，甚至系统 A 瘫痪，这种现象被称为雪崩效应。

二、雪崩效应常见场景？

硬件故障：如服务器宕机，机房断电，光纤被挖断等。
流量激增：如异常流量，重试加大流量等。
缓存穿透：一般发生在应用重启，所有缓存失效时，以及短时间内大量缓存失效时。大量的缓存不命中，使请求直击后端服务，造成服务提供者超负荷运行，引起服务不可用。
程序BUG：如程序逻辑导致内存泄漏，JVM 长时间 FullGC 等。
同步等待：服务间采用同步调用模式，同步等待造成的资源耗尽。

三、雪崩效应常见解决方案

针对上述雪崩场景，有很多应对方案，但没有一个万能的模式能够应对所有场景。针对不同场景分别有不同的解决方案，如下所示。

硬件故障：多机房容灾，跨机房路由，异地多活等。
流量激增：采用自动扩缩容以应对突发流量，或在负载均衡器上安装限流模块。
缓存穿透：缓存预加载、缓存异步加载等。
程序BUG：修改程序bug、及时释放资源等。
同步等待：资源隔离、MQ解耦、不可用服务调用快速失败等。资源隔离通常指不同服务调用采用不同的线程池；不可用服务调用快速失败一般通过超时机制，熔断器以及熔断后降级方法等方案实现。

流量控制 的具体措施包括：

网关限流
用户交互限流（采用加载动画，提高用户的忍耐等待时间；提交按钮添加强制等待时间机制。）
关闭重试

服务调用者 降级服务 的措施包括：

资源隔离（主要是对调用服务的线程池进行隔离）
对依赖服务进行分类
不可用服务的调用快速失败

【本篇文章在创作时参考了如下链接】
熔断器 Hystrix 的原理与使用
 Hystrix原理与实战

飘然雨季

发布了32 篇原创文章 · 获赞 11 · 访问量 1万+

私信关注

雪崩效应及其常见场景和解决方案

一、什么是雪崩效应？

二、雪崩效应常见场景？

三、 雪崩效应常见解决方案

猜你喜欢

三、雪崩效应常见解决方案