雪崩效应及其常见场景和解决方案

一、什么是雪崩效应?

在分布式系统架构中,多个系统之间通常是通过远程 RPC 调用进行通信,也就是 A 系统调用 B 系统服务,B 系统调用 C 系统服务等(实现方式有 Spring Boot + Dubbo 实现微服务调用,以及各个公司自研的一些 RPC 框架等)。当下游应用 C 发生故障,而系统 B 没有服务降级的时候就可能会导致 B,甚至系统 A 瘫痪,这种现象被称为雪崩效应。

二、雪崩效应常见场景?

  • 硬件故障:如服务器宕机,机房断电,光纤被挖断等。
  • 流量激增:如异常流量,重试加大流量等。
  • 缓存穿透:一般发生在应用重启,所有缓存失效时,以及短时间内大量缓存失效时。大量的缓存不命中,使请求直击后端服务,造成服务提供者超负荷运行,引起服务不可用。
  • 程序BUG:如程序逻辑导致内存泄漏,JVM 长时间 FullGC 等。
  • 同步等待:服务间采用同步调用模式,同步等待造成的资源耗尽。

三、 雪崩效应常见解决方案

针对上述雪崩场景,有很多应对方案,但没有一个万能的模式能够应对所有场景。针对不同场景分别有不同的解决方案,如下所示。

  • 硬件故障:多机房容灾,跨机房路由,异地多活等。
  • 流量激增:采用自动扩缩容以应对突发流量,或在负载均衡器上安装限流模块。
  • 缓存穿透:缓存预加载、缓存异步加载等。
  • 程序BUG:修改程序bug、及时释放资源等。
  • 同步等待:资源隔离、MQ解耦、不可用服务调用快速失败等。资源隔离通常指不同服务调用采用不同的线程池;不可用服务调用快速失败一般通过超时机制,熔断器以及熔断后降级方法等方案实现。

流量控制 的具体措施包括:

  • 网关限流
  • 用户交互限流(采用加载动画,提高用户的忍耐等待时间;提交按钮添加强制等待时间机制。)
  • 关闭重试

服务调用者 降级服务 的措施包括:

  • 资源隔离(主要是对调用服务的线程池进行隔离)
  • 对依赖服务进行分类
  • 不可用服务的调用快速失败

【本篇文章在创作时参考了如下链接】
熔断器 Hystrix 的原理与使用
Hystrix原理与实战

发布了32 篇原创文章 · 获赞 11 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/piaoranyuji/article/details/103702340