线上防雪崩利器——熔断器设计原理与实现

前言

这是一篇根据工作中遇到的问题总结出的最佳实践。

上周六,我负责的业务在凌晨00-04点的支付全部失败了。

结果一查,MD,晚上银行维护,下游支付系统没有挂维护公告,在此期间一直请求维护中的银行,当然所有返回就是失败了,有种欲哭无泪的感觉,锅让业务来背。

为了杜绝在此出现这种大面积批量的支付失败情况发生,保障系统的健壮性。我需要个在集中性异常的时候可以终止请求,当服务恢复,恢复请求。

我想了一些方式,最后,觉得熔断器比较适合干这种事情。

状态模式

我们已一个开关为例



在每一种状态下,context不必关心每一种状态下的行为。交给每一种状态自己处理。

熔断器基本原理

熔断器是当依赖的服务已经出现故障时,为了保证自身服务的正常运行不再访问依赖的服务,防止雪崩效应


熔断器本身就是一个状态机。

关闭状态:熔断器的初始化状态,该状态下允许请求通过。当失败超过阀值,转入打开状态

打开状态:熔断状态,该状态下不允许请求通过,当进入该状态经过一段时间,进入半开状态

半开状态:在半开状态期间,允许部分请求通过,在半开期间,观察失败状态是否超过阀值。如果没有超过进入关闭状态,如果超过了进入关闭状态。如此往复。

之前,查了一些资料,网上所有的资料几乎都是针对Hystrix的。这个只是针对分布式系统的接口请求,并不能运用于我们的系统中,因此这种情况下,根据原理自己实现了一个基本的分布式熔断器,数值与计数器存放在redis中,因为redis的操作客户端不一样,我就以本地熔断器为例,讲解熔断器实现。

希望我的文章能对于理解熔断器,以及需要熔断器的人有所帮助。

简单的本地熔断器实现

一个基本的本地熔断器。

image.png

对外暴露接口

熔断器对外暴露接口


熔断器状态对外暴露接口


三种状态

关闭状态实现:



打开状态


半开状态



熔断器

抽象熔断器



本地熔断器


测试例子



结果


猜你喜欢

转载自blog.51cto.com/13732225/2286108
今日推荐