熔断与降级的那些事

在这里插入图片描述

什么熔断

熔断(Circuit Breaker)是一种用于限制系统请求的机制,其目的是防止系统在发生故障或异常情况下继续执行无效的调用,从而避免雪崩效应和进一步的系统损害。

熔断器通常用于分布式系统中的微服务架构中,它负责监控对某个服务的请求情况,并根据事先定义好的规则,在达到一定阈值时触发断路操作。当服务被熔断时,后续的请求将直接被熔断器拒绝,不再继续请求该服务,而是快速返回一个事先设定好的备选响应或错误信息。

当服务发生故障或过载等异常情况时,熔断器可以起到以下几个作用:

  1. 快速失败:通过熔断能够快速拒绝无效的请求,避免请求堆积和耗尽资源。
  2. 避免雪崩效应:及早熔断某个不可用的服务,避免由于服务故障导致的级联故障,从而保护整个系统的稳定性。
  3. 提供降级策略:在服务熔断后,可以提供备选方案或默认值,确保系统的基本功能可用,避免完全不可用。

熔断器通常会记录请求失败率、响应时间等指标,并根据这些指标动态地判断是否需要触发熔断。一旦触发熔断,熔断器会经过一段时间的休眠或半开状态,然后尝试恢复对服务的请求,以检测服务是否已恢复正常。

总之,熔断是一种保护系统稳定性和提高可用性的机制,通过监控和限制请求来防止故障蔓延以及维护系统的正常运行。

什么是降级

降级(Degradation)是一种在系统遇到异常情况或负载过高时,通过放弃某些功能或服务的方式保证系统的可用性和稳定性的策略。

当系统遭遇异常、压力过大或资源不足等情况时,降级可以帮助系统优先保障核心功能的正常运行,而放弃一些次要功能或服务。这样做可以减少对有限资源的消耗,避免系统崩溃或响应过慢,从而提高整个系统的鲁棒性和用户体验。

降级的具体方式和策略根据系统的实际需求和业务特点而定。下面是一些常见的降级策略:

  1. 降低服务质量:例如,在高负载期间可以放宽响应时间目标,允许较高的错误率或警告阈值等。这样可以降低系统处理压力,保证核心功能的正常调用。

  2. 关闭非核心功能:将非关键或次要的功能暂时关闭,以减少资源的使用和开销。例如,关闭某些可选的模块或插件,停止某些后台任务等。

  3. 提供默认值或备用方案:如果某些外部依赖服务不可用,可以提供默认值或备选方案,确保系统仍能提供基本的功能和服务。例如,返回缓存数据、使用本地计算代替耗时的远程调用等。

  4. 限流:当请求过多时,通过限制接收请求的数量或速率,防止系统超负荷运行。可以采用队列、令牌桶等算法来控制请求的并发性。

  5. 削峰平台:通过引入削峰平台,对突发流量进行平滑处理,避免瞬时高峰对系统的冲击。例如,CDN、负载均衡等

熔断和降级的联系与区别

熔断和降级是在分布式系统中用于提高系统健壮性和可用性的两种策略,它们既有联系也有区别。

联系:

  1. 均用于应对异常情况:熔断和降级都是为了应对服务故障、系统负载过重或其他异常情况而采取的策略。
  2. 都可以保护整个系统:通过熔断和降级机制,可以减少故障蔓延的风险,保护整个系统的稳定性。
  3. 旨在提高系统可用性:熔断和降级都是为了确保系统在异常情况下仍能继续提供基本功能,从而提高系统的可用性。

区别:

  1. 触发时机不同:熔断通常与特定服务相关,当该服务出现故障或超过一定阈值时,触发熔断;而降级是针对整个系统,在整个系统压力过大或资源不足时进行降低服务级别的操作。
  2. 目的不同:熔断的目的是为了迅速拒绝无效请求、防止雪崩效应,保护系统免受故障影响;而降级的目的是为了减轻系统压力、优化资源利用,保证核心功能的可用性。
  3. 操作层次不同:熔断通常在服务调用的一级进行操作,通过控制是否允许请求达到具体服务;而降级更多是针对整个系统的一级或多级服务进行动态调整。

综上所述,熔断和降级是两种具有相互补充作用的策略,在分布式系统中可以结合使用,以提高系统的稳定性和可用性。

业务场景

熔断 (Circuit Breaking) 的经典场景:

  1. 服务故障:当某个服务出现故障或响应时间过长时,通过熔断机制迅速拒绝该服务的请求,避免等待超时或资源浪费。
  2. 雪崩效应防护:当一个服务依赖于多个下游服务的同时调用,若其中一个下游服务发生故障,可通过熔断机制快速隔离故障,并返回预定义的默认值,以避免故障扩散导致整个系统崩溃。

降级 (Degradation) 的经典场景:

  1. 高并发压力:在系统访问量激增、服务器负载过重或网络拥堵等情况下,通过降级策略暂时关闭某些非核心功能或限制部分用户的访问,以保证核心功能的稳定运行。
  2. 资源不足:当系统资源如数据库连接、缓存空间等不足时,可以通过降级策略暂停某些不是紧急需求的服务或功能,从而优化资源利用和保证核心功能的正常运行。

需要注意的是,熔断和降级是根据具体系统需求和实际情况来确定的,不同的系统可能有不同的适用场景和策略配置。在设计和实施时,需要综合考虑系统的可用性、性能、资源利用和用户体验等因素。

联系实际

对于双十一和618等大型促销活动,常涉及以下场景中的一些:

熔断 (Circuit Breaking) 的适用场景:

  1. 销售峰值:在促销活动期间,网站或应用程序可能面临巨大的用户访问量激增,这会给系统带来巨大的压力。如果某些关键服务无法处理如此高的并发请求,熔断机制可以被触发,拒绝一部分请求并返回友好的错误提示,以避免整个系统的崩溃。
  2. 渠道/支付故障:在线购物活动中,支付渠道的可用性至关重要。如果支付渠道出现故障或延迟,熔断机制可以快速停止使用该支付渠道,并切换到备用支付渠道,以确保顺利完成交易。

降级 (Degradation) 的适用场景:

  1. 非核心功能降级:为了保证核心功能的稳定性,一些非核心功能如特殊活动页面、个性化推荐等可能会被暂时关闭或降级。这样可以减轻系统负载,集中资源在核心功能上,提供更流畅的购物体验。
  2. 广告服务降级:促销活动期间,广告请求和展示量可能大幅增加。为避免广告服务对系统性能产生过大影响,可以降级某些广告服务或限制广告显示的频率,以保证核心业务的正常进行。

猜你喜欢

转载自blog.csdn.net/weixin_53742691/article/details/131714046
今日推荐