如何使用错误预算来保护服务可靠性

在这里插入图片描述
“错误预算”描述了系统在对您的业务产生实际影响之前可以离线的时间量。错误预算与服务水平协议 (SLA) 和服务水平目标 (SLO) 一起使用,以便在系统不可用性导致违约时通知企业。

将错误预算纳入您的应用程序可靠性策略为平衡风险承担和稳定性提供了一种有条不紊的方法。错误预算承认偶尔的中断、错误的部署和简单的错误是不可避免的。他们的作用是告诉您可以忍受多少此类事件。可用的错误预算还决定了您的下一个任务是构建新功能还是解决另一个错误修复。

什么是错误预算?

服务的错误预算只是衡量它可以处于失败状态而不招致合同、财务或监管处罚的最长时间。可用错误预算来自您在发送给客户的 SLA 中承诺的正常运行时间数据。通过将错误预算建立在 SLO 上,您可能会更加严格。

  • SLA – 您公开承诺的正常运行时间,例如 99.95%。如果服务的实际正常运行时间低于此数字,大多数使用 SLA的组织将有义务向客户提供补偿。
  • SLO – 您在内部设定的正常运行时间,例如 99.99%。这意味着 99.95% 和 99.99%之间的正常运行时间数字是不可取的,并且表明需要改进可靠性。但是,它不会让您有责任补偿客户。
  • 错误预算– SLA 或 SLO 允许的停机时间量的计算。

您可以使用简单的乘法计算错误预算。例如,说明您的服务在一年内将具有 99.99% 的可用性的 SLA 为您提供了 52 分 35 秒的总错误预算。持续 30 分钟的中断不会直接影响您的业务。持续一小时的错误将超出错误预算并需要对客户进行补偿。
以下是一些其他示例:

服务水平百分比 年度错误预算 每月错误预算
99.99% 52 分 35 秒 4分23秒
99.95% 4小时

猜你喜欢

转载自blog.csdn.net/wlcs_6305/article/details/127506423