RocketMQ 集群告警

前言

​对集群健康状况、使用主题、消费组资源的巡检,发现达到阈值则发送告警信息给管理员或者资源申请者。监控是告警的基础,告警的巡检基于前面两篇文章中监控采集到的数据。

​告警的重要性不必过多地赘述,RocketMQ 集群往往承载着公司核心业务流转。如果集群不可用往往影响是全公司的业务,事故责任是公司最高级别的。

本文从告警项的设计、告警流程、告警实战给出指导建议,在实践中以此为思路扩展完善,实现自己公司的定制化告警。

告警项设计

下图分别从主题、消费组、集群维度罗列了比较重要的告警项以及触发条件包括哪些方面。

触发条件

  • 触发阈值:超过某个特定的数值,例如:消费积压超过 10 万。
  • 时间间隔:间隔多久检测,例如:5 分钟内消费积压超过 10 万。
  • 触发次数:在时间间隔内满足阈值的次数,例如:5 分钟内消费积压超过 10 万,触发了 3 次。
  • 告警时间段:收到告警通知的时间范围,例如:在 9:00-22:00 之间收到告警信息。

主题告警

发送速度:当发送速度满足触发条件设定的阈值时发送告警信息。

例如:5

猜你喜欢

转载自blog.csdn.net/prestigeding/article/details/109335905