优维EasyOps产品使用最佳实践:Agent存活性监控

 优维EasyOps平台内置Agent存活性监控啦!

Agent作为自动化/监控底层核心组件,它的可用性直接影响了上层功能的使用,故我们会非常关注它的状态。但如果有网络波动、Agent升级或机器故障等都可能导致Agent异常,这时用户希望这种异常能够及时通知到平台运维负责人,以便于他能够及时感知并处理。过去我们平台一直没内置Agent状态存活的监控,现场人员为此使用了各种旁路的方式去做监控,而旁路的方式并不能实时可靠的感知到Agent状态的变化,现在平台内置了此功能将彻底解决这个问题!

负责管理Agent状态的组件(gateway)直接将内存状态数据暴露出来当做指标进入告警处理链路流,从而上层可利用此配置告警。另外,Agent状态是触发沿上报,所以会非常的灵敏。

适配发行版:6.19.0!

1.说明

Agent是Easyops平台上负责客户端代理的组件,它能够实现监控采集、资源发现和工具执行等功能。由于Agent的存活性对系统运行非常关键,Easyops平台内置了对Agent的监控功能,包括以下指标:

 这些指标在Easyops平台中默认进行采集,无需额外配置策略,只需要简单配置相应的告警规则即可。

2.告警规则配置

⑴ 新建告警规则:首先,需要创建一个告警规则来定义监控的目标范围,即您希望监控的主机范围。

 ⑵ 设定告警指标:在告警规则中,选择"主机Agent状态"作为告警指标,并将阈值设定为"不等于正常"。这样一来,当Agent状态异常时将会触发告警。

 ● 请注意:Agent状态的指标每小时上报一次,并且可以基于触发条件(状态变化)进行即时触发。换句话说,当Agent状态从"正常"变为"异常"时,将立即触发指标值的变化。为了确保准确性,触发判断填写一个数据点来进行触发。(如果填写两个数据点,那么异常状态至少维持1小时才会触发,这样告警延迟过大。)
这意味着即使指标每小时上报一次,一旦状态发生变化,系统会立即捕捉到这个变化并触发相应的动作。这样设计的目的是确保对Agent状态的监控是及时且敏感的。因此,您可以依靠这个特性来快速发现并处理Agent状态异常的情况。

 ⑶ 添加告警丰富信息:您可以为告警添加更多的信息,以便更清楚地描述告警的内容和上下文。

 ⑷ 设定告警模板:为告警消息设定模板,使其包含关键信息并具有易读性。

【SLO事件告警】{ {time|ts2str:'%Y-%m-%d %H:%M'}} 产生「{ {levelName}}」级别告警

告警资源:{ {target}}

告警等级:{ {levelName}}

告警信息:『 { {originContent}} 』

运营负责人:{ {instance|jsonpath:'$.owner[*].name'|unique|join:','}}

告警首次发生时间:{ {startTime|ts2str:'%Y-%m-%d %H:%M'}}

距离首次告警的持续时长:{ {duration|duration_format:'zh'}}

事件详情:http://修改为您的平台地址/next/events/{ {eventId}}/detail

策略详情:http://修改为您的平台地址
/next/events/alert-rule/alert-rule/{ {ruleId}}/edit

保存配置后,当agent状态异常时,您将收到如下告警(以钉钉告警为例)

告警

 恢复

猜你喜欢

转载自blog.csdn.net/EasyOps_DevOps/article/details/131729193
今日推荐