prometheus告警处理

文章目录

一.告警简介

1.工作流程

prometheus收集监测的信息

prometheus.yml 文件中定义 rules 文件，rules 里包含告警信息

prometheus 把告警信息 push 给 altermanager，alertmanager 里定义收件人和发件人

altermanager 发送文件到邮箱或微信

2.告警生命周期

定期采集监控数据

定期扫描告警规则，发现告警发给 alertmanager，prometheus 页面能看到 alert ，状态为 pending

多次发送到 alertmanager，持续时长超过告警告警规则的 for 的 alert，prometheus 页面看到状态为 firing，准备发送

firing 状态的 alert 等待 group_interval 时间聚合发送

恢复正常后，警报状态重新变回 inactive

3.告警等级

Inactive: 什么都没发生

Pending：已触发阈值，但未满足告警持续时间

Firing：已触发阈值，并满足for定义的持续时间。告警发送给接受者

4.通知方式

webhook：web回调或者http服务的推送API接口

wechat：通过微信 API发送

sns：短信

Pushover ：通过Pushover API发送

email：电子邮件

二. AlertManager组件

1.特性

prometheus是组件化工具，prometheus server只负责产生告警，并不会处理告警。 AlertManager组件就是用来处理和消费告警

Alertmanager定义告警机制，通过Slack，Email，wechat等发送警报

1.1 分组

当系统停机时,可能会成百上千的报警同时生成,这个时候就需要将这些告警信息分组了

分组：是指当出现问题时，Altermanager会收到一个单一的通知

将同类型/同一种影响的短信合并为一条来发送

1.2. 抑制

抑制：是指当报警发出后，停止重复发送初始化警告引发其他错误的警告的机制

例如当警报被触发，通知整个性能不可达，可以配置Alertmanager忽略由该警报触发而产生的所有其他警报，这可以防止通知多个或多个问题不相关的其他警报。

1.3.沉默

沉默：是指在特定时间内不要发送告警信息，比如设置23点-08点不发送任何告警信息

2.AlertManager安装

2.1 下载安装

wget https://github.com/prometheus/alertmanager/releases/download/v0.24.0/alertmanager-0.24.0.linux-amd64.tar.gz

 tar xvf -C /usr/local/ alertmanager-0.24.0.linux-amd64.tar.gz
 
 cd /usr/local/
 
 ln -s alertmanager-0.24.0.linux-amd64 alertmanager

2.2 创建service脚本

vi /usr/lib/systemd/system/alertmanager.service

[Unit]
Description=alertmanager

[Service]
ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml --storage.path=/usr/local/alertmanager/data --web.listen-address=:9093 --data.retention=120h
Restart=on-failure

[Install]
WantedBy=multi-user.target

2.3 检查配置文件

./amtool check-config alertmanager.yml


Checking 'alertmanager.yml'  SUCCESS
Found:
 - global config
 - route
 - 0 inhibit rules
 - 1 receivers
 - 0 templates

2.4 启动程序

systemctl daemon-reload

systemctl start alertmanager

systemctl enable alertmanager

3.自定义告警规则

Prometheus中的告警规则允许你基于PromQL表达式定义告警触发条件，Prometheus后端对这些触发规则进行周期性计算，当满足触发条件后则会触发告警通知

在告警规则文件中，我们可以将一组相关的规则设置定义在一个group下。在每一个group中我们可以定义多个告警规则(rule)

一条告警规则主要由以下几部分组成：

alert: 告警规则名称

expr：基于PromQL表达式定义满足告警触发的条件

for：

labels：自定义标签，允许用户指定要附加到告警上的一组附加标签

annotations：用于指定一组附加信息，比如用于描述告警详细信息的文字等。

annotations的内容在告警产生时会一同作为参数发送到Alertmanager。

summary描述告警的概要信息，description用于描述告警的详细信息。

同时Alertmanager的UI也会根据这两个标签值，显示告警信息

示例：

groups:
- name: queue-messages-warning
  rules:
  - alert: queue-messages-warning
    expr: sum(rabbitmq_queue_messages{
    
    job='rabbit-state-metrics'}) > 500
    labels:
      team: webhook-warning
    annotations:
      summary: High queue-messages usage detected
      description: "description"

4. 自定义通知模板

默认模板

https://github.com/prometheus/alertmanager/blob/main/template/default.tmpl

alertmanager.yml 中添加使用模板


global:
  resolve_timeout: 5m


templates:
  - './template/alertmanager-wechat.tmpl'

route:

  group_by: ['alertname','app']
  group_wait: 30s

  group_interval: 5m

  repeat_interval: 30s

  receiver: 'wechat'


receivers:

- name: 'wechat'

  wechat_configs:
    - corp_id: 'wwa28f62ad74db58ce'
      # 当前收件人是否接受告警恢复的通知
      send_resolved: true
      message: '{
    
    { template "wechat.default.message" . }}'
      #发送给所有人
      to_user: '@all' 
      #你的应用id
      agent_id: 1000003
      #你的应用秘钥
      api_secret: 'WtXlfif6TJjmYipx7Cg6W_tx9tVFrJm_BgDHEWEGL54'
      send_resolved: true

添加模板规则

这里定义的时间为go 语言的诞生时间！！！切记不能乱填

StartsAt.Add 28800e9).Format “2006-01-02 15:04:05”

vi ./template/alertmanager-wechat.tmpl

{
   
   { define "wechat.default.message" }}
{
   
   {- if gt (len .Alerts.Firing) 0 -}}
{
   
   {- range $index, $alert := .Alerts -}}

=========  监控告警 =========
告警程序:     Alertmanager
告警类型:    {
   
   { $alert.Labels.alertname }}
告警级别:    {
   
   { $alert.Labels.severity }} 级
告警状态:    {
   
   { .Status }}
故障主机:    {
   
   { $alert.Labels.instance }} {
   
   { $alert.Labels.device }}
告警主题:    {
   
   { .Annotations.summary }}
告警详情:    {
   
   { $alert.Annotations.message }}{
   
   { $alert.Annotations.description}}
主机标签:    {
   
   { range .Labels.SortedPairs  }}  [{
   
   { .Name }}: {
   
   { .Value  | html }} ] {
   
   {- end }} 
故障时间:    {
   
   { (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}


{
   
   {- end }}
{
   
   {- end }}

{
   
   {- if gt (len .Alerts.Resolved) 0 -}}
{
   
   {- range $index, $alert := .Alerts -}}

========= 告警恢复 =========
告警程序:     Alertmanager
告警主题:    {
   
   { $alert.Annotations.summary }}
告警主机:    {
   
   { .Labels.instance }}
告警类型:    {
   
   { .Labels.alertname }}
告警级别:    {
   
   { $alert.Labels.severity }} 级
告警状态:    {
   
   {   .Status }}
告警详情:    {
   
   { $alert.Annotations.message }}{
   
   { $alert.Annotations.description}}
故障时间:    {
   
   { (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
恢复时间:    {
   
   { (.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}

{
   
   {- end }}
{
   
   {- end }}
{
   
   {- end }}

三.配置告警信息

1. Prometheus配置告警规则

1. 1 配置alertmanager地址

要实现Prometheus向Alertmanager中发送信息，只需要配置alertmanager连接地址即可

vi prometheus.yml

# Alertmanager 配置

alerting:
  alertmanagers:
  - static_configs:
  	# altermanager连接地址
    - targets: ['10.10.10.100:9093']

1.2 添加告警规则

添加 rule_files 配置

在实际环境中，告警规则肯定有很多，比如对服务器异常进行告警，就有宕机、CPU使用率超过100%、内存使用率超过80%、硬盘使用率超过80%等等

最好创建一个文件夹，针对每个监控对象，创建一个配置文件。

告警规则配置在独立的文件中，文件格式为yml，并在prometheus.yml文件的rule_files模块中进行引用，prometheus启动时，会在rule_files定义的文件或目录下查找规则配置文件并加载

vi prometheus.yml

# 服务器加载规则文件的路径

rule_files:
 - "/etc/prometheus/sd_config/alert_rules/*.yml"

创建告警规则文件

进入 rule_files配置的文件路径下创建

vi /etc/prometheus/sd_config/alert_rules/alert_memory.yml

# 相关的规则设置定义在一个group下。在每一个group中我们可以定义多个告警规则(rule)
groups:
# name：组名。报警规则组名称
- name: alters
  # rules：定义规则
  rules:
  # alert：告警规则的名称
  - alert: NodeMemoryUsage 
  
    # expr：基于PromQL表达式告警触发条件，用于计算是否有时间序列满足该条件。
    expr: 100 - (node_memory_MemFree_bytes+node_memory_Cached_bytes+node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 > 20
    
    # for：评估等待时间，可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为pending。
    for: 1m
    
    # labels：自定义标签，允许用户指定要附加到告警上的一组附加标签。
    labels:
      # severity: 指定告警级别。有三种等级，分别为warning、critical和emergency。严重等级依次递增。
      severity: emergency

    # annotations: 附加信息，比如用于描述告警详细信息的文字等
    # annotations的内容在告警产生时会一同作为参数发送到Alertmanager。
    annotations:
      # summary描述告警的概要信息
      # description用于描述告警的详细信息。
      summary: "内存使用过高"
      description: "{
    
    { $labels.instance }} 内存使用大于 80% (当前值: {
    
    { $value }})"

2.Alertmanager配置告警机制

wechat 告警通知

vi alertmanager.yml

# 全局配置,全局配置，包括报警解决后的超时时间、SMTP 相关配置、各种渠道通知的 API 地址等等。
global:
  # 告警超时时间
  resolve_timeout: 5m
# 路由配置,设置报警的分发策略，它是一个树状结构，按照深度优先从左向右的顺序进行匹配。
route:
  # 接受者名称，对应下面receivers中的name
  receiver: 'wechat'

  # 用于将传入警报分组在一起的标签。
  # 基于告警中包含的标签，如果满足group_by中定义标签名称，那么这些告警将会合并为一个通知发送给接收器。
  group_by: ['alertname']
  # 发送通知的初始等待时间
  group_wait: 30s

  # 上下两组发送告警的间隔时间。
  group_interval: 5m
  # 如果已发送通知，则在再次发送通知之前要等待多长时间，通常约3m或更长时间
  repeat_interval: 30s


# 配置告警消息接受者信息
# 例如常用的 email、wechat、slack、webhook 等消息通知方式
receivers:
# 接受者名称
- name: 'wechat'
  # webhook URL
  wechat_configs:
      #企业ID (我的企业-->CorpId[在底部])
    - corp_id: 'wwa28f62ad74db58ce'
      #发送给所有人
      to_user: '@all' 
      #应用id (企业微信-->自定应用-->AgentId)
      agent_id: 1000003
      #应用秘钥 (企业微信-->自定应用--)
      api_secret: 'WtXlfif6TJjmYipx7Cg6W_tx9tVFrJm_BgDHEWEGL54'
      
      # 当前收件人是否接受告警恢复的通知
      send_resolved: true

文章目录

一.告警简介

1.工作流程

2.告警生命周期

3.告警等级

4.通知方式

二. AlertManager组件

1.特性

1.1 分组

1.2. 抑制

1.3.沉默

2.AlertManager安装

2.1 下载安装

2.2 创建service脚本

2.3 检查配置文件

2.4 启动程序

3.自定义告警规则

4. 自定义通知模板

三.配置告警信息

1. Prometheus配置告警规则

1. 1 配置alertmanager地址

1.2 添加告警规则

2.Alertmanager配置告警机制

wechat 告警通知

猜你喜欢