AlertManagerアラートコンバージェンス
1.アラームのグループ化
グループ化とは、サーバーのダウンやアプリケーションのダウンなど、類似した性質のアラームを単一の通知に分類することです。このタイプのアラームは、グループに分割できます。グループに分割すると、複数のアラームが同時にトリガーされると、次のようになります。常に同じ電子メールに送信されます。これにより、警告電子メールが多すぎるために重要な情報を無視することを回避できます。
このメールは、このグループ化の意味をよく示しています
prometheusによって作成されたルールはすべてのサーバーに有効であるため、すべてのサーバーで1つのタイプのアラームを作成するだけで済みます。複数のホストが同時にこのアラームをトリガーすると、アラームメールが同時に管理者に送信されます。タイプアラームの数は主にアラート名で区別されます
AlertManagerのグループ化構文
route:
group_by:['alertname'] //ラベルでグループ化し、alertnameはアラートルールの名前です。複数のラベルはコンマで区切ることができます
group_wait:10s //時間範囲内のアラート待機時間を送信します。その他のアラームは一緒に送信されます
group_interval:10s //アラームのグループがトリガーされたとき、次のアラームのグループがトリガーされる
間隔repeat_interval:10m //繰り返されるアラームの時間間隔、つまりインスタンスダウンアラームの後それが解決されていない場合、トリガーされます、それからあなたはどのくらいの頻度で警察に電話しますか
2.アラーム抑制
抑制:アラームが送信されたら、このアラームによって引き起こされた他のアラームの送信を繰り返し停止します
抑制は、運用と保守が多数のアラームメールを受信するのを防ぐことができ、それらはすべて同じアラームですが、レベルが異なります。このアラームが重大レベルのアラームをトリガーする場合、抑制によって制限できます。警告レベルアラーム
構成構文:
inhibit_rules:
- source_match:
severity: 'critical' //匹配critical标签,先匹配了severity标签值为critical后,不再匹配target_match的条件
target_match:
severity: 'warning'
equal: ['alertname', 'dev', 'instance'] //告警中包含的分组名称
3.アラームは無音です
沈黙とは、特定のアラームを一定期間トリガーしないことの値であり、セットはメンテナンスフェーズに入ります
サイレントルールを作成する
AlertManagerのポート9093にアクセスします
1.右上隅にある新しい無音をクリックします
2.サイレント構成情報を追加します
3.現時点では、Dockerアラームによってトリガーされた後はメールは送信されません
4.Prometheusがアラーム実装プロセスをトリガーします
まず、プロメテウスシステムによって監視されます。監視項目のしきい値が特定のインデックスに達すると、アラームルールで設定された期間によって判断されます。一定期間内にしきい値を超えると、アラームは次のようになります。 AlertManagerにプッシュされ、AlertManagerが受信します。アラームに達した後、グループ化、抑制、および無音化し、最後に、構成したレシーバーを介してメールボックスWeChatにアラームを送信します。