はじめに:
プロメテウスは、機能によるスリップで、収集して保存アラームインジケータは別のものです。アラーム管理機能はのAlertManagerによって別個のコンポーネントの監視システムでツールを、提供されます。
あなたはプロメテウスの警告ルールを定義した後、これらのルールは、その後のAlertManagerに広がるイベントを、開始することができ、のAlertManagerは、対応するアラートの処理方法を決定します。再パケットへのアラートののAlertManager、その後、電子メール、ショートメッセージサービスやSaaSの(PagerDutyなど)異なる受信機にルーティング。私たちは、アラートプロメテウスサーバ[2]のルールを記述します、これらのルールは、当社が収集する使用メトリクスも、指定したしきい値または基準にアラームをトリガします。また、アラートにいくつかのコンテキストを追加する方法について説明します。指標が閾値又は基準に達したときに、アラームが発生したとのAlertManagerにプッシュされます。プロメテウスと同じように、のAlertManagerの設定はYAML設定ファイルに基づいています。
A、のAlertManagerのインストール
ダウンロード:
https://prometheus.io/download/#alertmanager
解凍し、次のように、指定したディレクトリに次の2つのファイルをコピーします
[ルート@ bogonのAlertManager]#CPのAlertManagerは/ usr / local / binに/
[ルート@ bogonのAlertManager]#cpはamtoolは/ usr / local /ビン/
[ルート@ bogon〜]#選択肢 #--version ビューバージョンの
代替バージョン1.7.2
[ルート@ bogonのAlertManager]#./alertmanager#启动のAlertManager
ブラウザのアクセスIP:9093のAlertManagerにグラフィックスページを表示します
二、プロメテウスの構成のAlertManager
prometheus.ymlファイルを変更し、lertingブロックを追加します。詳細は以下の通りである:(のAlertManager前記IPアドレスの最後の行、または対応のAlertManager IPに分割することができます)
警告:
alertmanagers
- static_configs:
-targets:
-alertmanager:9093
あなたは監視井戸のAlertManagerを設定した後、アラームの内容は、のAlertManagerに送信されます
三、のAlertManagerサービスの発見
一時的にそれが何を意味するのか理解していなかったし、その後明確なサプリメントに従ってください
AlertManagerを監視第四に、
Prometheus.yml設定ファイル
- JOB_NAME: 'のAlertManager'
static_configs:
- ターゲット:[ 'localhostを:9093']
アラームルールの追加
同じディレクトリにPrometheus.yml、ルールのディレクトリを作成し、以下のように、新しいディレクトリにnode_alerts.ymlファイルを作成します。
rule_files:
- "ルール/ * _ rules.yml"
- "ルール/ * _ alerts.yml"
有効にする設定ファイルを作成するために再起動するプロメテウスの必要性
最初の警告ルールを追加 - 「5分、少なくとも60分間の平均CPU使用率80%以上内のノードは、アラームがトリガされた場合
グループ:
- 名前:node_alerts
ルール:
- 警告:HighNodeCPU
式expr:インスタンス:node_cpu:avg_rate5m> 80
用:60メートル
ラベル:
serverity:警告
注釈:
要約:高ノードCPU 1時間
コンソール:あなたはノードのダッシュボードをチェックしたい場合があります
説明:あなたは、グループの名前nod_alerts、アラーム名のHighNodeCPU(各アラーム設定、アラーム名は一意である必要があります)、アラームがテスト式exprにトリガされ、インデックスのための条件は、80(または80%の使用よりも大きいかどうかをチェックし、指定しましたテスト式のレート)は、時間の長さの真でなければなりません。前記タグ内の注釈は、迅速なトラブルシューティングのための注釈とともにコンテキストコンソールを提供する、アラートの概要を説明します。
第五に、アラームがトリガされます
すべてのルールを評価するために一定の時間間隔でプロメテウスは、我々は15秒に設定する時間のevaluate_interval、によって定義されます。
3つのアラーム状態があります:非アクティブなアラームが起動されていません。アラートがテスト式の条件を満たしているが、指定された期間のために届きませんでした:保留中。指定された期間のためのテスト式の条件と到達時間を警告満たす:発砲。