AlertManager

主プロメテウスを送信アラーム情報を受信するために使用されるのAlertManager。

ダウンロードにwgetの、エキス、

設定alertmanager.ymlは、次の通り。

 

プロメテウスファイルにrules.ymlを次の追加:

グループ:
-名前:テスト・ルール
ルール:
-警告:InstanceDown
式expr:最大== 0
のために:2メートル
ラベル:
状態:警告
注釈:
概要: "{{$ labels.instance}}:ダウンしている"
説明:「{ {$ labels.instance}}ジョブ{{$ labels.job}}は「ダウンしている
-名前:ベースモニタルールの
ルール:
-警告:NodeCpuUsage
のexpr:(100 - ((インスタンスによって平均)(レート(node_cpu {ジョブ=〜、モード= "アイドル" "*"} [2メートル]))* 100))> 99
の場合:15メートル
のラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明:「{{$ labels.instance}} :{{$値}}」:CPU使用率が(現在値は99%以上である
-警告:NodeMemUsage
exprの(インスタンス)によって平均((1-(node_memory_MemFree {} + node_memory_Buffers {} + node_memory_Cached {})/ node_memory_MemTotal {})* 100)> 90
の場合:15メートル
のラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明: " {{$ labels.instance}}:MEM使用率が90%以上である(現在の値は{{$値}}」
-警告:NodeDiskUsage
exprは:(1 - node_filesystem_free {のfstype = "rootfsの"!、マウントポイント= "" !、マウントポイント〜 "/(実行| VAR | SYS | DEV)*"} / node_filesystem_size)×100> 80
のために:2メートル
ラベル:
SERVICE_NAME:テスト
レベル:警告
注釈:
説明:「{{$ labels.instance}} :{{$値}}」:ディスク使用量は、(現在の値が80%以上である
-警告:NodeFDUsage
exprの(インスタンス)によって平均(node_filefd_allocated {} / node_filefd_maximum {})* 100> 80
用:2メートル
ラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明:「{{$ labels.instance}}:ファイル記述子の使用は、上記で":80%(現在の値は{{$値}}
- :NodeLoad15アラート
平均(インスタンスによって)(node_load15 {})> 100:exprの
ため:2メートル
ラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明:" {{ $ labels.instance}}:「{{$値}}:Load15は(現在値が100以上である
-警告:NodeAgentStatus
のexpr:平均(インスタンス)(アップ{}によって)== 0
の場合:2メートル
ラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明: "{{$ labels.instanceは}}:ノードエージェントがダウンしている(現在の値は{{$値}}"
-警告:NodeProcsBlocked
(インスタンス)(node_procs_blocked {})> 100によって平均:exprの
ための: 2メートル
のラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明: "{{$ labels.instance}}:ノードは、手続きオブジェクトを検出しブロックする(電流値は:{{$値}}"
-警告:NodeTransmitRate
のexpr:AVG(インスタンスによって)(床(激怒(node_network_transmit_bytes {デバイス= "eth0の"} [2メートル])/ 1024/1024))> 100
の場合:2メートル
ラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明: "{{$ labels.instance}}:{{$値}}:ノードの送信レート(現在値は100メガバイト/秒以上である"
-アラート:NodeReceiveRate
のexpr:平均)インスタンス(別(床(激怒(node_network_receive_bytes {デバイス= "eth0の"} [2メートル])/ / 1024 1024))> 100
の場合:2メートル
ラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明:「{{$ labels.instance}}:ノードレートが100MB以上である受信/ S(現在の値は{{$値}}」
-警告:NodeDiskReadRate
のexpr:平均(インスタンス)(床(激怒(node_disk_bytes_read {} [2メートル])/ 1024/1024による))> 50
の場合:2メートル
のラベル:
SERVICE_NAME :テスト
レベル:警告
注釈:
説明: "{{$ labels.instance}}:{{$値}}:ノードディスクの読み取り速度は、(現在の値は50メガバイト/秒を超えている"
-警告:NodeDiskWriteRate
式expr:AVG(インスタンス)(床(怒っ(node_disk_bytes_writtenで/ 1024 {} [2メートル])/ 1024))> 50
の場合:2メートル
ラベル:
SERVICE_NAME:試験
レベル:警告
注釈:
説明:「{{$ labels.instance}}:ノードディスク書き込み速度は50メガバイト/秒以上である(現在値は次のとおりです。{{$値}}」

 

プロメテウスファイルの下に追加prometheus.yml

 

背景開始:nohupを./alertmanager --config.file = alertmanager.yml& 

スタートサービスsystemctl再起動プロメテウスプロメテウス

おすすめ

転載: www.cnblogs.com/canglongdao/p/12053653.html