プロメテウス迅速な展開サーバーをドッキングウィンドウは、作曲とウェブフックアラーム釘を使用してCEPHクラスタを監視します

 今の環境は、このようなものです:

CEPH 4セット:

192.168.100.21 CEPH-ノード1

192.168.100.22 CEPH-node2で

192.168.100.23 CEPH-ノード3

192.168.100.25 CEPH-NODE5

#セファロクラスタは一切のmodを保存しないために4つのOSD 3月ブロックが使用されていないクラスタを展開しています

 

監視サーバ

192.168.100.26 Grafanaは、上記コンテナの展開に基づいています 

プロメテウス: 
Grafana: 
のAlertManager: 
プロメテウス-ウェブフックアラート:
cAdvisor:

次のように整理さドッカ - コン:

バージョン:" 2 " 
ネットワーク:
    モニター:
        ドライバー:ブリッジ
サービス:
  プロメテウス:
    画像:プロム / プロメテウス
    CONTAINER_NAME:prometheu 
    ホスト名:prometheuの
    再起動:常に
    ボリューム:
     - /Prometheus/config/prometheus.yml:/etc/prometheus/のprometheus.yml
     - ./config/alertmanager-rule.yml:/etc/prometheus/alertmanager- rule.yml
     -の/ etc / localtimeの:の/ etc / localtimeのの
    ポート:
     - " 9090:9090 " 
    ネットワーク:
     - モニタ

  プロメテウス-webhook- 警告:
    画像:timonwong /プロメテウス-ウェブフック-dingtalk:V0。3.0 
    CONTAINER_NAME:プロメテウス -webhook- alertmanagers
     ホスト名:webhook- alertmanagersは
    再起動:常に
    ボリューム:
     -の/ etc / localtimeの:の/ etc / localtimeのの
    ポート:
     - " 8060:8060 " 
    のエントリポイント: / binに/プロメテウス-ウェブフック-dingtalk --dingを。プロファイル= " webhook1 = HTTPS://oapi.dingtalk.com/robot/send access_tokenは= ****#钉钉ウェブフック自己去申请一个?" 
    ネットワーク:
     - モニタ
  
  のAlertManager:
    画像:プロム /AlertManager 
    CONTAINER_NAME:のAlertManager 
    ホスト名:のAlertManager 
    再起動:常に
    ボリューム:
       - ./config/alertmanager.yml:/etc/alertmanager/ alertmanager.yml
       -の/ etc / localtimeの:の/ etc / localtimeのの
    ポート:
       - " 9093:9093 " 
    ネットワーク:
       - 監視

  grafanaを:
    画像を:grafana / grafana 
    CONTAINER_NAME:grafanaの
    ホスト名:grafana 
    再起動:常に
    ボリューム:
     -の/ etc / localtimeのを:の/ etc / localtimeの
     - ./grafana-piechart:/var/lib/grafana/plugins/grafana-piechart-パネルの
    ポート:
     - " 3000:3000 " 
    ネットワーク:
     - 監視
    
  cadvisorを:
    画像:グーグル / cadvisor:最新
    CONTAINER_NAME:cadvisorの
    ホスト名:cadvisor 
    再起動:常に
    ボリューム:
     - /:/ rootfsの:RO
     -の/ var /実行:は/ var / 実行を:RW
     - / SYS:/ SYS:RO
     -の/ var / libに/ドッキングウィンドウ/:は/ var / libに/ ドッキングウィンドウ:RO
     -の/ etc / localtimeの:の/ etc / localtimeのの
    ポート:
     - " 8080:8080 " 
    ネットワーク:
     -モニター

いくつかの主要な設定ファイルは以下のとおりです。

#プロメテウスのプロフィール

 

 nfig / prometheus.yml

 

#私のグローバル設定
グローバル:
  scrape_interval:15秒位ごとにこすり間隔を設定し15秒。デフォルトはすべてのある1 分。
  evaluation_intervalは:15秒位ごとにルール評価15秒。デフォルトでは、すべてである1 分。

#1のAlertManagerの設定
:警告
  alertmanagersを:
   - static_configs:
     -対象:[ " 192.168.100.26:9093 " ] 
#ロードルールに一度、定期的にグローバルに応じてそれらを評価する' evaluation_intervalは' 
rule_files:
   - "rule.yml-のAlertManager 

scrape_configs: ジョブ名をラベルとして追加され`仕事 = <JOB_NAME> `この設定から掻き取りいかなる時系列に。
   - JOB_NAME:' プロメテウス' 
    static_configs:
     -対象:[ " 192.168.100.26:9090 ' ]
 
   - JOB_NAME:' cadvisor-1 'の
    static_configs:
     -ターゲット:[ ' 192.168.100.26:8080 ' ]
 
   - JOB_NAME:' ノード1 ' 
    scrape_interval:4Sの
    static_configs:
     -ターゲット:[ ' 192.168.100.26。9100 "]

   - JOB_NAME:' cadvisor-2 ' 
    static_configs:
     -ターゲット:[ ' 192.168.100.25:8080 ' ]

   - JOB_NAME:' ノード2 ' 
    scrape_interval:4Sの
    static_configs:
     -ターゲット:[ ' 192.168.100.25:9100 ' ]

   - JOB_NAME :' CEPH ' 
    scrape_interval:4Sの
    static_configs:
     -対象:[ ' 192.168.100.21:9128 ' ]

 

#監視警報組立プレス組み合わせたフィルタ構成ファイルとアドレスを設定するウェブフック

猫./config/alertmanager.yml

グローバル:
  resolve_timeoutの:5メートル
ルート:
  GROUP_BY:[ ' alertname ' ] 
  group_wait:10秒
  group_interval:10秒
  repeat_intervalの:1時間の
  受信機:' web.hook ' 

レシーバ:
 -名前:' web.hook ' 
  webhook_configs:
   - URL:" のhttp:// 192.168.100.26:8060/dingtalk/webhook1/sendは' 
    send_resolved:

inhibit_rules:
   - source_match:
      深刻度:' 重要' 
    target_match:
      重要度:'警告' 
    等しい:[ ' alertname ' ' DEV ' ' インスタンス' ]

#監視アラームルールの設定ファイル

猫./alertmanager-rule.yml 

グループ -名前:ceph- ルール
  ルールを:
   - アラート:セファロOSDのダウン
     式expr ceph_osd_down>:0 
    :2Mの
    ラベル:
      製品:テストセファロクラスタ
    注釈:
      警告する:{{}} $のlabels.instance:そこ{{$値OSD}}、ダウン:{{}} $ラベル" 
      説明:" {{}} $のlabels.instance:そこ{{$のlabels.osd}} $現在のステータスlabels.status} {} { "
 
  - 警告:クラスタスペースの使用の
     式expr:ceph_cluster_used_bytes / ceph_cluster_capacity_bytes * 100 > 80 
    のために:2Mの
    ラベル: 
      製品:セファロテストクラスタ
    注釈:
      警告:" {{}} $のlabels.instance:クラスタ十分なスペース" 
      記述:" {{}} $のlabels.instance:現在の空間の使用量が$である{値}}、{ "

おすすめ

転載: www.cnblogs.com/python-diy/p/11512285.html