今の環境は、このようなものです:
CEPH 4セット:
192.168.100.21 CEPH-ノード1
192.168.100.22 CEPH-node2で
192.168.100.23 CEPH-ノード3
192.168.100.25 CEPH-NODE5
#セファロクラスタは一切のmodを保存しないために4つのOSD 3月ブロックが使用されていないクラスタを展開しています
監視サーバ
192.168.100.26 Grafanaは、上記コンテナの展開に基づいています
プロメテウス:
Grafana:
のAlertManager:
プロメテウス-ウェブフックアラート:
cAdvisor:
次のように整理さドッカ - コン:
バージョン:" 2 " ネットワーク: モニター: ドライバー:ブリッジ サービス: プロメテウス: 画像:プロム / プロメテウス CONTAINER_NAME:prometheu ホスト名:prometheuの 再起動:常に ボリューム: - /Prometheus/config/prometheus.yml:/etc/prometheus/のprometheus.yml - ./config/alertmanager-rule.yml:/etc/prometheus/alertmanager- rule.yml -の/ etc / localtimeの:の/ etc / localtimeのの ポート: - " 9090:9090 " ネットワーク: - モニタ プロメテウス-webhook- 警告: 画像:timonwong /プロメテウス-ウェブフック-dingtalk:V0。3.0 CONTAINER_NAME:プロメテウス -webhook- alertmanagers ホスト名:webhook- alertmanagersは 再起動:常に ボリューム: -の/ etc / localtimeの:の/ etc / localtimeのの ポート: - " 8060:8060 " のエントリポイント: / binに/プロメテウス-ウェブフック-dingtalk --dingを。プロファイル= " webhook1 = HTTPS://oapi.dingtalk.com/robot/send access_tokenは= ****#钉钉ウェブフック自己去申请一个?" ネットワーク: - モニタ のAlertManager: 画像:プロム /AlertManager CONTAINER_NAME:のAlertManager ホスト名:のAlertManager 再起動:常に ボリューム: - ./config/alertmanager.yml:/etc/alertmanager/ alertmanager.yml -の/ etc / localtimeの:の/ etc / localtimeのの ポート: - " 9093:9093 " ネットワーク: - 監視 grafanaを: 画像を:grafana / grafana CONTAINER_NAME:grafanaの ホスト名:grafana 再起動:常に ボリューム: -の/ etc / localtimeのを:の/ etc / localtimeの - ./grafana-piechart:/var/lib/grafana/plugins/grafana-piechart-パネルの ポート: - " 3000:3000 " ネットワーク: - 監視 cadvisorを: 画像:グーグル / cadvisor:最新 CONTAINER_NAME:cadvisorの ホスト名:cadvisor 再起動:常に ボリューム: - /:/ rootfsの:RO -の/ var /実行:は/ var / 実行を:RW - / SYS:/ SYS:RO -の/ var / libに/ドッキングウィンドウ/:は/ var / libに/ ドッキングウィンドウ:RO -の/ etc / localtimeの:の/ etc / localtimeのの ポート: - " 8080:8080 " ネットワーク: -モニター
いくつかの主要な設定ファイルは以下のとおりです。
#プロメテウスのプロフィール
nfig / prometheus.yml
#私のグローバル設定 グローバル: scrape_interval:15秒位ごとにこすり間隔を設定し15秒。デフォルトはすべてのある1 分。 evaluation_intervalは:15秒位ごとにルール評価15秒。デフォルトでは、すべてである1 分。 #1のAlertManagerの設定 :警告 alertmanagersを: - static_configs: -対象:[ " 192.168.100.26:9093 " ] #ロードルールに一度、定期的にグローバルに応じてそれらを評価する' evaluation_intervalは' 。 rule_files: - "rule.yml-のAlertManager 」 scrape_configs: #ジョブ名をラベルとして追加され`仕事 = <JOB_NAME> `この設定から掻き取りいかなる時系列に。 - JOB_NAME:' プロメテウス' static_configs: -対象:[ " 192.168.100.26:9090 ' ] - JOB_NAME:' cadvisor-1 'の static_configs: -ターゲット:[ ' 192.168.100.26:8080 ' ] - JOB_NAME:' ノード1 ' scrape_interval:4Sの static_configs: -ターゲット:[ ' 192.168.100.26。9100 "] - JOB_NAME:' cadvisor-2 ' static_configs: -ターゲット:[ ' 192.168.100.25:8080 ' ] - JOB_NAME:' ノード2 ' scrape_interval:4Sの static_configs: -ターゲット:[ ' 192.168.100.25:9100 ' ] - JOB_NAME :' CEPH ' scrape_interval:4Sの static_configs: -対象:[ ' 192.168.100.21:9128 ' ]
#監視警報組立プレス組み合わせたフィルタ構成ファイルとアドレスを設定するウェブフック
猫./config/alertmanager.yml
グローバル: resolve_timeoutの:5メートル ルート: GROUP_BY:[ ' alertname ' ] group_wait:10秒 group_interval:10秒 repeat_intervalの:1時間の 受信機:' web.hook ' レシーバ: -名前:' web.hook ' webhook_configs: - URL:" のhttp:// 192.168.100.26:8060/dingtalk/webhook1/sendは' send_resolved:真 inhibit_rules: - source_match: 深刻度:' 重要' target_match: 重要度:'警告' 等しい:[ ' alertname ' ' DEV ' ' インスタンス' ]
#監視アラームルールの設定ファイル
猫./alertmanager-rule.yml
グループ: -名前:ceph- ルール ルールを: - アラート:セファロOSDのダウン 式expr ceph_osd_down>:0 用:2Mの ラベル: 製品:テストセファロクラスタ 注釈: 警告する:「{{}} $のlabels.instance:そこ{{$値OSD}}、ダウン:{{}} $ラベル" 説明:" {{}} $のlabels.instance:そこ{{$のlabels.osd}} $現在のステータスlabels.status} {} { " - 警告:クラスタスペースの使用の 式expr:ceph_cluster_used_bytes / ceph_cluster_capacity_bytes * 100 > 80 のために:2Mの ラベル: 製品:セファロテストクラスタ 注釈: 警告:" {{}} $のlabels.instance:クラスタ十分なスペース" 記述:" {{}} $のlabels.instance:現在の空間の使用量が$である{値}}、{ "