【アーキテクチャ】共通技術ポイント~監視と警報~

ガイド:プロジェクト マネージャーとしてこれらの知識ポイントを理解し、特定のシナリオを解決するには、共通のアーキテクチャ技術ポイントを収集する必要があります。テクノロジーはビジネスに役立つ必要があり、テクノロジーとビジネスを組み合わせることでテクノロジーの価値を引き出すことができます。

目次

1. サービス監視

2. 完全なリンク監視

2.1 サービスダイヤルテスト

2.2 ノードの検出

2.3 アラームのフィルタリング

2.4 アラームの重複排除

2.5 アラームの抑制

2.6 アラームの回復

2.7 アラームの結合

2.8 アラームの収束

2.9 障害の自己修復


1. サービス監視

サービス監視の主な目的は、サービスに問題がある場合、または問題が発生しつつある場合を正確かつ迅速に発見し、影響範囲を軽減することです。一般に、サービス監視には多くの手段があり、次のレベルに分類できます。

  • システム層(CPU、ネットワークステータス、IO、マシン負荷など)

  • アプリケーション層(プロセスステータス、エラーログ、スループットなど)

  • ビジネス層(サービス/インターフェースのエラーコード、応答時間)

  • ユーザー層(ユーザー行動、世論監視、フロントエンド埋め込みポイント)

運用保守管理分野におけるコンポーネントの監視(ネットワーク→デバイス→システム→アプリケーション→コンポーネント)


2. 完全なリンク監視

2.1 サービスダイヤルテスト

サービス ダイヤル テストは、サービス (アプリケーション) の可用性を検出するための監視方法です。対象のサービスは、主に可用性と応答時間によって測定されるダイヤル テスト ノードを通じて定期的に検出されます。通常、異なる場所に複数のダイヤル テスト ノードがあります。

サービス ダイヤルイン テストは、ユーザーのログイン/クエリをシミュレートすることで、受動的な苦情から能動的な検出への移行を実現します。現在サポートされているダイヤルイン テスト プロトコルには、HTTP (HTTPS、GET、POST メソッドを含む)、TCP、および UDP が含まれます。


2.2 ノードの検出

ノード検出は、異なるコンピュータ ルーム (データ センター) にあるノード間のネットワークの可用性とスムーズさを検出および追跡するために使用される監視方法です。主に応答時間、パケット損失率、ホップ カウントによって測定されます。検出方法は一般的に ping、mtr です。またはその他の独自の契約。


2.3 アラームのフィルタリング

一部の予測可能なアラームをフィルタリングし、少数のクローラ訪問によって引き起こされる http 応答 500 エラーやビジネス システムのカスタム例外情報などのアラーム統計データを入力しません。

2.4 アラームの重複排除

アラームが担当者に通知されると、アラームが復旧するまで同じアラームを受信し続けることはありません


2.5 アラームの抑制

システムジッターによる干渉を軽減するには、サーバーの瞬間的な高負荷は正常であり、一定期間続く高負荷のみに注意するなどの抑制も必要です。に。

予防:トラブルシューティングや問題への対処に時間がかかり、運用保守の効率が大幅に低下します。また、そもそも問題の根本原因が見つからないため、トラブルシューティングの時間が遅れ、潜在的な可能性が高くなります。事業運営に対するリスク。


2.6 アラームの回復

開発・運用・保守担当者は、アラーム通知だけでなく、障害が解消されアラームが正常に戻った旨の通知も受け取る必要があります。


2.7 アラームの結合

同時に生成された複数の同一のアラームをマージします。たとえば、マイクロサービス クラスター内の複数のサブサービスの負荷が同時に高すぎる場合は、それらを 1 つのアラームにマージする必要があります。


2.8 アラームの収束

アラームが生成されると、他のアラームも同時に発生することがあります。現時点では、アラームは根本原因に対してのみ生成でき、他のアラームはサブアラームにまとめられ、一緒に通知が送信されます。たとえば、クラウド サーバーで CPU 負荷アラームが発生すると、多くの場合、クラウド サーバーに搭載されているすべてのシステムの可用性アラームが伴います。


2.9 障害の自己修復

アラームのリアルタイム検出、事前診断と分析、障害の自動回復、プロセス全体の閉ループを実現するための周辺システムの開放。

アラーム自己修復は、障害自動処理手順の完全なセットであり、監視ツール、アラーム プラットフォーム、タスク スケジューリング プラットフォーム、CMDB、ITIL およびその他の関連システムを接続することにより、アラームの受信、根本原因の特定、ルールの照合、スクリプトの実行、および手動による確認、そして最後にアラームを回復することで、アラームの完全なライフサイクル管理を真に実現します。


拡張子: 障害分類:

断続型: 障害発生後の迅速な自己修復 反復
型: 単一オブジェクトの 1 つまたは複数のインジケーターがアラームを継続する
範囲型障害: 範囲型障害が特定のエリアまたは特定のクラスターで発生し、範囲内の複数のオブジェクトが同時にアラームを発生する短期間で。


拡張: 対処アイデアから学ぶ:企業の製品であるワンストップのアラーム ライフサイクル管理プラットフォームは、監視から異常検出アラーム、および圧縮されたアラームの根本原因分析に至る AIOps 閉ループ機能を提供します。

 

おすすめ

転載: blog.csdn.net/weixin_43800786/article/details/130798126