ガイド:プロジェクト マネージャーとしてこれらの知識ポイントを理解し、特定のシナリオを解決するには、共通のアーキテクチャ技術ポイントを収集する必要があります。テクノロジーはビジネスに役立つ必要があり、テクノロジーとビジネスを組み合わせることでテクノロジーの価値を引き出すことができます。
目次
1. サービス監視
サービス監視の主な目的は、サービスに問題がある場合、または問題が発生しつつある場合を正確かつ迅速に発見し、影響範囲を軽減することです。一般に、サービス監視には多くの手段があり、次のレベルに分類できます。
-
システム層(CPU、ネットワークステータス、IO、マシン負荷など)
-
アプリケーション層(プロセスステータス、エラーログ、スループットなど)
-
ビジネス層(サービス/インターフェースのエラーコード、応答時間)
-
ユーザー層(ユーザー行動、世論監視、フロントエンド埋め込みポイント)
運用保守管理分野におけるコンポーネントの監視(ネットワーク→デバイス→システム→アプリケーション→コンポーネント)
2. 完全なリンク監視
2.1 サービスダイヤルテスト
サービス ダイヤル テストは、サービス (アプリケーション) の可用性を検出するための監視方法です。対象のサービスは、主に可用性と応答時間によって測定されるダイヤル テスト ノードを通じて定期的に検出されます。通常、異なる場所に複数のダイヤル テスト ノードがあります。
サービス ダイヤルイン テストは、ユーザーのログイン/クエリをシミュレートすることで、受動的な苦情から能動的な検出への移行を実現します。現在サポートされているダイヤルイン テスト プロトコルには、HTTP (HTTPS、GET、POST メソッドを含む)、TCP、および UDP が含まれます。
2.2 ノードの検出
ノード検出は、異なるコンピュータ ルーム (データ センター) にあるノード間のネットワークの可用性とスムーズさを検出および追跡するために使用される監視方法です。主に応答時間、パケット損失率、ホップ カウントによって測定されます。検出方法は一般的に ping、mtr です。またはその他の独自の契約。
2.3 アラームのフィルタリング
一部の予測可能なアラームをフィルタリングし、少数のクローラ訪問によって引き起こされる http 応答 500 エラーやビジネス システムのカスタム例外情報などのアラーム統計データを入力しません。
2.4 アラームの重複排除
アラームが担当者に通知されると、アラームが復旧するまで同じアラームを受信し続けることはありません。
2.5 アラームの抑制
システムジッターによる干渉を軽減するには、サーバーの瞬間的な高負荷は正常であり、一定期間続く高負荷のみに注意するなどの抑制も必要です。に。
予防:トラブルシューティングや問題への対処に時間がかかり、運用保守の効率が大幅に低下します。また、そもそも問題の根本原因が見つからないため、トラブルシューティングの時間が遅れ、潜在的な可能性が高くなります。事業運営に対するリスク。
2.6 アラームの回復
開発・運用・保守担当者は、アラーム通知だけでなく、障害が解消されアラームが正常に戻った旨の通知も受け取る必要があります。
2.7 アラームの結合
同時に生成された複数の同一のアラームをマージします。たとえば、マイクロサービス クラスター内の複数のサブサービスの負荷が同時に高すぎる場合は、それらを 1 つのアラームにマージする必要があります。
2.8 アラームの収束
アラームが生成されると、他のアラームも同時に発生することがあります。現時点では、アラームは根本原因に対してのみ生成でき、他のアラームはサブアラームにまとめられ、一緒に通知が送信されます。たとえば、クラウド サーバーで CPU 負荷アラームが発生すると、多くの場合、クラウド サーバーに搭載されているすべてのシステムの可用性アラームが伴います。
2.9 障害の自己修復
アラームのリアルタイム検出、事前診断と分析、障害の自動回復、プロセス全体の閉ループを実現するための周辺システムの開放。
アラーム自己修復は、障害自動処理手順の完全なセットであり、監視ツール、アラーム プラットフォーム、タスク スケジューリング プラットフォーム、CMDB、ITIL およびその他の関連システムを接続することにより、アラームの受信、根本原因の特定、ルールの照合、スクリプトの実行、および手動による確認、そして最後にアラームを回復することで、アラームの完全なライフサイクル管理を真に実現します。
拡張子: 障害分類:
断続型: 障害発生後の迅速な自己修復 反復
型: 単一オブジェクトの 1 つまたは複数のインジケーターがアラームを継続する
範囲型障害: 範囲型障害が特定のエリアまたは特定のクラスターで発生し、範囲内の複数のオブジェクトが同時にアラームを発生する短期間で。
拡張: 対処アイデアから学ぶ:企業の製品であるワンストップのアラーム ライフサイクル管理プラットフォームは、監視から異常検出アラーム、および圧縮されたアラームの根本原因分析に至る AIOps 閉ループ機能を提供します。