Linuxのパフォーマンスの監視とトラブルシューティング:主要業績評価指標の説明

次のような指標には4つのカテゴリがあるA Linuxサーバ:

  1. CPU:使用率、平均負荷(負荷平均)
  2. RAM:使用| 無料| バッファリング/キャッシュされました| avaliable
  3. ディスク:空き容量の大きさ、IOステータス
  4. ネットワーク:ネットワーク速度、遅延およびパケット損失率

トラブルシューティングの際に異常が発生するために、次の詳細なシステムパラメータの重要性、それらの正常な状態、及び方法を記載しています。

A、CPUインデックス

1. CPUの使用率

、非アイドル状態を実行するCPU時間の割合であるCPUの使用率は、それがどのように忙しいCPUを反映しています。使用top我々は、以下の情報を得ることができますコマンドを:

%Cpu(s):  0.0 us,  2.3 sy,  0.0 ni, 97.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
  • us(user):表しユーザーCPU時間のパーセンテージ状態動作、典型的には発現ユーザ・モード・アプリケーション高いCPUビジー一般的なユーザーモードプログラムは、前記データベース、Webサーバなどが挙げられます。
  • sy(sys):CPUは、(割り込みを含まない)の時間割合のカーネルモードで動作していることを意味し、通常はカーネルモードのCPUは、より良いシステムでは、いくつかのボトルネックがある、またはより低いです。
  • ni(nice):素敵な補正処理の優先ユーザーモードプロセスの実行にCPU時間を示します。優先順位、CPUのオーバーヘッドを修正するプロセスが個別にカウントされます場合は素敵では、プロセスの優先度の補正値です。
  • id(idle):CPUがアイドル状態にある時間の割合を表し、このときは、CPUは、システムアイドルプロセス名前、特定の仮想処理を行います。
  • wa(iowait):、CPUは、それにかかる時間を完了するために、I / O操作を待っていることを示し、可能な限り低いとして指数は通常、またはコマンドiostatのさらなる分析のためにI / Oボトルネック、必要があること。
  • hi(hardirq):ハードウェア割り込みを処理するCPUは、それにかかる時間を表しています。周辺ハードウェア(例えば、キーボードコントローラ、センサハードウェアなど)によって発行されたハードウェア割り込み、高速実行することを特徴とコントローラ、割り込み参加の必要性。
  • si(softirq):過ごしソフト割り込みCPUの処理時間を示します。ソフト割り込みが実行は、ソフトウェアプログラムによって発行された遅延特性、割り込み信号(例えば、ネットワーク・トランシーバ、タイミングスケジュール、等)。
  • st(steal):CPUは、他の仮想マシンの時間によって占有されていることを示し、それだけで、複数の仮想マシンのシーンで表示されます。指数が高すぎる場合は、ホストまたは別の仮想マシンには、下の例外かどうかを確認することができます。

2.平均負荷(負荷の平均)

top 次のように出力コマンドの最初の行は次のとおりです。

top - 21:11:00 up 8 min,  0 users,  load average: 0.52, 0.58, 0.59

前記平均負荷で三の値は、手段その1分**(LOAD1)、それぞれ、5分(load5)、15分(load15)**システム内の平均負荷。

平均負荷(負荷の平均)は、時間の単位を指し、システムはである実行状態(Runnableを/ランニング)無停電状態であるプロセスの平均数、アクティブなプロセスの平均数。

私たちは、そのプロセスを実行するという事実だけで1つのCPUコアで、オペレーティングシステムは、時分割スケジューリングによって並列に複数のプロセスの錯覚を提供することを知っています。平均負荷(アクティブプロセスの平均数)は、論理コアCPUの数よりも大きくないときに、システムが正常に動作することができます。
平均負荷が監査を超えている場合、それはプロセスのアクティブな部分があることを示しているが、それは、2つだけの可能な理由がある(一方のみのプロセスがCPUを使用して、同じ時間)CPUにそれを使用しません。

  1. CPUのキュー待機中のプロセスのこの部分はアイドル状態です。
  2. IO操作中のCPUのこの部分。

どのような状況では、システムの負荷を表すが高すぎるた、負またはアップグレードハードウェアを減らすことを検討してください。

理想的には、全容量で作動するシステム、ときに平均負荷=論理コアCPUの数(4芯糸8は、8つの論理CPUコアを有しています)。しかし、実際の生産システムでは、システムがフル稼働で実行することはお勧めしません。一般的な経験則は、次のとおり平均負荷<=論理コアの0.7 * CPUの数

  • 論理コアのCPUの0.7 ​​数に比べた場合の平均デューティ・サイクルが大きいほど、我々はシステムの劣化を防止するために、原因を調査を開始する必要があります。
  • 1.0 * CPUロジックコア数よりときに平均デューティサイクル大きく、平均負荷を低減するための解決策を見つけなければなりません。
  • 場合5.0 * CPUロジックコア数よりも平均デューティサイクル大きく、近いクラッシュに長時間応答しない、または、システムが深刻な問題があることを示します。

我々はload15観察三つのパラメータに焦点を当てる必要があり、一般的にシステムの長期安定性を懸念しています。

懸念平均負荷値そのものに加えて、我々はまた、2つの意味が含まれている平均負荷の傾向、心配する必要があります。LOAD1、load5、load15の中の一つの傾向;第二は、歴史の傾向です。

  • LOAD1、load5、load15三つの値が非常に接近している場合は、短期システムの負荷が比較的安定していることを示唆しています。歴史のロードセグメントを比較することながら、この時点で、それが大幅に増加があるかどうかを確認するために、昨日や先週にする必要があります。
  • LOAD1又はload5 load15よりもはるかに小さい、システムの負荷が低下する直前に、最後の5または15分間の平均負荷が非常に高い場合。
  • load5またはload15よりもはるかに大きいLOAD1は、システム負荷の急増、そうでない場合は、一時的な揺れを示すが、load5を超えていた場合は特に、上昇し続けた場合0.7 * CPU 逻辑核数、原因はシステム負荷を軽減、調査する必要があります。

関係3. CPU使用率との平均負荷

CPUの使用率がどのように忙しいCPU統計時間の単位です。平均CPU負荷がないだけ含むプロセスにおいて使用されても(平均負荷は両方の場合には高すぎることを想起されたい)、CPUやI / O処理を待っ含みます。

CPU使用率は、平均負荷に含まれています。これら2つのパラメータの注意を払う必要があるの2つの組み合わせがあります。

  1. 2つのパラメータ値が高い:CPUの使用量を削減する必要があります!
  2. CPUの使用率が低い場合、あなたは平均ロードすることができ、より論理的なCPUコア数より:IOがボトルネックアップ!ネットワーク/ディスクのトラブルシューティングを行う必要があります。

二、RAMメモリメトリクス

つづきます

三、ディスクのディスクインデックス

つづきます

四、ネットワーク・インジケータネットワーク

つづきます

参照

おすすめ

転載: www.cnblogs.com/kirito-c/p/12153479.html