[記事] Linuxのダウンタイムの故障解析事例

[記事] Linuxのダウンタイムの故障解析事例

これは、お気に入りを採用しています
0 1669 0

背景

では、Linuxのシステム環境、サーバーのダウンタイムの発生頻度は比較的小さいですが、多くのエンジニア、多かれ少なかれ、これは時々損失で、たまたま、私はどこから始めれば分かりません。ケーススタディでは、我々は援助の下に表示され、Linuxの処理方法やダウンタイムイベントのアイデア。

ダウンタイムの異なる原因の発生、またはハードウェアの問題、またはパフォーマンス上の理由から、またはサーバがトリガされるのLinuxのバグ、カーネルをクラッシュ、など。

ケーススタディ

 

図1に示すように、ケースの減少;

4月25日の早朝に発生したdcspodsaa1本番サーバのダウンタイム断層系サーバは夜12時49分時間、ハードウェアエラーにシステム管理者は、(予約済みスポットは非常に重要です)撮影された際に、サーバーが破損しているスワップデバイスである必要があり文字通りの意味を見てみましょう。

 

 

2、分析の方法:ログのsosreportの収集システムのログを使用して、チェックの/ var / log / messagesにログシステムが再起動されたすべてのエラーの前に、最初は図のカーネルをログ***は/ proc / kmsg開始し、システム起動を表し、その前には珍しいログ、

 

 

3.分析方法2:サーバーをチェックしてくださいは、kdumpのサービスを開き、次のように同じ日のvmcoreには、クラッシュvmcoreにファイルを分析するためのツールを使用して、は/ var / crashディレクトリ内のファイルを生成しました:

Serverは、重大なシステムがパニックエラーがクラッシュしました

 

 

KDMPエラーログファイルの解析には、スワップデバイスの多数の読み書きにエラーが見つかりました

 

 

 

 

4.エラー「同期-notカーネルパニック:しようとしました INITを殺す」、 Red Hat NetworkのKBへの公式の調査を:HTTPS:// アクセス .redhat.com /ソリューション/ 1450043、ダウンタイムの事件の理由を与えるためには、システムのスワップデバイスでありますI / O読み取りおよび書き込みが失敗し、トリガ・システムは、メインプロセス「INIT」を殺す、システムのカーネルのクラッシュが発生しましたが、システム上のスワップパーティションの根本的な原因エラーが発生読み書き、プログラムはRedhatの基礎となるカーネルを含み、ケースを開くには、Red Hatの公式の推薦解析や加工深さ。

5.分析方法3:過去のパフォーマンス記録システムをチェックし、は/ var / log / SA /パスは、sysstatのサービス(システムアクティビティレポート)ファイルは、デフォルトの情報記録時間システムリソースの使用量の10分ごとによって収集されたSAR日記録しましたその上でCPU、メモリなどを含みます。異常なシステムリソースの使用状況ビューsarコマンドダウンロードすることで、見つかった、それが原因、システムがダウンタイムが生じよりも、パフォーマンスの不足のために除外することができます

第4.25パフォーマンスログファイル

 

より多くのCPU性能情報や検査情報メモリ性能、異常な何もない|コマンドのsar -a -fのSA25を使用してください。

  

他の構成

  1. オープンのkdump:

インストールの依存関係

 

 

サービスを開始

 

 

スタートの設定

 

 

有効にするには、システムを再起動する必要があるため256M、注目のデフォルトのパラメータを変更Crashkernel

 

 

  1. 衝突解析ツールvmcoreにファイルを使用します。

1)yumを使用して、クラッシュバッグを搭載インストールすることができ

 

 

2)カーネルデバッグカーネルバージョン、必要同じカーネルRPMパッケージのバージョンと、システム障害をインストール

障害マシンのバージョンを表示-rまず使用unamre

インストールそれぞれのパケット

 

 

3)スタートのクラッシュをチェック

 

 

 

概要

失敗を扱うときにそのため、一般的な考え方は以下のとおりです。

1.まずあなたがエラーログにシステムログメッセージを確認することができ、障害が発生する前に手がかりエラーログを探してください。

2.ない場合、システムがkdumpのサービスをトリガされたトラブルシューティング(カーネルのクラッシュは、ダウンタイムが発生したため、システムが、あなたは失敗をキャプチャすることができたときに、メモリ内の情報を障害);

 

3.また、システムリソース(CPU、メモリなど)異常な使用を分析することが必要とされています。


---------------------
[未来]襟を学び、増刷からのテキストは、元のリンクを保持してください。
リンクします。http://bbs.learnfuture.com/topic/detail ID = 0846bac5- a369-405e-83d5-daa15272db46?

おすすめ

転載: www.cnblogs.com/xuanbjut/p/11605514.html