(再起動)問題を追放するためにOracle RACクラスタ・ノードを診断する方法

それはに適用されます

Oracleデータベース-エンタープライズエディション- 12.1.0.2へバージョン11.2.0.1 [12.1に11.2をリリース]
この文書の情報は、すべてのプラットフォームに適用されます

使用

この記事では、11.2の診断以降クラスタノード追い出しのための参照方法を提供します。11.2追放する前に、クラスタノードの場合は、メッセージを残してください。

詳細については、

概要ノード立ち退き

Oracleクラスタは、いくつかの深刻な問題がクラスタから1つまたは複数のノードを追放しますました。何のネットワークノードのハートビート、ノーディスクハートビートノードを含めないような深刻な問題は、サーバーが応答していないか、深刻なパフォーマンスの問題や無応答ocssd.binがあります。ノード立ち退きの目的は、ノードの一部を除去することにより、ノード全体の健康を維持することです。
11.2.0.2 RAC(またはのExadata)からは、ノードの立ち退きは本当にホストを再起動しない場合があります。これはrebootless再起動と呼ばれています。この場合、私たちは、問題は、このノードを解決することができるかどうかを確認するためにクラスタプロセスのほとんどを再起動します。

1.0 - 再起動するプロセスが発生します

OCSSD(AKA CSSデーモン) - cssdagentプロセスによって開始したプロセス。サードパーティ製クラスタウェア環境となし、サードパーティのクラスタメンバの場合は、このプロセスを持っています。OCSSD主な役割は、ノード間のヘルスモニタリングとデータベースインスタンスを見つけることです。ネットワークと(選挙ディスク用)ディスクハートビートハートビートなどのヘルスモニタリング、。OCSSDは、メンバーキルエスカレーション要求の(例えばLMONプロセスデータベースなど)クライアントの受領後、あなたはまた、ノード立ち退きを開始することができます。OCSSDプロセスが実行されるOracleユーザ、マルチスレッド、ハイレベルのプロセスが実行されています。

ブートシーケンス:INIT - > init.ohasd - > OHASD - > ohasd.bin - > cssdagent - > OCSSD - > ocssd.bin

CSSDAGENT - OHASDプロセスによって開始されたプロセス、CSSDAGENT OCSSDは、プロセスを開始するために使用され、それはノードが(同様のOPROCD)を掛ける監視できるだけでなく、プロセス監視は、(同様のoclsomonを)ハングOCSSD、だけでなく、サードパーティ製クラスタウェアを監視するために、(同様のVMON )。このプロセスは、ルート・ユーザ、マルチスレッド、ハイレベルのプロセスが実行として実行されます。

ブートシーケンス:INIT - > init.ohasd - > OHASD - > ohasd.bin - > cssdagent

CSSDMONITOR -このプロセスは、ノードが(同様のOPROCD)をハング監視され、ならびにプロセス監視は、(同様のoclsomon)を掛けるOCSSDだけでなく、サードパーティのクラスタウェア(類似VMON)を監視します。このプロセスは、ルート・ユーザ、マルチスレッド、ハイレベルのプロセスが実行として実行されます。
ブートシーケンス:INIT - > init.ohasd - > OHASD - > ohasd.bin - > cssdmonitor

2.0 - 再起動プロセスによって開始されたことを確認し

あなたが見たい重要な書類:

  • 中Clusterwareのアラート・ログ<GRID_HOME> /ログ/
  • <GRID_HOME> /ログイン//エージェント/ OHASD / oracssdagent_rootでcssdagentログ(S)
  • <GRID_HOME> /ログイン//エージェント/ OHASD / oracssdmonitor_rootでcssdmonitorログ(S)
  • <GRID_HOME> /ログイン// CSSDでOCSSDログ(S)
  • lastgaspログ(S)の/ etc /オラクル/ lastgaspで或者は/ var / opt / oracle / lastgasp
  • IPD / OSまたはOS Watcherのデータ
  • 出力 'のOPatchはlsinventory -detail' GRIDホーム
  • メッセージはファイル:
    メッセージは、パスファイル:
    • Linuxの場合:/ var / log / messagesに
    • 日:は、/ var / adm / messages
    • HP-UX:/var/adm/syslog/syslog.logを
    • IBM:/ binに/はerrpt -a> messages.out

ほとんどの場合、それは、アラート・ログクラスタクラスタ11.2追放に意味のある診断情報を記録します。この情報を使用して、我々は再起動プロセスを開始した確認することができます。以下は、クラスタアラート・ログのサンプルです:

[ohasd(11243)]CRS-8011:reboot advisory message from host: sta00129, component: cssagent, with timestamp: L-2009-05-05-10:03:25.340
[ohasd(11243)]CRS-8013:reboot advisory message text: Rebooting after limit 28500 exceeded; disk timeout 27630, network timeout 28500, last heartbeat from CSSD at epoch seconds 1241543005.340, 4294967295 milliseconds ago based on invariant clock value of 93235653

これは問題に起因するネットワークのタイムアウトを経験するの追放によるものです。CSSDプロセスが終了した後、CSSDAGENTは再起動を開始しました。CSSDAGENTは、ローカルのハートビートCSSD-関連の過ちからこの情報を得ることです。

アラート・ログに追放されたノードのクラスタには、関連する情報、アラート・ログには、このチェックlastgaspクラスタノードおよび/または他のノードのログが存在しない場合。

3.0 - 診断OCSSDは追放を開始しました

あなたはOCSSD開始立ち退きが発生した場合は、セクション3.1に記載されている一般的な原因を参照してください。

3.1 - OCSSD立ち退きの一般的な原因

  • ネットワーク障害やノード間の遅延。ハートビートバリア後30連続秒(デフォルト値、CSSによって決定ミスカウント)において、ノードの排除につながります。
  • CSSはディスク選挙を読み書きすることはできません。ノードは、ほとんどの選挙のディスクのディスクハートビートを完了できない場合、ノードが追い出されます。
  • メンバーは、エスカレーションを殺します。例えば、LMONプロセス・データベース・インスタンスは、CSSがクラスタからインスタンスを追い出すであろう要求することができます。追放タイムアウトのインスタンス場合は、ノードを追放するためにアップグレードされます。
  • OCSSD処理エラーが発生した場合、またはハング、この状況は、このような状況またはその他のいずれかによって引き起こされ得ます。
  • Oracleのバグ。

3.2 - OCSSDの追放ファイルを収集し、表示する必要性を

セクション2.0に記載されているすべてのノードのすべてのファイルで、あなたはより多くの情報が必要な場合があります。

選挙によって引き起こされたサンプルディスクの問題の追放されたバージョン:

CSSログ:

2012-03-27 22:05:48.693: [ CSSD][1100548416](:CSSNM00018:)clssnmvDiskCheck: Aborting, 0 of 3 configured voting disks available, need 2
2012-03-27 22:05:48.693: [ CSSD][1100548416]###################################
2012-03-27 22:05:48.693: [ CSSD][1100548416]clssscExit: CSSD aborting from thread clssnmvDiskPingMonitorThread

OSメッセージ:

Mar 27 22:03:58 choldbr132p kernel: Error:Mpx:All paths to Symm 000190104720 vol 0c71 are dead.
Mar 27 22:03:58 choldbr132p kernel: Error:Mpx:Symm 000190104720 vol 0c71 is dead.
Mar 27 22:03:58 choldbr132p kernel: Buffer I/O error on device sdbig, logical block 0
...

4.0 - 診断CSSDAGENTの追放やCSSDMONITOR

あなたがCSSDAGENTまたはCSSDMONITORの追放が発生した場合は、セクション4.1に記載されている一般的な原因を参照してください。

4.1 - CSSDAGENTの追放やCSSDMONITORの一般的な原因

  • OSのスケジューリング問題。例えば、OSがドライバに遭遇し、ハードウェアの問題またはホスト負荷が高すぎる(使用CPU 100%)及びその他の問題、OSスケジューリング異常につながります。
  • CSSD以上のスレッドがハングします。
  • Oracleのバグ。

4.2 - CSSDAGENTまたはCSSDMONITORは、ファイルが収集して表示する必要が強制送還しました

セクション2.0に記載されているすべてのノードのすべてのファイルは、より多くの情報が必要な場合があります。
参考資料:
トラブルシューティングClusterwareのノードまでの立ち退き(再起動後)(ドキュメントID 1050693.1)

おすすめ

転載: blog.csdn.net/baidu_39459954/article/details/80625509