Oracleクラスター管理-クラスターリソースcrsd異常起動ケース1

1環境紹介

データベースバージョン11.2.0.4RAC環境。

オペレーティングシステムバージョンcentos7

2故障現象

データベース内のノードが本日再起動され、再起動が完了した後に検出されました。データベースエージェント情報で実行されているエージェントは3つだけです

[grid @ rac02 admin] $ ps -ef | grep agent
patrol 10723 10552 0 09:56?00:00:00 / usr / bin / ssh-agent / bin / sh -c exec -l / bin / bash -c "env GNOME_SHELL_SESSION_MODE = classic gnome-session --session gnome-classic"
grid 16067 1 0 10:02 ?00:00:00 /u01/11.2.0/bin/oraagent.bin
root 16099 1 0 10:02?00:00:02 /u01/11.2.0/bin/orarootagent.bin
root 16145 1 0 10:02?00:00:00 /u01/11.2.0/bin/cssdagent
grid 19423 16434 0 10:07 pts / 2 00:00:00 grep --color = auto agent

クエリリソースのステータス情報は次のとおりです。

[grid @ rac02 admin] $ crsctl status res -t -init
------------------------------------ --------------------------------------------
NAME TARGET状態サーバーSTATE_DETAILS       
- -------------------------------------------------- -----------------------------
クラスターリソース
------------------- -------------------------------------------------- -----------
ora.asm
      1 ONLINE ONLINErac02開始             
ora.cluster_interconnect.haip1
      ONLINE ONLINE rac02                                      
ora.crf
      1 ONLINE ONLINE rac02                                      
ora.crsd
      1 ONLINE OFFLINE            
                                      
now.cssd
      1 ONLINE ONLINE rac02                                      
now.cssdmonitor
      1 ONLINE ONLINE rac02                                      
now.ctssd
      1 ONLINE ONLINE rac02 OBSERVER            
ora.diskmon
      1 OFFLINE ONLINE                                                   
now.evmd
      1 ONLINE ONLINE rac02                                      
now.gipcd
      1 ONLINE ONLINE rac02                                      
now.gpnpd
      1 ONLINE ONLINE rac02                                      
ora.mdnsd
      1 ONLINE ONLINE rac02                                      
[grid @ rac02 admin] $ 

crsdリソースはオフラインです。

3ログ分析

アラートログをクエリして、次の情報を見つけます


[crsd(19237)] CRS-0813:エラー[clsclistenがret 3で失敗しました
(ファイル:caa_Socket.cpp、行:525
])でネットワーク層の初期化に失敗したため、クラスター準備完了サービスが中止されました。 。/u01/11.2.0/log/rac02/crsd/crsd.log
2021年3月10日10:07:17.115: 
[OHASD(15918)] CRS-2765:リソース'ora.crsdが'サーバ「RAC02に失敗しました'
。2021-03-1010:07:17.116: 
[ohasd(15918)] CRS-2771:リソース' ora.crsd 'の最大再起動試行に達しました;再起動しません。

crsd.logにクエリを実行し、次の情報を見つけます。


[OCRMAS] [1132443392] th_master:グループ公開データイベントを受信しました。インカネーション[1]
2021-03-10 10:07:16.527:[OCRMAS] [1132443392] th_master:1 ':ノード[2]からのRecvdpubdataイベント
2021-03-1010:07:16.527:[OCRMAS] [1132443392 ] th_master:2 ':自己のRecvdpubdataイベント。何もしない。
2021-03-10 10:07:16.533:[CRSMAIN] [1468389184]パスの初期化を実行しています...
2021-03-10 10:07:16.539:[CLSE] [1468389184] clse_get_auth_loc:デフォルトのauthlocを返します:/u01/11.2 .0 / auth / crs / rac02
2021-03-10 10:07:16.539:[CRSMAIN] [1468389184]承認者の場所の使用:/u01/11.2.0/auth/crs/rac02
2021-03-10 10:07: 16.539:[CRSMAIN] [1468389184] clucluコンテキストを初期化しています...
2021-03-10 10:07:16.551:[CLSCLU] [1468389184] clsclu_init:rc 0
2021年3月10日10:07:16.551:[CRSMAIN] [1468389184] CRルートを取得...
2021年3月10日10:07:16.555:[CRSMAIN] [1468389184]の初期化RTI
2021年3月10日10:07 :16.555:[CRSMAIN] [1468389184]ステージング領域の初期化
2021-03-1010:07:16.571:[CLSE] [1468389184] clse_get_auth_loc:デフォルトのauthlocを返します:/u01/11.2.0/auth/crs/rac02
2021-03 -10 10:07:16.571:[デフォルト] [1468389184] AuthLoc /u01/11.2.0/auth/crs/rac02
2021-03-10 10:07:16.571:[デフォルト] [1468389184] PEアクティブバージョン:11.2。 0.4.0
2021-03-10 10:07:16.571:[デフォルト] [1468389184] PEエンジン:NEW
2021-03-10 10:07:16.571:[デフォルト] [1468389184] OCRバッチ操作の使用:
有効2021-03 -10 10:07:16.571:[CRSMAIN] [1468389184] RTIロック情報を作成しています...
2021-03-10 10:07:16.571:[CRSMAIN] [1468389184] EVMMgrを初期化しています
2021-03-1010:07:16.576:[CRSMAIN] [1468389184]ローカルノード名を取得しています...
[CLWAL] [1468389184] clsw_Initialize: OLR initlevel [70000]
2021-03-10 10:07:16.617:[OCRSRV] [1126139648] th_upgrade:アップグレード計算の開始
2021-03-10 10:07:16.630:[OCRSRV] [1126139648] th_upgrade:10.1 AV [186647552 ]。状態[11]。すでにアップグレードされています。グローバルデータをcrsバージョングループに更新しました。戻り値[0]
2021-03-10 10:07:16.835:[COMMCRS] [1096722176] clsclisten:リッスン中のエラー:(ADDRESS =(PROTOCOL = tcp)(HOST = 10.2.0.76)(PORT = 0))

2021-03-10 10:07:16.835:[COMMCRS] [1096722176] clsclisten:op 65が失敗しました、NSerr(12560、0)、トランスポート:(584、0、0)

2021-03-10 10:07:16.836:[CRSD] [1468389184]アラートを作成しました:(:CRSD00133 :):E2Eポートを取得できません、エラー:IOException:clsclistenがret 3で失敗しました
(ファイル:caa_Socket.cpp、行: 525

2021-03-10 10:07:16.836:[CRSD] [1468389184] [PANIC] CRSD終了:2回目の試行後にE2Eポートを取得できません
2021-03-10 10:07:16.836:[CRSD] [1468389184]完了。

ネットワークカード情報を次のように表示します。

ens36:flags = 4163 <UP、BROADCAST、RUNNING、MULTICAST> mtu 1500
        inet10.2.151.86ネットマスク255.255.255.224ブロードキャスト10.228.151.95inet6
        fe80 :: 250:56ff:fe8d:5908 prefixlen64スコープID0x20 <リンク>イーサネット
        00:50 :56:8d:59:08 txqueuelen 1000(イーサネット)
        RXパケット7289バイト646307(631.1 KiB)
        RXエラー0ドロップ0オーバーラン0フレーム0
        TXパケット10140バイト6909723(6.5 MiB)
        TXエラー0ドロップ0オーバーラン0キャリア0衝突0

ens37:flags = 4163 <UP、BROADCAST、RUNNING、MULTICAST> mtu 1500
        inet10.2.0.76ネットマスク255.255.255.0ブロードキャスト10.2.0.255inet6
        fe80 :: 250:56ff:fe8d:13fa prefixlen64スコープID0x20 <リンク>イーサネット
        00:50 :56:8d:13:fa txqueuelen 1000(イーサネット)
        RXパケット271バイト35397(34.5 KiB)
        RXエラー0ドロップ0オーバーラン0フレーム0
        TXパケット183バイト29338(28.6 KiB)
        TXエラー0ドロップ0オーバーラン0キャリア0衝突0

ens37:1:flags = 4163 <UP、BROADCAST、RUNNING、MULTICAST> mtu 1500
        inet 169.254.220.193 netmask 255.255.0.0
        Broadcast 169.254.255.255 ether 00:50:56:8d:13:fa txqueuelen 1000(イーサネット)

lo:flags = 73 <UP、LOOPBACK、RUNNING> mtu 65536
        inet 127.0.0.1 netmask 255.0.0.0
        inet6 :: 1 prefixlen 128 scopeid 0x10 <host>
        loop txqueuelen 1000(ローカルループバック)
        RXパケット4524バイト7037484(6.7 MiB)
        RXエラー0ドロップ0オーバーラン0フレーム
        0TXパケット4524バイト7037484(6.7 MiB)
        TXエラー0ドロップ0オーバーラン0キャリア0コリジョン0

virbr0:flags = 4099 <UP、BROADCAST、MULTICAST> mtu 1500 inet192.168.122.1
        ネットマスク255.255.255.0ブロードキャスト192.168.122.255ether
        52:54:00:8d:96:71 txqueuelen 1000(イーサネット)
        RXパケット0バイト0(0.0 B)
        RXエラー0ドロップ0オーバーラン0フレーム0
        TXパケット0バイト0(0.0 B)
        TXエラー0ドロップ0オーバーラン0キャリア0コリジョン0

virbr0-nic:flags = 4098 <BROADCAST、MULTICAST> mtu 1500
        ether 52:54:00:8d:96:71 txqueuelen 1000(イーサネット)
        RXパケット0バイト0(0.0 B)
        RXエラー0ドロップ0オーバーラン0フレーム0
        TXパケット0バイト0(0.0 B)
        TXエラー0ドロップ0オーバーラン0キャリア0コリジョン0

[grid @ rac02 rac02] $ 

HAIPは正常に開始されました。

4問題解決

その後、GRID_HOMEの下のsqlnet.oraファイルの設定に問題があるため、スキャンと通常のリスナーが正常に起動できないことが発見されました。

[grid @ rac02 admin] $ rm sqlnet.ora

開始リソース

[grid @ rac02 admin] $ crsctl start resource "ora.crsd" -init
CRS-2672:「rac02」で「ora.crsd」を開始しようとしています
CRS-2676:「rac02」で「ora.crsd」の開始に成功しました
[ grid @ rac02 admin] $ ps -ef | grep tns
root 19 2 0 09:55?00:00:00 [netns]
grid 21423 20603 0 10:12 pts / 2 00:00:00 grep --color = auto tns
[grid @ rac02 admin] $ ps -ef | grep tns
root 19 2 0 09:55 ?00:00:00 [netns]
grid 21493 20603 0 10:12 pts / 2 00:00:00 grep --color = auto tns
[grid @ rac02 admin] $ ps -ef | grep tns
root 19 2 0 09:55 ?00:00:00 [netns]
グリッド2150620603 010:12ポイント/ 2 00:00:

ルート192 0 09:55?00:00:00 [netns]
グリッド215131 2 10:12?00:00:00 /u01/11.2.0/bin/tnslsnrLISTENER_SCAN1-
グリッド215251 0 10:12を継承しますか?00:00:00 /u01/11.2.0/bin/tnslsnr LISTENER -inherit
grid 21546 20603 0 10:12 pts / 2 00:00:00 grep --color = auto tns
[grid @ rac02 admin] $ 

リソースは正常に起動しました。

おすすめ

転載: blog.csdn.net/oradbm/article/details/114633991