EMC VNX コントローラーの起動プロセスを監視する方法

ここで説明する内容は、基本的に、古い Clariion CX3、CX4、VNX1、VNX2 を含むすべての EMC VNX ミッドレンジ ストレージ システムに適用できます。実際、VNXe と Unity の多くの内容は同じです。もちろん、VNXe および Unity オペレーティング システムには大きな変更が加えられているため、その違いは比較的大きくなります。

EMC Clarrion CX および VNX ストレージ コントローラーの障害には多くの理由があり、一般的なものは次のとおりです。

1. コントローラーの物理的障害

2. コントローラの IO モジュールが故障しています

3. System Disk Vault ソフトウェアまたはハードウェアの障害

4. コントローラのメモリ障害

5. ストレージ オペレーティング システム ソフトウェアのバグ

上記のすべての理由により、コントローラーがハングアップする可能性があります。この記事を書く目的は、2 つのナイフについて一般科学を紹介することです。すべてのコントローラーがオフラインになっているわけではありません。この問題は、コントローラーを交換することで解決できます。

ただし、コントローラーの物理的な故障なのか、他のコンポーネントの故障なのか、それともソフトウェアによる故障なのかをどのように判断するか、これは比較的専門的な内容であり、小さなブログ記事では不可能です。 wechat を通じてご連絡ください: StorageExpert の専門的な判断。

この記事では、フィールド エンジニアが簡単な判断を行うために操作できる基本的な方法をいくつか紹介します。

1.絵の読み方を学ぶ

これは私たちのお気に入りの方法ですが、専門的な方法でもあり、もちろん、これを学んだ後は基本的な判断ができるようになります。CX3、CX4、または VNX1 と 2 のいずれであっても、コントローラーのステータス ライトは似ています。コントローラーごとに物理的な外観は異なりますが、次のライトが見つかります。ここでは CX または VNX5700/7500 を使用しています。写真は次のとおりです。一例として、他のコントローラーにも同様の 3 つのステータス ライトがあります。以下に示すように:

コントローラーには3つのLEDライトがあり、

1) 電源インジケーターライト。多くの人がこれをコントローラーの障害 LED ライトと混同しています。電源インジケーターライトは非常にシンプルで、電源がオンになると常に緑色に点灯します。意味がなければ消滅してしまいます。

2) コントローラの故障 SP インジケータライト。このライトは非常に重要であり、このライトを通じてコン​​トローラのおおよその問題を判断できます。

3) 小さな白い手元ライト。このライトは警告灯です。このライトが点灯している場合は、コントローラーがファームウェアを更新しているか、このコントローラーのみが実行中で、もう一方のコントローラーがハングアップしていることを意味します。動かないでくださいという意味です。

以下では、SP 障害インジケーター ライトのさまざまな状態の意味に焦点を当てます。このインジケーター ライトは静的なものではなく、常に変化の過程であることに注意してください。時々、現場の担当者にこのインジケーター ライトのステータスを見てもらい、次のことを理解してもらいます。すぐに写真を撮ってください。3 秒のビデオでは、この鳥は役に立ちません。このインジケーターライトの変化を観察し、それに応じてその状態に到達したことを確認する必要があります。

LEDライト

明色

ライトの状態

説明する

SPパワー

の上

電源オン

オフ

力がない

SPケージ

アンバー

の上

障害。この障害はシャーシ全体 (電源、環境、ファン、IO モジュール LCC カード、SP、CMI、SFP PROM など) から発生する可能性があります。

現場のエンジニアはSPの状態を確認するよう求められることがありますが、主にライトの状態を確認するために与えられることが多いです。

オフ

正常に動作しています

SP障害LED

(通常起動)

アンバー

オン(連続)

SP障害

4秒に1回点滅します

BIOS が実行中です

毎秒点滅します

POSTが実行中です

1秒間に4回点滅

OSの起動後

4秒ごとに点滅

OSが起動し始める

2秒ごとに点滅

SEPドライバーが起動します

1秒あたり4回のフラッシュ

SEPドライバーの起動が完了しました

オフ

オペレーティング システムが起動する、または起動しない

SP障害LED

(劣化開始)

アンバー

4秒に1回点滅します

BIOS が実行中です

毎秒点滅します

POSTが実行中です

1秒間に4回点滅

OSの起動後

4秒ごとに点滅

OSが起動し始める

最後の長い青で

劣化モードに入る

SP障害LED

(スタート不良)

アンバー

の上

故障があります

2秒ごとに点滅

NMI リセット ボタンが押されました。点滅は、SP が再起動して電源投入シーケンスに入るまで続きます。

1、3、3、で点滅

そして1回

2番

メモリ障害があります

の上

障害が発生する

SP はリトル ホワイト ハンドを削除するのは危険です

の上

 SP ピアでパニックが発生したか、キャッシュを使用して再起動されました

パフォーマンスモードが有効になっています。SP はメモリ内に有効なキャッシュを保持しています。

SP は現在、BIOS/Post ファームウェアをフラッシュしているか、レジューム PROM を更新しています。

The SP is currently dumping the cache data to the vault.

off

The SP can be safely removed for service.

2. 对端控制器来监控过程

如果已经知道了控制器启动到了那个状态,或者根据指示灯大概判断问题在那个阶段,但具体还不知道是什么问题,就可以通过Remoteanywhere登录到正常的对端控制器,然后用工具speclcli来监控启动过程,这个对于故障发生在操作系统级别是比较有用的,可以看到具体那个driver开始重启。但对于判断物理硬件不是很好使,基本上它会告诉你POST以后出了问题,但具体是什么出了问题,就没有详细说明了。

remoteanywhere是对软件问题进行分析的必备工具,也是很复杂的,对VNX的软件体系架构不理解,这个工具基本没有帮助。因为查询出来的结果你是看不懂的。

3. 串口线

这个对于诊断物理故障是最有效的手段,插上串口线,一定要重启控制器,有些人说插上插口线以后,没有任何输出。对于VNX来说,没有任何输出是正常的。控制器启动以后,就没有任何输出了,只有启动过程中才有输出。

所以插上串口线以后,一定要重启控制器来收集这个boot log,从这个日志可以判断出是否是前面的几个系统盘出了问题,还是那个部分的硬件出了问题,都会有清晰的日志描述。

下面是一段Base module报错的格式,如果是其他IO module报错也会有类似的提示,或者DIMM内存报错等,都有类似的说明,非常清楚的可以看到是什么物理故障出现问题。

With the DAE added, when booting up, we have the following errors logging during the boot up.

.... Storage System Failure - Contact your Service Representative ...

ErrorCode: 0x00000907

ErrorDesc:

FRU: Base Module

Device: Base Module Card

Description: BMC indicated I/O module power disabled Error!

Rev: 40.41

Determine Module*

P/N: 303-224-000C-03

S/N: CFxxxxxxxxxxxx

EndError:

ErrorTime: 11/13/2013 23:16:24

WARNING: No SES driver GUID found: Expander

.... Storage System Failure - Contact your Service Representative ...

ErrorCode: 0x00000907

ErrorDesc:

FRU: Base Module

Device: Base Module Card

Description: BMC indicated I/O module power disabled Error!  <<<--

Rev: 40.41

Determine Module*

P/N: 303-224-000C-03

S/N: CFxxxxxxxxxxxx

EndError:

ErrorTime: 11/13/2013 23:16:24

这里就不一一列举各种物理故障的输出,有了输出可以联系我们来一起看,wechat at StorageExpert。

最后纠正大家一个概念,EMC的VNX存储系统没有控制器同步的概念,控制器中没有OS操作系统,有的就是一些物理部件的固件,这个系统自己会根据当前的OS来进行升级或者降级,不需要用户干预和关心。操作系统都在前面四个系统盘上,控制器里面对于存储OS是啥也没有,以后就不要再说,控制器不同步这样太不专业的话了。

おすすめ

転載: blog.csdn.net/m0_72255440/article/details/131137997