nvidia-smi の後にグラフィックス カードのプロンプトが表示されます。解決プロセスには、NVIDIA ドライバーをアンインストールして再インストールする手順が含まれます。

グラフィックス カードの異常: nvidia-smi の後にグラフィックス カードのプロンプトが表示されます。解決策としては、nvidia ドライバーをアンインストールして再インストールします。

1 つの理由

プログラムは最初は正常に実行されましたが、突然検出出力が表示されなくなりました。次のコマンドを試してください。

nvidia-smi

エラーは次のように報告され、[Error1] として記録されます。

Unable to determine the device handle for GPU 8000:01:00.0: Unknown Error

マシンを再起動すると、出力は次のようになり、[Error2] として記録されます。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

2 解決プロセス

(1)まず、最初の反応はドライバーが接続できないというものでしたので、ドライバーを再インストールしたところ、再びグラフィックカードの情報や使用状況が正常に出力されるようになりました。

(2) しかし、その後間もなく、プログラムは再びエラーを起こし、nvidia-smi に入り、上記の [Error1] 問題を報告しました。マシンを再起動した後も、[Error2] の出力が表示されます。グラフィックス カードがサーバーから物理的に分離されており、ピンが緩んでいるのではないかと思います。そこで、次のような実験を行いました。

(2.1) 障害のあるサーバーを選択し、nvidia-smi を入力すると、グラフィックス カードが正常に出力され、シャットダウンします。

(2.2) サーバーのグラフィック カードを取り外し、起動後に nvidia-smi を入力し、グラフィック カードに前述の [Error2] を入力してシャットダウンします。

(2.3) サーバーのグラフィック カードを再度接続し、起動後に nvidia-smi を入力すると、グラフィック カードは正常に出力します。ここでは、コンピューターの起動後にグラフィックス カード ドライバーの再インストールさえしませんでした。グラフィックス カードを取り外して再度接続するには、グラフィックス カード ドライバーを再インストールする必要があると私は常々思っていたことに注意してください。ここでグラフィックス カードを再接続した後、ドライバーを再インストールする必要がなくなったことに驚きました。

処理に必要なコマンドは3つ

(1) 以下のコマンド(rev ff)が出力された場合は、グラフィックスカードが物理的に緩んでいる可能性があります。

lspci| grep -i nvidia

通常の出力の例は次のとおりです。

02:00.0 VGA compatible controller: NVIDIA Corporation Device 2684 (rev a1)
02:00.1 Audio device: NVIDIA Corporation Device 22ba (rev a1)

(2) 物理グラフィックカードの有無を確認するコマンドは以下のとおりです。

sudo lshw -C display 

=====>Print では何も出力されません。通常は物理設備情報が出力されます。通常の出力例は次のとおりです。

  *-display
       description: VGA compatible controller
       product: NVIDIA Corporation
       vendor: NVIDIA Corporation
       physical id: 0
       bus info: pci@0000:02:00.0
       version: a1
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi pciexpress vga_controller bus_master cap_list rom
       configuration: driver=nvidia latency=0
       resources: irq:137 memory:a2000000-a2ffffff memory:90000000-9fffffff memory:a0000000-a1ffffff ioport:4000(size=128) memory:c0000-dffff

(3) OSのリリースバージョン番号を表示する

uname -r 

(4) システム名、ノード名、オペレーティングシステムのリリース番号、カーネルのバージョンなどを表示します。

uname -a

(5)

lspci

通常の出力には NVIDIA 情報が含まれますが、異常な出力には含まれません。

ここに画像の説明を挿入します

4 解決する

結局のところ、物理的なグラフィックス カードまたはカード スロットに問題があるに違いないと感じました。

4.1 グラフィックス カードを再度挿入します。
NVIDIAドライバーのアンインストール方法(アンインストール後、マシンを再起動してインストールします)
方法一
sudo bash NVIDIA-Linux-x86_64-510.47.03.run -uninstall
方法二
sudo apt-get --purge remove nvidia*
sudo apt autoremove
卸载完成之后,记得重启机器再安装,然后再如下命令安装
sudo ./NVIDIA-Linux-x86_64-510.47.03.run -no-x-check

ドライバーを再インストールした後、nvidia-smi と入力すると、出力が正しくなります。

4.2 グラフィックス カードを変更してみる

4.1で解決されたので試してませんでした。

4.3 グラフィックス カードを同じモデルの他のマシンに取り付けてパフォーマンスをテストする

4.1で解決されたので試してませんでした。

5。結論

ハードウェアの問題については、まだ夏であり、屋外に装置を設置しました。装置を分解したところ、グラフィックス カードの電源アダプター ケーブルがファンに近すぎて、ファンの回転に影響を与えていることがわかりました。ファンの回転により電源アダプタのケーブルが損傷し、接触不良が発生しました。その理由としては、①温度が高すぎて短期間のハードウェア障害によりドライバーの異常が発生すること、②ファンによって電源アダプターケーブルの接触不良が発生し、グラフィックスカードの電源が失われること、などが考えられます。

おすすめ

転載: blog.csdn.net/qq_42835363/article/details/132305212