グラフィックス カードの異常: nvidia-smi の後にグラフィックス カードのプロンプトが表示されます。解決策としては、nvidia ドライバーをアンインストールして再インストールします。
記事ディレクトリ
記事ディレクトリ
1 つの理由
プログラムは最初は正常に実行されましたが、突然検出出力が表示されなくなりました。次のコマンドを試してください。
nvidia-smi
エラーは次のように報告され、[Error1] として記録されます。
Unable to determine the device handle for GPU 8000:01:00.0: Unknown Error
マシンを再起動すると、出力は次のようになり、[Error2] として記録されます。
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
2 解決プロセス
(1)まず、最初の反応はドライバーが接続できないというものでしたので、ドライバーを再インストールしたところ、再びグラフィックカードの情報や使用状況が正常に出力されるようになりました。
(2) しかし、その後間もなく、プログラムは再びエラーを起こし、nvidia-smi に入り、上記の [Error1] 問題を報告しました。マシンを再起動した後も、[Error2] の出力が表示されます。グラフィックス カードがサーバーから物理的に分離されており、ピンが緩んでいるのではないかと思います。そこで、次のような実験を行いました。
(2.1) 障害のあるサーバーを選択し、nvidia-smi を入力すると、グラフィックス カードが正常に出力され、シャットダウンします。
(2.2) サーバーのグラフィック カードを取り外し、起動後に nvidia-smi を入力し、グラフィック カードに前述の [Error2] を入力してシャットダウンします。
(2.3) サーバーのグラフィック カードを再度接続し、起動後に nvidia-smi を入力すると、グラフィック カードは正常に出力します。ここでは、コンピューターの起動後にグラフィックス カード ドライバーの再インストールさえしませんでした。グラフィックス カードを取り外して再度接続するには、グラフィックス カード ドライバーを再インストールする必要があると私は常々思っていたことに注意してください。ここでグラフィックス カードを再接続した後、ドライバーを再インストールする必要がなくなったことに驚きました。
処理に必要なコマンドは3つ
(1) 以下のコマンド(rev ff)が出力された場合は、グラフィックスカードが物理的に緩んでいる可能性があります。
lspci| grep -i nvidia
通常の出力の例は次のとおりです。
02:00.0 VGA compatible controller: NVIDIA Corporation Device 2684 (rev a1)
02:00.1 Audio device: NVIDIA Corporation Device 22ba (rev a1)
(2) 物理グラフィックカードの有無を確認するコマンドは以下のとおりです。
sudo lshw -C display
=====>Print では何も出力されません。通常は物理設備情報が出力されます。通常の出力例は次のとおりです。
*-display
description: VGA compatible controller
product: NVIDIA Corporation
vendor: NVIDIA Corporation
physical id: 0
bus info: pci@0000:02:00.0
version: a1
width: 64 bits
clock: 33MHz
capabilities: pm msi pciexpress vga_controller bus_master cap_list rom
configuration: driver=nvidia latency=0
resources: irq:137 memory:a2000000-a2ffffff memory:90000000-9fffffff memory:a0000000-a1ffffff ioport:4000(size=128) memory:c0000-dffff
(3) OSのリリースバージョン番号を表示する
uname -r
(4) システム名、ノード名、オペレーティングシステムのリリース番号、カーネルのバージョンなどを表示します。
uname -a
(5)
lspci
通常の出力には NVIDIA 情報が含まれますが、異常な出力には含まれません。
4 解決する
結局のところ、物理的なグラフィックス カードまたはカード スロットに問題があるに違いないと感じました。
4.1 グラフィックス カードを再度挿入します。
NVIDIAドライバーのアンインストール方法(アンインストール後、マシンを再起動してインストールします)
方法一
sudo bash NVIDIA-Linux-x86_64-510.47.03.run -uninstall
方法二
sudo apt-get --purge remove nvidia*
sudo apt autoremove
卸载完成之后,记得重启机器再安装,然后再如下命令安装
sudo ./NVIDIA-Linux-x86_64-510.47.03.run -no-x-check
ドライバーを再インストールした後、nvidia-smi と入力すると、出力が正しくなります。
4.2 グラフィックス カードを変更してみる
4.1で解決されたので試してませんでした。
4.3 グラフィックス カードを同じモデルの他のマシンに取り付けてパフォーマンスをテストする
4.1で解決されたので試してませんでした。
5。結論
ハードウェアの問題については、まだ夏であり、屋外に装置を設置しました。装置を分解したところ、グラフィックス カードの電源アダプター ケーブルがファンに近すぎて、ファンの回転に影響を与えていることがわかりました。ファンの回転により電源アダプタのケーブルが損傷し、接触不良が発生しました。その理由としては、①温度が高すぎて短期間のハードウェア障害によりドライバーの異常が発生すること、②ファンによって電源アダプターケーブルの接触不良が発生し、グラフィックスカードの電源が失われること、などが考えられます。