print(torch.cuda.is_available()) エラー NumCudaDevices() を解決するには、fabricmanager をインストールします

ファブリックマネージャーをインストールする

問題: print(torch.cuda.is_available()) はエラーを報告しますが、CUDA と cudnn の両方がインストールされており、バージョンは適切に対応しています。エラーは次のとおりです。

UserWarning: CUDA 初期化: cudaGetDeviceCount() からの予期しないエラー。NumCudaDevices() を呼び出す前に、既にエラーを設定している可能性のあるいくつかの cuda 関数を実行しましたか? エラー 802: システムはまだ初期化されていません (…/c10/cuda/CUDAFunctions.cpp:109 で内部的にトリガーされます。)
return torch._C._cuda_getDeviceCount() > 0

説明: NVIDIA NVLink A100 GPU カードでは、NVSwitch を介して GPU カードを相互接続できるように、ドライバーのバージョンに対応する nvidia-fabricmanager サービスを追加インストールする必要があります。NVIDIA GPU ドライバーのみがインストールされている場合、GPU は正しく機能しません。インストール手順は次のとおりです。

Web サイトから、fabricmanager に対応するドライバーのバージョンをダウンロードします: Index of /compute/cuda/repos/ubuntu2204/x86_64 (nvidia.cn)

#若有旧的版本,请删去后重新下载

#手动安装
sudo apt-get install ./nvidia-fabricmanager-535_535.104.05-1_amd64.deb
#解除禁用
sudo systemctl enable nvidia-fabricmanager
#重启
sudo systemctl restart nvidia-fabricmanager
#检查状态
sudo systemctl status nvidia-fabricmanager
#安装成功

おすすめ

転載: blog.csdn.net/gary101818/article/details/132687029