システムバージョン:CentOS 7.9.2009
カーネル バージョン: Linux localhost.localdomain 3.10.0-1160.el7.x86_64 #1 SMP Mon Oct 19 16:18:59 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux
1. 依存関係をインストールする
yum -y install epel-release
yum -y install gcc binutils wget
yum -y install kernel-devel
2. Nouveauを無効にする
2.1. Nouveau がオンになっているかどうかを確認する
lsmod | grep nouveau
注: 情報が出力されない場合は無効になっているため、次の手順を実行する必要はありません。
2.2. 設定の変更
echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist.conf
2.3.バックアップ画像
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
2.4.リビルド
dracut /boot/initramfs-$(uname -r).img $(uname -r)
2.5. システムを再起動する
reboot
2.6. 閉まっているか確認する
lsmod | grep nouveau
注: 無効化が成功したことを示す情報は出力されません。
3. ドライバーを確認する
3.1. elrepo ソースのインストール
rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-4.el7.elrepo.noarch.rpm
または
yum -y install https://www.elrepo.org/elrepo-release-7.0-4.el7.elrepo.noarch.rpm
3.2. nvidia-detect のインストール
yum -y install nvidia-detect
3.3. グラフィックスカードドライバーの検出
nvidia-detect -v
サポートされている NVIDIA デバイスを調べています…
[10de:1b06] NVIDIA Corporation GP102 [GeForce GTX 1080 Ti]
このデバイスには、現在の 510.60.02 NVIDIA ドライバー kmod-nvidia が必要です
4. ドライバーのインストール
4.1. ドライバーのダウンロード
wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/510.68.02/NVIDIA-Linux-x86_64-510.68.02.run
注: バージョン番号が私のものと一致しないことが判明した場合は、自分で部品を交換できます。
提案: NVIDIA 公式 Web サイトから USB フラッシュ ドライブにダウンロードし、サーバーにコピーします。
注: Nvidia は下位互換性のある最新バージョンのみを提供するため、ここでインストールしたものは 510.60.02 ではなく 510.68.02 です。
4.2.認可
chmod +x NVIDIA-Linux-x86_64-510.68.02.run
ここでエラーが報告されるため、X サービスを閉じる必要があります。
gdmかどうかを確認します(2種類あり、このサーバーレスのものはgdmに属します)
systemctl --all|grep gdm
whereis gdm
systemctl stop gdm.service
ドライバーをインストールする
systemctl start gdm.service
4.3.インストール
sh ./NVIDIA-Linux-x86_64-510.68.02.run -s
4.4. グラフィックスカード情報の表示
nvidia-smi
注: 出力された情報は、グラフィックス カード ドライバーがインストールされていることを示しています。
さらに、
python 3.9.11
pytorch1.11.0
tensorflow-gpu 2.7.0Transformers
4.18.0
cuda 11.3
cudnn 8.2.0
もインストールしました。最新バージョンをインストールし、正常に試してみました。
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.68.02 Driver Version: 510.68.02 CUDA Version: 11.6 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... Off | 00000000:01:00.0 On | N/A |
| 49% 82C P2 246W / 250W | 8944MiB / 11264MiB | 99% Default |
| | | N/A |
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 10400 G /usr/bin/X 84MiB |
| 0 N/A N/A 23147 G /usr/bin/gnome-shell 84MiB |
| 0 N/A N/A 29312 C python 8771MiB |
+-----------------------------------------------------------------------------+
5.ドライバーをアンインストールする
5.1. アンインストールとインストール
nvidia-uninstall
5.2. クリーンインストール
dkms remove
注: 「yum -y install dkms」をインストールする必要があります。
6. よくある間違い
1.インストール時の「エラー: 現在実行中のカーネルのカーネル ソース ツリーが見つかりません。カーネルのカーネル ソース ファイルがインストールされており、それらが適切に構成されていることを確認してください。たとえば、Red Hat Linux システムでは、「kernel-source」または「kernel-devel」RPM がインストールされていることを確認してください。正しいカーネル ソース ファイルがインストールされていることがわかっている場合は、「-kernel-source-path」コマンド ライン オプションを使用してカーネル ソース パスを指定できます。
解決:
カーネルライブラリをインストールする
yum -y install epel-release
yum -y install kernel-devel
カーネルのバージョン比較
rpm -qa |grep kernel
uname -r
ドライバーをインストールする
./NVIDIA-Linux-x86_64-510.68.02.run --kernel-source-path=/usr/src/kernels/3.10.0-1160.42.2.el7.x86_64 -k $(uname -r)