cuda のインストールとアンインストールの詳細図 (Ubuntu、Debian)

CUDA には Nvidia グラフィックス カードまたはコンピューティング カードが必要です。AMD または Intel グラフィックス カードは使用できません (ただし、規格はあります)。
フラッシュ カードでも使用できます。たとえば、
CUDA は GT710 に Ubuntu を使用することをお勧めします。このプラットフォームで開発されました。もちろん、他の Linux システムでも次の操作を実行できます。これらの操作は、Ubuntu サーバー 2204、debian12、および debian11 で実行されました。Linux システムをインストールしていない場合は、 Ubuntu サーバーのインストール図
を参照してください。Debian のインストール図。


知らせ!必要に応じて、対応するバージョンの cuda をインストールしてください。異なるバージョンをインストールするための主な考え方は似ています
: N カード (ハードウェア) のインストール、cuda 依存関係のインストール (主に C コンパイラー)、N カード ドライバーのインストール、nvcc のインストール、cuda のインストール さらに、pytorch と tf も必要になる場合があります
。バージョンを選択する前に インストールする前に、必ず自分のニーズに合わせて選択してください。一部のコンポーネントには、オペレーティング システムの要件もあります。作業の重複を減らすために、まず必要なコンポーネントのバージョンをすべてマッピングしてから、1 つずつインストールしてください。
公式ドキュメントは常に最高です: cuda 公式インストール ドキュメント

1. ハードウェアおよびソフトウェア環境を確認し、Nouveau を削除します

不要省略这一步,检查环境确定符合基本需求

1. システムが N カードを認識していることを確認します。

lspci | grep -i nvidia

次のような情報が表示されます (下の写真はそれぞれ rtx3090 24G と rtx4090 24G です)。
ここに画像の説明を挿入しますここに画像の説明を挿入します

2. gcc コンパイラを確認する

gcc --version

正常であれば、次のようなバージョンが表示されます。
ここに画像の説明を挿入します

そうでない場合は、この c のパッケージの大規模なコレクションを一度にインストールすることをお勧めします。

apt-get install build-essential

3. 関連するサポートプログラムがインストールされているかどうかを確認します

apt-get install linux-headers-$(uname -r)

4.ヌーボーを削除する

(この手順は必要ありません。実際の状況に応じて、アンインストールを要求された場合はアンインストールします。)
Linux は、N カードのオープンソース ドライバー (Nouveau) をデフォルトでインストールします。

检查Nouveau工作状态

lsmod | grep nouveau

多くの情報が表示される場合は、ドライバーがまだ存在していることを意味します。ドライバーをアンインストールして、
新しいファイルを編集してください。名前はこの名前である必要はなく、他の名前でも問題ありません。

vi /etc/modprobe.d/nouveau.conf

内容は以下の通りです

blacklist rivafb
blacklist vga16fb
blacklist nouveau
blacklist nvidiafb
blacklist rivatv
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

カーネルに適用

update-initramfs -u

完了後、コンピュータを再起動して再度確認してください。
情報がない場合は、コンピュータを再起動しなくても表示されます。

lsmod | grep nouveau

2. cuda Toolkitを使用してインストールする

Family Bucket がインストールされるように使用することをお勧めします: N カード ドライバー + cuda + nvcc
注: この方法では、最初にドライバーをインストールする必要はなく、互換性の問題を見つける必要もありません。cuda
に必要なドライバーのバージョンは最も低いバージョン、つまり初期の cuda バージョンで最新のドライバーを使用できると言われています
公式アドレス: cuda ツールキットが
再度プロンプトを表示します: 必要に応じてバージョンを選択してください たとえば、pytorch、tensorflow を使用したい場合, など、どちらを使用する必要がある場合でも、異なるバージョンのインストール方法は同じです。
ここに画像の説明を挿入します
覚えておいてください。前のリンクについては、後ろの「バージョン付き...」リンクをクリックしないでください。これは英語の詳細なドキュメントです。面倒な。

この方法を選択すると、インストール コマンドが下に表示されます。コピーして使用してください。12.1
バージョンはここにインストールされます。上記の公式アドレスで必要なバージョンを選択できます。方法は似ています。
別のシステムでも見ることができます対応するインストール方法をここで確認し、次のコマンドを 1 つずつコピーします。
ここに画像の説明を挿入します
ここに画像の説明を挿入します
コマンドを段階的に実行してください。

(1) ubuntuシステムの場合はこちらを参照してください。

1. まず、プログラムのダウンロード ディレクトリに移動します。

mkdir /usr/local/my_cuda && cd /usr/local/my_cuda

2. インストール操作

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin

モバイルプロフィール

mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600

インストールパッケージをダウンロードする

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb

インストール

dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb

インストールキー

cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/

更新する

apt-get update

cuda をインストールします。このステップには時間がかかります。しばらくお待ちください。

apt-get -y install cuda

インストール完了後、コンピュータを再起動しないと、さまざまな問題が発生する可能性があります。

(2) debian系の場合はこちらを参照

ローカルインストール方法を選択してください

1. オペレーティングディレクトリに入る

cd /usr/local

2. キーをダウンロードしてシステムにインストールします

wget https://developer.download.nvidia.com/compute/cuda/repos/debian11/x86_64/cuda-keyring_1.0-1_all.deb
dpkg -i cuda-keyring_1.0-1_all.deb
add-apt-repository contrib

上記のコマンドでエラーが表示された場合は、次のコマンドを使用します。

apt-get install software-properties-common

3.インストール

时间较长,耐心等待

apt-get update
apt-get -y install cuda

インストール完了後、コンピュータを再起動しないと、さまざまな問題が発生する可能性があります。

3. テスト

cuda のバージョンは、nvcc によって表示されるバージョンに従います。N カード ドライバーが新しい場合、nvidia-smi によって表示されるバージョンが新しい cuda バージョンとなり、実際の呼び出しは nvcc を介して行われます。

1. nvcc (cuda コンパイラ) をテストします。

nvcc -V

通常の表示は次のとおりです (エラーが発生した場合は、解決策についてセクション 4 の問題処理セクションを参照してください)。
ここに画像の説明を挿入します

2.nvidia-smiをテストする

nvidia-smi

両方のステップに問題がある場合は、セクション 4 で対処します。

4. 問題への対応

1.nvcc で「いいえ」が表示される

nvccを探す

find / -name "nvcc"

たとえば、次のディレクトリが表示されます
ここに画像の説明を挿入します

vi ~/.bashrc

最後の部分を追加します (バージョン 12.1 をインストールしていない場合は、ディレクトリ内のバージョンを変更する必要があります)

export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64
export PATH=$PATH:/usr/local/cuda-12.1/bin

保存後、環境変数を更新します

source ~/.bashrc

コマンドを再度使用します (V は大文字であることに注意してください)

nvcc -V

以下を見るととても親切だと思いませんか?
ここに画像の説明を挿入します

2.nvidia-smiエラー

据说重启解决80%问题
例えば、下図のように、エラーが発生した場合は、上記でインストールされているので再起動するだけで問題が解決することも多いですし、ハードウェアが見つからない場合は再起動する(可能性もあります
ここに画像の説明を挿入します)グラフィックス カードが正しく接続されていない可能性があります。)
ここに画像の説明を挿入します

再度 nvidia-smi を使用すると、次のような情報が表示されます (左上隅が N カード ドライバーのバージョン、右上隅が cuda のバージョンです) cuda のバージョンは nvcc の影響を受け
ます
ここに画像の説明を挿入します

5. cudaのアンインストール

別のバージョンに変更する必要がある場合は、複数のバージョンを共存させることをお勧めしますが、ここでは説明しません。完全にアンインストールしたい場合は、次の操作を行ってください。
权限不够前面加sudo,我这里用root进行安装

1. cuda を削除する準備をする

apt-get remove cuda

2. 自動的にアンインストールする

apt autoremove 

3. 他の cuda を削除する

apt autoremove cuda*

4. ダウンロードしたインストール パッケージを削除します (または削除しません)。

rm /usr/local/my_cuda/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb

5. 関連するパッケージを見つける

dpkg -l |grep cuda

以下に示す一部のパッケージと同様に、関連するパッケージを手動で削除します。そうしないと、他のバージョンのインストールが失敗します
ここに画像の説明を挿入します。上に名前を入力し、下で削除してください。

dpkg -P cuda-repo-ubuntu2204-12-1-local cuda-toolkit-12-1-config-common cuda-toolkit-12-config-common cuda-toolkit-config-common cuda-visual-tools-12-1

6. 補足事項

1.グラフィックスカードをアップグレードする

グラフィックス カードを変更した場合、通常は再インストールする必要はありませんが、動作しない場合は再インストールしてください。

2. 消費電力を制限する (注意が必要)

一部のグラフィックス カードは、パフォーマンスをほとんど低下させずに効果的に温度を下げるために消費電力を制限します。
以下仅作参考,通常情况不要动

永続モードに入る

nvidia-smi -pm 1

カード 0 の消費電力を 200w に制限する

nvidia-smi -pl 200 -i 0

3. 古いバージョンの cuda をインストールする

cuda バージョンにはドライバー バージョン制限がありますが、この制限があるバージョンがドライバーの最低バージョンとなります。
たとえば、rtx4090 の初期ドライバー バージョンは 522.25 ですが、cuda11.8 のデフォルトの cuda バージョンは 522.06 です (デフォルトでは直接インストールできません)。このバージョンの cuda が必要な場合。
最初に N カード ドライバーをインストールしてから、cuda takeit11.8 を実行する必要があります。このとき、プログラムはデフォルトでドライバーをスキップします。nvcc -V と nvidia-smi で表示される cuda バージョンは、2 つの原則が異なるため一貫性がありません。 . cuda は nvcc を通じて実行されるため、特に Windows では nvcc が優先され、N カード ドライバーを誤ってアップグレードしても問題なく、CUDA の実際のバージョンは変更されません。

おすすめ

転載: blog.csdn.net/ziqibit/article/details/129935737