Ilustración detallada de la instalación y desinstalación de cuda (Ubuntu, Debian)

CUDA requiere una tarjeta gráfica Nvidia o una tarjeta informática. Las tarjetas gráficas AMD o Intel no son aceptables (pero existen estándares para ellas).
Incluso se puede usar una tarjeta flash. Por ejemplo, se
recomienda usar Ubuntu para GT710, porque CUDA es desarrollado en esta plataforma. Por supuesto, otros sistemas Linux también pueden realizar
las siguientes operaciones. Se han realizado en el servidor Ubuntu 2204, debian12 y debian11. Si no ha instalado un sistema Linux, puede consultar el
diagrama de instalación del servidor Ubuntu.
y diagrama de instalación de Debian .


¡Aviso! ¡Instale la versión correspondiente de cuda según sea necesario! La instalación de diferentes versiones es similar a
la idea principal: instalar la tarjeta N (hardware), instalar las dependencias de cuda (principalmente el compilador de c), instalar el controlador de la tarjeta N, instalar nvcc, instalar cuda Además, es posible que también necesite pytorch, tf,
antes selección de la versión Asegúrese de seleccionar según sus propias necesidades. Algunos componentes también tienen requisitos para el sistema operativo. Para reducir la duplicación del trabajo, primero haga coincidir todas las versiones de los componentes requeridos y luego instálelos uno por uno.
La documentación oficial es siempre la mejor: documentación de instalación oficial de cuda

1. Verifique el entorno de hardware y software y elimine Nouveau

不要省略这一步,检查环境确定符合基本需求

1. Asegúrese de que el sistema reconozca la tarjeta N

lspci | grep -i nvidia

Se muestra información similar a la siguiente (las figuras a continuación son rtx3090 24G y rtx4090 24G):
Insertar descripción de la imagen aquíInsertar descripción de la imagen aquí

2. Verifique el compilador gcc

gcc --version

Si es normal, se mostrará la versión, similar a la siguiente información
Insertar descripción de la imagen aquí

De lo contrario, se recomienda instalar una gran colección de paquetes de este c, de una vez por todas.

apt-get install build-essential

3. Compruebe si los programas de soporte relevantes están instalados.

apt-get install linux-headers-$(uname -r)

4. Eliminar el nuevo

(Este paso no es necesario. Según la situación real, desinstálelo si se le solicita).
Linux instala el controlador de código abierto de la tarjeta N de forma predeterminada, a saber, Nouveau.

检查Nouveau工作状态

lsmod | grep nouveau

Si sale mucha información es que el driver sigue ahí, desinstálalo y
edita un nuevo archivo, el nombre no tiene que ser este, otros nombres funcionarán.

vi /etc/modprobe.d/nouveau.conf

El contenido es el siguiente.

blacklist rivafb
blacklist vga16fb
blacklist nouveau
blacklist nvidiafb
blacklist rivatv
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

aplicado al núcleo

update-initramfs -u

Una vez completado , reinicie la computadora y luego verifique nuevamente.
Si no hay información, aún se mostrará si la computadora no se reinicia.

lsmod | grep nouveau

2. Utilice cuda Toolkit para instalar

Se recomienda utilizar para instalar Family Bucket: controlador de tarjeta N + cuda + nvcc
Nota: este método no requiere instalar el controlador primero y también elimina la necesidad de encontrar problemas de compatibilidad.
La versión del controlador requerida por cuda es la versión más baja, es decir, se dice que puede usar el controlador más reciente con una versión anterior de cuda.
​​Dirección oficial: cuda toolkit
le solicita nuevamente: seleccione la versión según sus necesidades. Por ejemplo, si desea usar pytorch, tensorflow , etc., cualquiera que sea necesario utilizar, el método de instalación de diferentes versiones es el mismo.
Insertar descripción de la imagen aquí
Recuerde que para el enlace anterior, no haga clic en el enlace Versionado... en la parte posterior. Ese es un documento detallado en inglés, que parece molesto.

Si elige esta forma, el comando de instalación aparecerá a continuación. Simplemente cópielo y úselo. La
versión 12.1 se instala aquí. Puede elegir la versión que necesita en la dirección oficial anterior. Los métodos son similares.
También se pueden ver diferentes sistemas. Los métodos de instalación correspondientes aquí., Y luego copie los siguientes comandos uno por uno.
Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí
La siguiente es una operación paso a paso de acuerdo con los comandos:

(1) Consulte esto para el sistema ubuntu.

1. Primero cambie al directorio de descarga del programa.

mkdir /usr/local/my_cuda && cd /usr/local/my_cuda

2. Operación de instalación

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin

perfil movil

mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600

Descargue el paquete de instalación

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb

Instalar

dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb

Instalar clave

cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/

renovar

apt-get update

Instale cuda, este paso lleva mucho tiempo, espere pacientemente

apt-get -y install cuda

Reinicie la computadora una vez completada la instalación; de lo contrario, pueden ocurrir varios problemas

(2) Consulte esto para el sistema Debian.

Elija el método de instalación local

1. Ingrese al directorio operativo

cd /usr/local

2. Descargue la clave e instálela en el sistema.

wget https://developer.download.nvidia.com/compute/cuda/repos/debian11/x86_64/cuda-keyring_1.0-1_all.deb
dpkg -i cuda-keyring_1.0-1_all.deb
add-apt-repository contrib

Si el comando anterior genera un error, use el siguiente comando

apt-get install software-properties-common

3. Instalar

时间较长,耐心等待

apt-get update
apt-get -y install cuda

Reinicie la computadora una vez completada la instalación; de lo contrario, pueden ocurrir varios problemas

3. Prueba

La versión de cuda está sujeta a la que muestra nvcc. Si el controlador de la tarjeta N es más nuevo, la versión mostrada por nvidia-smi será la nueva versión de cuda y la llamada real se realiza a través de nvcc.

1. Pruebe nvcc (compilador cuda)

nvcc -V

La visualización normal es la siguiente (si ocurre un error, consulte la sección de manejo de problemas en la Sección 4 para encontrar soluciones):
Insertar descripción de la imagen aquí

2. Prueba nvidia-smi

nvidia-smi

Si hay un problema en ambos pasos, la cuarta sección lo solucionará.

4. Manejo de problemas

1.nvcc muestra que no

encontrar nvcc

find / -name "nvcc"

Por ejemplo, aparece el siguiente directorio
Insertar descripción de la imagen aquí

vi ~/.bashrc

Agregue la última parte (si no está instalando la versión 12.1, debe cambiar la versión en el directorio)

export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64
export PATH=$PATH:/usr/local/cuda-12.1/bin

Después de guardar, actualice las variables de entorno.

source ~/.bashrc

Utilice el comando nuevamente (tenga en cuenta que la V está en mayúscula)

nvcc -V

¿No es muy amable ver lo siguiente?
Insertar descripción de la imagen aquí

2. error de nvidia-smi

据说重启解决80%问题
Por ejemplo, como se muestra en la figura siguiente, si hay un error, simplemente reinicie, porque se instaló arriba y muchos problemas se pueden resolver reiniciando, o si no se puede encontrar el hardware, reinicie (también existe la
Insertar descripción de la imagen aquíposibilidad que la tarjeta gráfica no está conectada correctamente!)
Insertar descripción de la imagen aquí

Use nvidia-smi nuevamente para ver información similar a la siguiente (la esquina superior izquierda es la versión del controlador de la tarjeta N y la esquina superior derecha es la versión cuda)
La versión cuda está sujeta a nvcc
Insertar descripción de la imagen aquí

Cinco, desinstalación de cuda

Si necesita cambiar a una versión diferente, se recomienda que coexistan varias versiones, lo cual no se tratará aquí. Si desea desinstalarlo por completo, siga las siguientes operaciones
权限不够前面加sudo,我这里用root进行安装

1. Prepárese para eliminar cuda

apt-get remove cuda

2. Desinstalación automática

apt autoremove 

3. Eliminar otra cuda

apt autoremove cuda*

4. Elimine el paquete de instalación descargado (o no lo elimine)

rm /usr/local/my_cuda/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb

5. Encuentra el paquete relacionado

dpkg -l |grep cuda

De manera similar a algunos paquetes como se muestra a continuación, elimine manualmente los paquetes relevantes. De lo contrario, la instalación de otras versiones fallará
Insertar descripción de la imagen aquí. Complete el nombre de arriba y elimínelo a continuación.

dpkg -P cuda-repo-ubuntu2204-12-1-local cuda-toolkit-12-1-config-common cuda-toolkit-12-config-common cuda-toolkit-config-common cuda-visual-tools-12-1

6. Notas complementarias

1. Actualizar la tarjeta gráfica

Si cambia la tarjeta gráfica, generalmente no es necesario reinstalarla, si no funciona, simplemente reinstálela.

2. Limite el consumo de energía (con precaución)

Algunas tarjetas gráficas limitan el consumo de energía para reducir eficazmente las temperaturas con poca pérdida de rendimiento.
以下仅作参考,通常情况不要动

Ingrese al modo de persistencia

nvidia-smi -pm 1

Limite el consumo de energía de la tarjeta 0 a 200w

nvidia-smi -pl 200 -i 0

3. Instale una versión anterior de cuda

Aunque la versión de cuda tiene restricciones de versión del controlador, la versión con esta restricción es la versión más baja del controlador.
Por ejemplo, la versión inicial del controlador de rtx4090 es 522.25, mientras que la versión cuda predeterminada de cuda11.8 es 522.06 (no se puede instalar directamente de forma predeterminada). Si necesita esta versión de cuda.
Primero debe instalar el controlador de la tarjeta N y luego ejecutar cuda takeit11.8. En este momento, el programa omitirá el controlador de forma predeterminada. La versión de cuda mostrada por nvcc -V y nvidia-smi es inconsistente porque los dos principios son diferentes. .cuda se ejecuta a través de nvcc., por lo que nvcc prevalecerá, especialmente en Windows, no importa si actualiza accidentalmente el controlador de la tarjeta N, la versión real de CUDA no cambiará.

Supongo que te gusta

Origin blog.csdn.net/ziqibit/article/details/129935737
Recomendado
Clasificación