CUDA requiere una tarjeta gráfica Nvidia o una tarjeta informática. Las tarjetas gráficas AMD o Intel no son aceptables (pero existen estándares para ellas).
Incluso se puede usar una tarjeta flash. Por ejemplo, se
recomienda usar Ubuntu para GT710, porque CUDA es desarrollado en esta plataforma. Por supuesto, otros sistemas Linux también pueden realizar
las siguientes operaciones. Se han realizado en el servidor Ubuntu 2204, debian12 y debian11. Si no ha instalado un sistema Linux, puede consultar el
diagrama de instalación del servidor Ubuntu.
y diagrama de instalación de Debian .
¡Aviso! ¡Instale la versión correspondiente de cuda según sea necesario! La instalación de diferentes versiones es similar a
la idea principal: instalar la tarjeta N (hardware), instalar las dependencias de cuda (principalmente el compilador de c), instalar el controlador de la tarjeta N, instalar nvcc, instalar cuda Además, es posible que también necesite pytorch, tf,
antes selección de la versión Asegúrese de seleccionar según sus propias necesidades. Algunos componentes también tienen requisitos para el sistema operativo. Para reducir la duplicación del trabajo, primero haga coincidir todas las versiones de los componentes requeridos y luego instálelos uno por uno.
La documentación oficial es siempre la mejor: documentación de instalación oficial de cuda
1. Verifique el entorno de hardware y software y elimine Nouveau
不要省略这一步,检查环境确定符合基本需求
1. Asegúrese de que el sistema reconozca la tarjeta N
lspci | grep -i nvidia
Se muestra información similar a la siguiente (las figuras a continuación son rtx3090 24G y rtx4090 24G):
2. Verifique el compilador gcc
gcc --version
Si es normal, se mostrará la versión, similar a la siguiente información
De lo contrario, se recomienda instalar una gran colección de paquetes de este c, de una vez por todas.
apt-get install build-essential
3. Compruebe si los programas de soporte relevantes están instalados.
apt-get install linux-headers-$(uname -r)
4. Eliminar el nuevo
(Este paso no es necesario. Según la situación real, desinstálelo si se le solicita).
Linux instala el controlador de código abierto de la tarjeta N de forma predeterminada, a saber, Nouveau.
检查Nouveau工作状态
lsmod | grep nouveau
Si sale mucha información es que el driver sigue ahí, desinstálalo y
edita un nuevo archivo, el nombre no tiene que ser este, otros nombres funcionarán.
vi /etc/modprobe.d/nouveau.conf
El contenido es el siguiente.
blacklist rivafb
blacklist vga16fb
blacklist nouveau
blacklist nvidiafb
blacklist rivatv
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
aplicado al núcleo
update-initramfs -u
Una vez completado , reinicie la computadora y luego verifique nuevamente.
Si no hay información, aún se mostrará si la computadora no se reinicia.
lsmod | grep nouveau
2. Utilice cuda Toolkit para instalar
Se recomienda utilizar para instalar Family Bucket: controlador de tarjeta N + cuda + nvcc
Nota: este método no requiere instalar el controlador primero y también elimina la necesidad de encontrar problemas de compatibilidad.
La versión del controlador requerida por cuda es la versión más baja, es decir, se dice que puede usar el controlador más reciente con una versión anterior de cuda.
Dirección oficial: cuda toolkit
le solicita nuevamente: seleccione la versión según sus necesidades. Por ejemplo, si desea usar pytorch, tensorflow , etc., cualquiera que sea necesario utilizar, el método de instalación de diferentes versiones es el mismo.
Recuerde que para el enlace anterior, no haga clic en el enlace Versionado... en la parte posterior. Ese es un documento detallado en inglés, que parece molesto.
Si elige esta forma, el comando de instalación aparecerá a continuación. Simplemente cópielo y úselo. La
versión 12.1 se instala aquí. Puede elegir la versión que necesita en la dirección oficial anterior. Los métodos son similares.
También se pueden ver diferentes sistemas. Los métodos de instalación correspondientes aquí., Y luego copie los siguientes comandos uno por uno.
La siguiente es una operación paso a paso de acuerdo con los comandos:
(1) Consulte esto para el sistema ubuntu.
1. Primero cambie al directorio de descarga del programa.
mkdir /usr/local/my_cuda && cd /usr/local/my_cuda
2. Operación de instalación
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
perfil movil
mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
Descargue el paquete de instalación
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
Instalar
dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
Instalar clave
cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
renovar
apt-get update
Instale cuda, este paso lleva mucho tiempo, espere pacientemente
apt-get -y install cuda
Reinicie la computadora una vez completada la instalación; de lo contrario, pueden ocurrir varios problemas
(2) Consulte esto para el sistema Debian.
Elija el método de instalación local
1. Ingrese al directorio operativo
cd /usr/local
2. Descargue la clave e instálela en el sistema.
wget https://developer.download.nvidia.com/compute/cuda/repos/debian11/x86_64/cuda-keyring_1.0-1_all.deb
dpkg -i cuda-keyring_1.0-1_all.deb
add-apt-repository contrib
Si el comando anterior genera un error, use el siguiente comando
apt-get install software-properties-common
3. Instalar
时间较长,耐心等待
apt-get update
apt-get -y install cuda
Reinicie la computadora una vez completada la instalación; de lo contrario, pueden ocurrir varios problemas
3. Prueba
La versión de cuda está sujeta a la que muestra nvcc. Si el controlador de la tarjeta N es más nuevo, la versión mostrada por nvidia-smi será la nueva versión de cuda y la llamada real se realiza a través de nvcc.
1. Pruebe nvcc (compilador cuda)
nvcc -V
La visualización normal es la siguiente (si ocurre un error, consulte la sección de manejo de problemas en la Sección 4 para encontrar soluciones):
2. Prueba nvidia-smi
nvidia-smi
Si hay un problema en ambos pasos, la cuarta sección lo solucionará.
4. Manejo de problemas
1.nvcc muestra que no
encontrar nvcc
find / -name "nvcc"
Por ejemplo, aparece el siguiente directorio
vi ~/.bashrc
Agregue la última parte (si no está instalando la versión 12.1, debe cambiar la versión en el directorio)
export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64
export PATH=$PATH:/usr/local/cuda-12.1/bin
Después de guardar, actualice las variables de entorno.
source ~/.bashrc
Utilice el comando nuevamente (tenga en cuenta que la V está en mayúscula)
nvcc -V
¿No es muy amable ver lo siguiente?
2. error de nvidia-smi
据说重启解决80%问题
Por ejemplo, como se muestra en la figura siguiente, si hay un error, simplemente reinicie, porque se instaló arriba y muchos problemas se pueden resolver reiniciando, o si no se puede encontrar el hardware, reinicie (también existe la
posibilidad que la tarjeta gráfica no está conectada correctamente!)
Use nvidia-smi nuevamente para ver información similar a la siguiente (la esquina superior izquierda es la versión del controlador de la tarjeta N y la esquina superior derecha es la versión cuda)
La versión cuda está sujeta a nvcc
Cinco, desinstalación de cuda
Si necesita cambiar a una versión diferente, se recomienda que coexistan varias versiones, lo cual no se tratará aquí. Si desea desinstalarlo por completo, siga las siguientes operaciones
权限不够前面加sudo,我这里用root进行安装
1. Prepárese para eliminar cuda
apt-get remove cuda
2. Desinstalación automática
apt autoremove
3. Eliminar otra cuda
apt autoremove cuda*
4. Elimine el paquete de instalación descargado (o no lo elimine)
rm /usr/local/my_cuda/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
5. Encuentra el paquete relacionado
dpkg -l |grep cuda
De manera similar a algunos paquetes como se muestra a continuación, elimine manualmente los paquetes relevantes. De lo contrario, la instalación de otras versiones fallará
. Complete el nombre de arriba y elimínelo a continuación.
dpkg -P cuda-repo-ubuntu2204-12-1-local cuda-toolkit-12-1-config-common cuda-toolkit-12-config-common cuda-toolkit-config-common cuda-visual-tools-12-1
6. Notas complementarias
1. Actualizar la tarjeta gráfica
Si cambia la tarjeta gráfica, generalmente no es necesario reinstalarla, si no funciona, simplemente reinstálela.
2. Limite el consumo de energía (con precaución)
Algunas tarjetas gráficas limitan el consumo de energía para reducir eficazmente las temperaturas con poca pérdida de rendimiento.
以下仅作参考,通常情况不要动
Ingrese al modo de persistencia
nvidia-smi -pm 1
Limite el consumo de energía de la tarjeta 0 a 200w
nvidia-smi -pl 200 -i 0
3. Instale una versión anterior de cuda
Aunque la versión de cuda tiene restricciones de versión del controlador, la versión con esta restricción es la versión más baja del controlador.
Por ejemplo, la versión inicial del controlador de rtx4090 es 522.25, mientras que la versión cuda predeterminada de cuda11.8 es 522.06 (no se puede instalar directamente de forma predeterminada). Si necesita esta versión de cuda.
Primero debe instalar el controlador de la tarjeta N y luego ejecutar cuda takeit11.8. En este momento, el programa omitirá el controlador de forma predeterminada. La versión de cuda mostrada por nvcc -V y nvidia-smi es inconsistente porque los dos principios son diferentes. .cuda se ejecuta a través de nvcc., por lo que nvcc prevalecerá, especialmente en Windows, no importa si actualiza accidentalmente el controlador de la tarjeta N, la versión real de CUDA no cambiará.