Versión del sistema: CentOS 7.9.2009
Versión del kernel: Linux localhost.localdomain 3.10.0-1160.el7.x86_64 #1 SMP lunes 19 de octubre 16:18:59 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux
1. Instalar dependencias
yum -y install epel-release
yum -y install gcc binutils wget
yum -y install kernel-devel
2. Desactivar el nuevo
2.1. Comprobar si Nouveau está activado
lsmod | grep nouveau
Nota: Si no hay salida de información significa que ha sido deshabilitada, no es necesario realizar los siguientes pasos;
2.2 Modificar configuración
echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist.conf
2.3.Copia de seguridad img
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
2.4.Reconstruir
dracut /boot/initramfs-$(uname -r).img $(uname -r)
2.5 Reiniciar el sistema
reboot
2.6 Comprobar si está cerrado
lsmod | grep nouveau
Nota: Ninguna salida de información indica que la desactivación fue exitosa;
3. Verifique el controlador
3.1 Instalar la fuente elrepo
rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-4.el7.elrepo.noarch.rpm
o
yum -y install https://www.elrepo.org/elrepo-release-7.0-4.el7.elrepo.noarch.rpm
3.2 Instalar nvidia-detección
yum -y install nvidia-detect
3.3 Detectar el controlador de la tarjeta gráfica
nvidia-detect -v
Sondeando dispositivos NVIDIA compatibles...
[10de:1b06] NVIDIA Corporation GP102 [GeForce GTX 1080 Ti]
Este dispositivo requiere el controlador NVIDIA 510.60.02 actual kmod-nvidia
4. Instalación del controlador
4.1 Descargar controlador
wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/510.68.02/NVIDIA-Linux-x86_64-510.68.02.run
Nota: Si se detecta que el número de versión no coincide con el mío, puede reemplazar la pieza usted mismo.
Sugerencia: descárguelo en una unidad flash USB desde el sitio web oficial de NVIDIA y cópielo en el servidor.
Nota: Nvidia solo proporcionará la última versión, que es compatible con versiones anteriores, por lo que lo que instalé aquí es 510.68.02, no 510.60.02.
4.2.Autorización
chmod +x NVIDIA-Linux-x86_64-510.68.02.run
Aquí se informará un error y será necesario cerrar el servicio X.
Compruebe si es gdm (hay dos tipos, este sin servidor pertenece a gdm)
systemctl --all|grep gdm
whereis gdm
systemctl stop gdm.service
instalar el controlador
systemctl start gdm.service
4.3.Instalación
sh ./NVIDIA-Linux-x86_64-510.68.02.run -s
4.4 Ver información de la tarjeta gráfica
nvidia-smi
Nota: La salida de información indica que se ha instalado el controlador de la tarjeta gráfica.
Además: también instalé
python 3.9.11
pytorch1.11.0
tensorflow-gpu 2.7.0
transformadores 4.18.0
cuda 11.3
cudnn 8.2.0
, todos los cuales son últimas versiones y lo probé con éxito.
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.68.02 Driver Version: 510.68.02 CUDA Version: 11.6 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce ... Off | 00000000:01:00.0 On | N/A |
| 49% 82C P2 246W / 250W | 8944MiB / 11264MiB | 99% Default |
| | | N/A |
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 10400 G /usr/bin/X 84MiB |
| 0 N/A N/A 23147 G /usr/bin/gnome-shell 84MiB |
| 0 N/A N/A 29312 C python 8771MiB |
+-----------------------------------------------------------------------------+
5. Desinstale el controlador
5.1 Desinstalar e instalar
nvidia-uninstall
5.2 Instalación limpia
dkms remove
Nota: Es necesario instalar "yum -y install dkms"
6. Errores comunes
1.安装时报错“ERROR: No se puede encontrar el árbol de fuentes del kernel para el kernel que se está ejecutando actualmente. Asegúrese de haber instalado los archivos fuente del kernel para su kernel y de que estén configurados correctamente; en sistemas Red Hat Linux, por ejemplo, asegúrese de tener instalado el RPM 'kernel-source' o 'kernel-devel'. Si sabe que están instalados los archivos fuente del kernel correctos, puede especificar la ruta de origen del kernel con la opción de línea de comando '–kernel-source-path'”.
Solución:
Instalar bibliotecas del kernel
yum -y install epel-release
yum -y install kernel-devel
Comparación de versiones del kernel
rpm -qa |grep kernel
uname -r
instalar el controlador
./NVIDIA-Linux-x86_64-510.68.02.run --kernel-source-path=/usr/src/kernels/3.10.0-1160.42.2.el7.x86_64 -k $(uname -r)