Anomalie de la carte graphique : la carte graphique affiche "Échec" après nvidia-smi. Le processus de solution consiste à désinstaller et réinstaller le pilote nvidia.
Annuaire d'articles
Annuaire d'articles
1 raison
Le programme a fonctionné correctement au début, mais tout à coup, il n'y a eu aucune sortie de détection. Essayez la commande suivante :
nvidia-smi
L'erreur est signalée comme suit, enregistrée comme [Erreur1]
Unable to determine the device handle for GPU 8000:01:00.0: Unknown Error
Après avoir redémarré la machine, le résultat est le suivant, enregistré comme [Erreur2]
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
2 Processus de résolution
(1) Tout d'abord, la première réaction a été que le pilote ne pouvait pas être connecté, j'ai donc réinstallé le pilote, puis les informations de la carte graphique et l'état d'utilisation ont pu à nouveau être affichés normalement.
(2) Mais peu de temps après, le programme a de nouveau commis une erreur, puis est entré dans nvidia-smi et a signalé le problème [Erreur1] ci-dessus. Après le redémarrage de la machine, la sortie de [Error2] est toujours là. Je soupçonne que la carte graphique est physiquement séparée du serveur et que les broches sont peut-être desserrées. Nous avons donc fait les expériences suivantes :
(2.1) Prenez un serveur défectueux, entrez nvidia-smi, la carte graphique sort normalement et éteignez-la.
(2.2) Débranchez la carte graphique du serveur, entrez nvidia-smi après le démarrage, entrez l'[Erreur2] susmentionnée sur la carte graphique et éteignez-la.
(2.3) Rebranchez la carte graphique du serveur. Après le démarrage, entrez nvidia-smi et la carte graphique sort normalement. Ici, nous n'avons même pas réinstallé le pilote de la carte graphique après le démarrage de l'ordinateur. Il est à noter que j'ai toujours pensé que retirer la carte graphique et la rebrancher nécessitait de réinstaller le pilote de la carte graphique. Après avoir rebranché la carte graphique ici, j'ai été choqué de ne pas avoir besoin de réinstaller le pilote.
3 commandes requises pour le processus
(1) Si la commande suivante est émise (rev ff), la carte graphique peut être physiquement desserrée.
lspci| grep -i nvidia
Un exemple de sortie normale est le suivant :
02:00.0 VGA compatible controller: NVIDIA Corporation Device 2684 (rev a1)
02:00.1 Audio device: NVIDIA Corporation Device 22ba (rev a1)
(2) La commande pour vérifier s'il existe une carte graphique physique est la suivante
sudo lshw -C display
=====>L'impression ne produit aucune sortie. Normalement, les informations sur les installations physiques seront sorties. Un exemple de sortie normale est le suivant :
*-display
description: VGA compatible controller
product: NVIDIA Corporation
vendor: NVIDIA Corporation
physical id: 0
bus info: pci@0000:02:00.0
version: a1
width: 64 bits
clock: 33MHz
capabilities: pm msi pciexpress vga_controller bus_master cap_list rom
configuration: driver=nvidia latency=0
resources: irq:137 memory:a2000000-a2ffffff memory:90000000-9fffffff memory:a0000000-a1ffffff ioport:4000(size=128) memory:c0000-dffff
(3) Afficher le numéro de version du système d'exploitation
uname -r
(4) Affichez le nom du système, le nom du nœud, le numéro de version du système d'exploitation, la version du noyau, etc.
uname -a
(5)
lspci
La sortie normale contient des informations NVIDIA, mais pas la sortie anormale.
4 résoudre
Au final, nous avons estimé qu'il devait y avoir un problème avec la carte graphique physique ou l'emplacement pour carte.
4.1 Réinsérez la carte graphique
Comment désinstaller le pilote NVIDIA (redémarrer la machine après la désinstallation puis l'installer)
方法一
sudo bash NVIDIA-Linux-x86_64-510.47.03.run -uninstall
方法二
sudo apt-get --purge remove nvidia*
sudo apt autoremove
卸载完成之后,记得重启机器再安装,然后再如下命令安装
sudo ./NVIDIA-Linux-x86_64-510.47.03.run -no-x-check
Après avoir réinstallé le pilote, entrez nvidia-smi et le résultat sera correct.
4.2 Essayez de changer de carte graphique
Comme le problème a été résolu en 4.1, je ne l'ai pas essayé.
4.3 Installez la carte graphique dans d'autres machines du même modèle pour tester ses performances
Comme le problème a été résolu en 4.1, je ne l'ai pas essayé.
5. Conclusion
Concernant le problème matériel, nous avons installé l'équipement à l'extérieur. Nous sommes encore en été. Après démontage de l'équipement, nous avons constaté que le câble de l'adaptateur secteur de la carte graphique était trop proche du ventilateur, ce qui affectait la rotation du ventilateur. temps, la rotation du ventilateur a également endommagé le câble de l'adaptateur secteur. Mauvais contact. Ces raisons sont ① la température est trop élevée et une panne matérielle à court terme provoque des anomalies du pilote ; ② le ventilateur provoque un mauvais contact du câble de l'adaptateur secteur et entraîne une perte d'alimentation de la carte graphique.