La carte graphique affiche Faild après nvidia-smi. Le processus de solution comprend des étapes pour désinstaller et réinstaller le pilote NVIDIA.

Anomalie de la carte graphique : la carte graphique affiche "Échec" après nvidia-smi. Le processus de solution consiste à désinstaller et réinstaller le pilote nvidia.

1 raison

Le programme a fonctionné correctement au début, mais tout à coup, il n'y a eu aucune sortie de détection. Essayez la commande suivante :

nvidia-smi

L'erreur est signalée comme suit, enregistrée comme [Erreur1]

Unable to determine the device handle for GPU 8000:01:00.0: Unknown Error

Après avoir redémarré la machine, le résultat est le suivant, enregistré comme [Erreur2]

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

2 Processus de résolution

(1) Tout d'abord, la première réaction a été que le pilote ne pouvait pas être connecté, j'ai donc réinstallé le pilote, puis les informations de la carte graphique et l'état d'utilisation ont pu à nouveau être affichés normalement.

(2) Mais peu de temps après, le programme a de nouveau commis une erreur, puis est entré dans nvidia-smi et a signalé le problème [Erreur1] ci-dessus. Après le redémarrage de la machine, la sortie de [Error2] est toujours là. Je soupçonne que la carte graphique est physiquement séparée du serveur et que les broches sont peut-être desserrées. Nous avons donc fait les expériences suivantes :

(2.1) Prenez un serveur défectueux, entrez nvidia-smi, la carte graphique sort normalement et éteignez-la.

(2.2) Débranchez la carte graphique du serveur, entrez nvidia-smi après le démarrage, entrez l'[Erreur2] susmentionnée sur la carte graphique et éteignez-la.

(2.3) Rebranchez la carte graphique du serveur. Après le démarrage, entrez nvidia-smi et la carte graphique sort normalement. Ici, nous n'avons même pas réinstallé le pilote de la carte graphique après le démarrage de l'ordinateur. Il est à noter que j'ai toujours pensé que retirer la carte graphique et la rebrancher nécessitait de réinstaller le pilote de la carte graphique. Après avoir rebranché la carte graphique ici, j'ai été choqué de ne pas avoir besoin de réinstaller le pilote.

3 commandes requises pour le processus

(1) Si la commande suivante est émise (rev ff), la carte graphique peut être physiquement desserrée.

lspci| grep -i nvidia

Un exemple de sortie normale est le suivant :

02:00.0 VGA compatible controller: NVIDIA Corporation Device 2684 (rev a1)
02:00.1 Audio device: NVIDIA Corporation Device 22ba (rev a1)

(2) La commande pour vérifier s'il existe une carte graphique physique est la suivante

sudo lshw -C display 

=====>L'impression ne produit aucune sortie. Normalement, les informations sur les installations physiques seront sorties. Un exemple de sortie normale est le suivant :

  *-display
       description: VGA compatible controller
       product: NVIDIA Corporation
       vendor: NVIDIA Corporation
       physical id: 0
       bus info: pci@0000:02:00.0
       version: a1
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi pciexpress vga_controller bus_master cap_list rom
       configuration: driver=nvidia latency=0
       resources: irq:137 memory:a2000000-a2ffffff memory:90000000-9fffffff memory:a0000000-a1ffffff ioport:4000(size=128) memory:c0000-dffff

(3) Afficher le numéro de version du système d'exploitation

uname -r 

(4) Affichez le nom du système, le nom du nœud, le numéro de version du système d'exploitation, la version du noyau, etc.

uname -a

(5)

lspci

La sortie normale contient des informations NVIDIA, mais pas la sortie anormale.

Insérer la description de l'image ici

4 résoudre

Au final, nous avons estimé qu'il devait y avoir un problème avec la carte graphique physique ou l'emplacement pour carte.

4.1 Réinsérez la carte graphique
Comment désinstaller le pilote NVIDIA (redémarrer la machine après la désinstallation puis l'installer)
方法一
sudo bash NVIDIA-Linux-x86_64-510.47.03.run -uninstall
方法二
sudo apt-get --purge remove nvidia*
sudo apt autoremove
卸载完成之后,记得重启机器再安装,然后再如下命令安装
sudo ./NVIDIA-Linux-x86_64-510.47.03.run -no-x-check

Après avoir réinstallé le pilote, entrez nvidia-smi et le résultat sera correct.

4.2 Essayez de changer de carte graphique

Comme le problème a été résolu en 4.1, je ne l'ai pas essayé.

4.3 Installez la carte graphique dans d'autres machines du même modèle pour tester ses performances

Comme le problème a été résolu en 4.1, je ne l'ai pas essayé.

5. Conclusion

​ Concernant le problème matériel, nous avons installé l'équipement à l'extérieur. Nous sommes encore en été. Après démontage de l'équipement, nous avons constaté que le câble de l'adaptateur secteur de la carte graphique était trop proche du ventilateur, ce qui affectait la rotation du ventilateur. temps, la rotation du ventilateur a également endommagé le câble de l'adaptateur secteur. Mauvais contact. Ces raisons sont ① la température est trop élevée et une panne matérielle à court terme provoque des anomalies du pilote ; ② le ventilateur provoque un mauvais contact du câble de l'adaptateur secteur et entraîne une perte d'alimentation de la carte graphique.

Je suppose que tu aimes

Origine blog.csdn.net/qq_42835363/article/details/132305212
conseillé
Classement