nvidia-smi命令输出结果缓慢问题

        nvidia-smi命令输出结果缓慢问题,可能的原因和解决办法:

1、当前已经打开了节能模式(需要关闭节能模式,切换到持久模式)。

如何关闭节能模式:

方法1:

sudo nvidia-persistenced --persistence-mode

方法2:

# 修改或创建配置文件
# persistence mode 能够让 GPU 更快响应任务,待机功耗增加。关闭 persistence mode 同样能够启动任务
$ sudo  vim /etc/rc.local

# 加入:

#!/bin/bash
sudo nvidia-smi -pm 1

# 使配置生效
$ source /etc/rc.local

Enabled persistence mode for GPU 00000000:02:00.0.
Enabled persistence mode for GPU 00000000:03:00.0.
Enabled persistence mode for GPU 00000000:82:00.0.
Enabled persistence mode for GPU 00000000:83:00.0.
All done.


2、显卡可能要坏了

故障的现象是:运行命令$ nvidia-smi之后要么不显示显卡的情况,要么显示很缓慢。并且结果中有ERR! 提示

定位:

1、查看显卡情况:$ nvidia-smi,可以看到有一张显卡出现了故障。
并且只要有这张显卡插在服务器上,这个命令的输出都会非常缓慢

        可以看到,循坏的显卡BUS-ID是02;如何找到这张显卡呢?
2、通过$ nvidia-smi -q 查看BUS-ID和显卡的序列号之间的对应关系

        可以看到,损坏的显卡(BUS-ID 02)的序列号(Serial Number)尾号为4953。那这张显卡插在哪个PCIE卡槽?

3、通过$ sudo dmidecode -t slot 查看BUS-ID (BUS Address)和卡槽的对应关系:

         可以看到BUS-ID 02对应的卡槽为SLOT-2,SLOT标号一般在主板上,白色字体,在每个PCIE插槽(很长的那个插槽,插显卡的)的上方。
        还可以通过 $ sudo dmidecode -t slot | egrep -i "slot|add" 查看 (输出更简洁),输出类似于:

 

4、去机房,找到这台服务器上SLOT-2卡槽插的序列号(显卡上一般会贴有白色的序列号标签)尾号为4953的那张卡!拔下来维修

注意事项:实际中,BUS-ID可能会发生动态变化。比如你服务器插着4张卡的时候,有个BUS-ID 02的卡坏了,你把它拔了,再运行$ nvidia-smi,发现还会有BUS-ID 02的显卡出现在结果中。所以定位故障显卡,主要靠BUS-ID对应的显卡序列号和卡槽。这些信息相对固定。
————————————————
参考:

https://blog.csdn.net/qxqxqzzz/article/details/116970546
https://blog.csdn.net/qxqxqzzz/article/details/119031178

猜你喜欢

转载自blog.csdn.net/dou3516/article/details/130593821
今日推荐