nvidia-smi 风扇和电源显示ERR (Fan and Usage ERR)

问题分析

在显卡上长时间运行很多的程序, 导致显卡过热, 出现问题.

解决方法

  1. 停掉 所有 在显卡上运行的程序, ERR会消失
  2. 设置显卡的persistence mode, 按照这个教程.
  3. 限制最大的运行功率不要太大
sudo nvidia-smi -pl 200 -i 2 # 指定卡2的最大功率为200

再次运行nvidia-smi显示卡2的运行功率已经调整好了

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce RTX 208...  On   | 00000000:88:00.0 Off |                  N/A |
| 22%   36C    P8    19W / 250W |      0MiB / 11019MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce RTX 208...  On   | 00000000:8B:00.0 Off |                  N/A |
| 22%   35C    P8    18W / 250W |      0MiB / 11019MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GeForce RTX 208...  Off  | 00000000:DB:00.0 Off |                  N/A |
| 22%   37C    P8    20W / 200W |      0MiB / 11019MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  GeForce RTX 208...  On   | 00000000:DE:00.0 Off |                  N/A |
| 48%   57C    P2    84W / 250W |   9469MiB / 11019MiB |     28%      Default |
+-------------------------------+----------------------+----------------------+

注: 单独跑一个程序的时候, 200W的功率已经足够了, 可缓解产热过多的问题. 其他卡如果没有出现这种情况, 可以不用调整最大功率.

参考

# 重启显卡命令
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm

猜你喜欢

转载自blog.csdn.net/feifei3211/article/details/103664230