Ubuntu驱动nvidia更新

ubuntu18.04

nvidia-smi是nvidia 的系统管理界面 ,其中smi是System management interface的缩写,它可以收集各种级别的信息,查看显存使用情况。此外, 可以启用和禁用 GPU 配置选项 (如 ECC 内存功能)。

查看GPU信息报错如下:

root@iZ2zeiflf48wp1ved7nnnmZ:~# nvidia-smi

Failed to initialize NVML: Driver/library version mismatch

查找本机内核版本:

cat /proc/driver/nvidia/version

查看客户端驱动版本:

cat /var/log/dpkg.log | grep nvidia

 

#发现明显不一样,一个是400.82,一个是400.100,内核版本低于客户端版本。

再查看系统日志:

 

直接提示原因是:NVIDIA 内核驱动版本与系统驱动不一致导致

解决方法:

卸载驱动:

root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia

rmmod: ERROR: Module nvidia is in use by: nvidia_uvm nvidia_modeset

卸载失败,提示要先卸载依赖:

root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia_uvm

root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia_modeset

rmmod: ERROR: Module nvidia_modeset is in use by: nvidia_drm

继续根据提示卸载依赖:

root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia_drm

root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia_modeset

root@iZ2zeiflf48wp1ved7nnnmZ:~# sudo rmmod nvidia

最后重新查看GPU信息:

root@iZ2zeiflf48wp1ved7nnnmZ:~# nvidia-smi

 

重新查看驱动内核版本和客户端版本已经一致:

 

这是服务器上Ubuntu18.04的信息。 
上面的表格中: 
第一栏的Fan:0表示只有一块GPU,0下面的N/A是风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能打不到显示的转速。有的设备不会返回转速,因为它不依赖风扇冷却而是通过其他外设保持低温(比如云主机)。 
第二栏的Temp:是温度,单位摄氏度。 
第三栏的Perf:是性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。 
第四栏下方的Pwr:是能耗,28W / 250W表示当前功率和总功率;上方的Persistence-M:是GPU常驻持续模式,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。 
第五栏的Bus-Id:00000000:00:09.0是GPU总线相关的东西,domain:bus:device.function(域:总线:设备.功能) 
第六栏的Disp.A是Display Active(显示活动),表示GPU的显示是否初始化。 
第五第六栏下方的Memory Usage是显存使用率,0MiB / 16280MiB表示:系统占用显存数量/显存总大小。 
第七栏是浮动的GPU利用率。 
第八栏上方是关于ECC的东西,这是显示off(关闭)。 
第八栏下方Compute M:默认模式是计算。 
下面如果有进程的化会显示一格:表示每个进程占用的显存使用率。

猜你喜欢

转载自blog.csdn.net/Doudou_Mylove/article/details/108355182