如何查看并准确找到占用GPU的程序 - 代码天地

如何查看并准确找到占用GPU的程序

其他 2020-04-14 12:59:10 阅读次数: 0

有时多人都在一段时间内同时使用公司共用的服务器上的GPU训练，有的网络的代码写得不好，虽然是按需获取GPU内存但停止训练了却仍然占用GPU没放，有的则采取的是预分配机制，一开始运行加载训练好了的模型时就占用大量内存(比如9-10G)，没有进行识别推理也占用内存不放，多人共用的环境如果有人用完不及时停掉相关程序，很多GPU就被占了但空闲在那里，但又不好随便乱杀进程来释放，首先得确认一下，占用GPU的都是哪些程序，是否确实可以停掉，在不掌握谁在运行什么训练或识别程序的情况下，可以通过查看进程信息来确认。

首先，当然得借助平时必用的nvidia-smi来查看占用GPU的进程：

查看需要释放的GPU上的进程,首先使用最简单的 ps -ef|grep <pid>，例如，0号GPU中pid 128564这个进程占用了7.3G的内存，那首先就看它:

ps -ef|grep 128564

如果启动进程的命令行信息含有程序代码文件那就到这里就可以看出来是哪个程序了，但上面的命令输出结果让人失望，它的命令行只有个简单的python，python显然只是个执行程序，后面被执行的.py文件则没有，看了等于没看：

那就看进程文件里的environ，它里面记录了很多环境信息，看完基本可以猜出来是哪个程序启动后的进程:

sudo vi /proc/128564/environ

根据里面的PWD可以直接判定程序是在哪里，如果没有这项(一般是有这个值的)，根据PATH与LD_LIBRARY_PATH以及CUDA和CUDNN等设置可以辅助综合判定是那个程序，另外如果程序是在docker容器内运行的话，里面还有个HOSTNAME，根据这个值，和docker ps命令输出的值比较可以知道这个程序进程是在哪个容器里运行，范围一下就缩小了，如果是docker容器里运行的进程，并且这个容器里的进程都不需要运行了，那么直接docker stop <container id>即可释放这些进程占用的GPU，对于物理机上运行的进程当然只有执行kill命令了。

发布了61 篇原创文章 · 获赞 90 · 访问量 11万+

私信关注

猜你喜欢

转载自blog.csdn.net/XCCCCZ/article/details/104730521

如何查看并准确找到占用GPU的程序

ubuntu16.04查看占用GPU的程序

python 查看程序的GPU显存占用

查看GPU占用率以及指定GPU加速程序

怎么查看端口占用情况并找到启动程序

如何查看3306被哪个程序占用

如何查看端口(3306)被那个程序占用

查看程序占用端口

查看程序占用浏览

查看端口占用程序

查看GPU, cuda,显卡被哪个进程占用

如何查看占用端口的程序然后把它强制结束？

如何查看某个端口被哪个程序占用 windows|linux

如何查看自己的电脑端口被什么程序占用了

如何查看电脑端口被什么程序占用了

4.如何查看端口--关闭占用端口的程序

Linux如何查看程序占用端口号?

运维 | 如何查看端口或程序占用情况 | linux

Windows系统如何查看端口被占用程序和停止占用端口程序

windows下如何查看端口号是否被占用及被那个应用程序占用

查看端口占用并关闭占用端口的程序

如何查看端口占用，并停止端口占用

如何快速找到某一个程序占用的端口号？-软件测试

windows查看端口占用 windows端口占用查找端口占用程序强制结束端口占用查看某个端口被占用的解决方法如何查看Windows下端口占用情况

程序停止后GPU仍被占用

Linux查看占用端口程序

查看端口被哪程序占用

查看udp端口及占用程序

查看Spring程序内存占用

查看端口号被哪些进程所占用，如何根据PID查看其对应的程序

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)