GPU nvidia-smi - 代码天地

GPU nvidia-smi

其他 2019-02-22 15:48:06 阅读次数: 0

服务器上有多块GPU，每块GPU上可能运行着多个python程序，之前在调试程序时，每次想要kill掉正在运行的程序，我都是

ps -ef | grep xxx.py 这个命令会从当前所有正在运行的python进程中找到名称为xxx.py的进程，给出所有父进程ID和子进程ID，通常做法是先kill掉父进程PID，再一个个地kill掉子进程PID，这样的做法看似有些复杂。‘

今天问过一位大神，他给出一种好办法可以简单地kill掉显卡上正在运行的python进程，

nvidia-smi

将会给出每块显卡上正在运行的程序进程号，直接kill掉进程号就可以终止程序运行。

另外，我之前训练时总是出现过 CUDA： out of memory报错（是在训练faster R-CNN，batch size=1，min_scale=1024时），虽然图像的空间分辨率在1024以上，但是对于显卡的占用不会那么大（当时是1080Ti 12G显存），一个巧妙的调试方法是：

在pytorch中，使用数据加载器 dataloader 读取完一个batch size的训练图像后，先只把它放到显存上，

index=0

for idx,im_data,label in enumerate(train_loader):

index+=1

#output=net(im_data)

调试程序，因为正常情况下，网络模型的前向传播和反向传播并不会占据高达12G的显存

很有可能产生的错误就是，错误地把整个训练数据集中的数据都放到了显卡上。正常情况下，模型所占显存并不会很大。

故而调试方法是：只是单纯地将训练数据集放到显卡上，并不把网络模型放到显卡上，观察显卡的现存占用情况，如果现存占用过大，则可能是把所有的数据都放到了显卡上。

猜你喜欢

转载自blog.csdn.net/WYXHAHAHA123/article/details/87392985

GPU nvidia-smi

【GPU】nvidia-smi命令

查看GPU的nvidia-smi命令

了解GPU从nvidia-smi命令开始

（GPU）nvidia-smi不显示pid

Nvidia GPU 指令帮助 nvidia-smi -h

nvidia-smi 查看GPU信息字段解读

nvidia-smi 出现的显卡，GPU界面各个部分的解释

【GPU】nvidia-smi输出内容释义及使用

GPU状态监测 nvidia-smi 命令详解

nvidia-smi GPU异常消失程序中断

查看 GPU 基本信息 nvidia-smi 命令

【转载】 GPU状态监测 nvidia-smi 命令详解

CUDA之nvidia-smi命令详解---gpu

笔记：GPU使用信息查看：nvidia-smi

【nvidia-smi：command not found】如何在集群服务器上使用nvidia-smi查看GPU信息

Nvidia gpu驱动安装教程 & nvidia-smi定时输出gpu信息

windows 系统查看NVIDIA显卡GPU情况，nvidia-smi在windows上使用

nvidia-smi 无进程占用GPU，但GPU显存却被占用了很多

gpu机器安装nvidia-smi和python的tensorflow-gpu模块

GPUtil是一个Python模块，使用nvidia-smi从NVIDA GPU获取GPU状态

nvidia-smi 无进程占用GPU，但GPU显存却被占用了

GPU使用情况、GPU使用率查看、监控----nvidia-smi

top和nvidia-smi无法显示占用GPU的PID问题

windows10下使用nvidia-smi查看GPU使用情况

GPU：nvidia-smi的简介、安装、使用方法之详细攻略

关于ubuntu nvidia-smi CUDA Version:ERR \不使用GPU 问题

win10下通过nvidia-smi查看GPU使用情况

记一次“nvidia-smi”在容器中映射GPU资源时的排错

NVIDIA-SMI报错：Unable to determine the device handle for GPU 0000:XX:00.0: Unknown Error

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)