[解决方案]如何一次性关闭所有GPU/CUDA进程

在最近的模型并行化工程当中,异常退出之后会出现GPU进程挂起无法关闭的情况.
报错RuntimeError: Address already in use
网上的主流的方案是kill -9 PID等命令.
可我有16个进程,这样一个个杀有些繁琐.
查阅资料之后,在这里提供另外一种方法:

$ kill $(ps aux | grep YOUR_TRAINING_SCRIPT.py | grep -v grep | awk '{print $2}')

上述方法来来自于

https://leimao.github.io/blog

猜你喜欢

转载自blog.csdn.net/ftimes/article/details/121146992