Pytorch GPU 显存溢出 Out of Memory 如何处理

在不修改网络结构的情况下, 有如下操作:

  1. 同意 @Jiaming , 尽可能使用inplace操作, 比如relu 可以使用 inplace=True 。一个简单的使用方法,如下:

 
def inplace_relu(m): 
    classname = m.__class__.__name__
    if classname.find('ReLU') != -1: 
        m.inplace=True #model.apply(inplace_relu)

2.进一步,比如ResNet 和 DenseNet 可以将 batchnorm 和relu打包成inplace,在bp时再重新计算。使用到了pytorch新的checkpoint特性,有以下两个代码。由于需要重新计算bn后的结果,所以会慢一些。

3. 每次循环结束时 删除 loss,可以节约很少显存,但聊胜于无。可见如下issue

Tensor to Variable and memory freeing best practices

4. 使用float16精度混合计算。我用过 @NVIDIA英伟达 apex,很好用,可以节约将近50%的显存,但是要小心一些不安全的操作如 mean和sum,溢出fp16。

NVIDIA/apex

补充:最近我也尝试在我CVPR19的GAN模型中加入fp16的训练,可以从15G的显存需求降到约10G,这样大多数1080Ti等较为常见的显卡就可以训练了。欢迎大家star一波 https://github.com/NVlabs/DG-Net

5. 对于不需要bp的forward,如validation 请使用 torch.no_grad , 注意model.eval() 不等于 torch.no_grad() 请看如下讨论。

'model.eval()' vs 'with torch.no_grad()'

6. torch.cuda.empty_cache() 这是del的进阶版,使用nvidia-smi 会发现显存有明显的变化。但是训练时最大的显存占用似乎没变。大家可以试试。

How can we release GPU memory cache?

另外,会影响精度的骚操作还有:

把一个batchsize=64分为两个32的batch,两次forward以后,backward一次。但会影响 batchnorm等和batchsize相关的层。

相关链接:老外写的提高pytorch效率的方法,包含data prefetch等

Optimizing PyTorch training code

最后感谢大家看完~欢迎关注分享点赞~也可以check我的一些其他文章

郑哲东:【新无人机数据集】从 行人重识别 到 无人机目标定位

郑哲东:利用Uncertainty修正Domain Adaptation中的伪标签

郑哲东:用CNN分100,000类图像

郑哲东:NVIDIA/悉尼科技大学/澳洲国立大学新作解读:用GAN生成高质量行人图像,辅助行人重识别

猜你喜欢

转载自blog.csdn.net/Layumi1993/article/details/106218563
今日推荐