Pytorch 1.7.0 Torchvision 0.8.1 Torch.cuda.amp Gradscaler DDP-Training bleibt hängen

Fehler: Pytorch-DDP-Modell steckt
im Code fest

# 具体卡住的代码
yolov5训练代码 train.py 中有一句:

                scaler.step(optimizer)  # optimizer.step

程序运行到第二个epoch的时候,卡住了,
具体卡在调用语句:
/home/xxx/lib/python3.7/site-packages/torch/cuda/amp/grad_scaler.py

中的
        if not sum(v.item() for v in optimizer_state["found_inf_per_device"].values()):

就卡死了。。。。并不只知道为什么

Softwareumgebung
Python 3.7.11
Torch 1.7.0
Torchvision 0.8.1
Cuda 10.1.243
NVIDIA-Treiber 450.80.02
Pip 22.0.4

Auch die Hardwareumgebung
TeslaP40 4GPU
2080ti bleibt hängen

lösen:

# 升级软件

$ pip install torch==1.8.0 # 更新torch
# pip卸载现有,
$ pip uninstall torchvision # 卸载现有torchvision
# 然后pip install torchvision, torch 直接升级到最新版本
$ pip install torchvision # 更新torchvision,会自动更新torch

----------- 最终版本------

安装torch
'1.11.0+cu102'
安装torchvision
'0.12.0+cu102'


注意:直接按照上述版本pip install 安装可能装不上。。

Guess you like

Origin blog.csdn.net/qxqxqzzz/article/details/124655741