#ampError ZeroDivisionError: float Division by zero
##長い間情報を確認した結果、インターネット上で説明されている理由のほとんどは除数に 0 があることであることがわかりましたが、
コードを注意深く確認したところ、除数の位置がエラーレポートはapexのアンプに関連しており
、いくつかのオンライントレーニングコードと組み合わされているようです。比較の結果、次のコード部分が異なることが判明しました。問題はこの部分にあるはずです。
masks_pred = net(imgs)
loss = criterion(masks_pred, true_masks)
epoch_loss += loss.item()
writer.add_scalar('Loss/train', loss.item(), global_step)
pbar.set_postfix(**{
'loss (batch)': loss.item()})
optimizer.zero_grad()
#loss.backward()
with amp.scale_loss(loss, optimizer) as scaled_loss:
scaled_loss.backward()
optimizer.step()
主にここで
optimizer.zero_grad()
#loss.backward()
with amp.scale_loss(loss, optimizer) as scaled_loss:
scaled_loss.backward()
optimizer.step()
変更方法が異なる場合は
以下に変更してください
optimizer.zero_grad()
loss.backward()
#with amp.scale_loss(loss, optimizer) as scaled_loss:
#scaled_loss.backward()
optimizer.step()```
重新运行训练代码,成功解决问题。即放弃了使用apex的加速功能,不过总比跑不起来代码要好!