amp错误ZeroDivisionError: ゼロによる浮動小数点除算

#ampError ZeroDivisionError: float Division by zero
##長い間情報を確認した結果、インターネット上で説明されている理由のほとんどは除数に 0 があることであることがわかりましたが、
コードを注意深く確認したところ、除数の位置がエラーレポートはapexのアンプに関連しており
、いくつかのオンライントレーニングコードと組み合わされているようです。比較の結果、次のコード部分が異なることが判明しました。問題はこの部分にあるはずです。

                masks_pred = net(imgs)
                loss = criterion(masks_pred, true_masks)
                epoch_loss += loss.item()
                writer.add_scalar('Loss/train', loss.item(), global_step)
                pbar.set_postfix(**{
    
    'loss (batch)': loss.item()})

                optimizer.zero_grad()
                #loss.backward()
                with amp.scale_loss(loss, optimizer) as scaled_loss:
                     scaled_loss.backward()
                optimizer.step()

主にここで

                optimizer.zero_grad()
                #loss.backward()
                
                with amp.scale_loss(loss, optimizer) as scaled_loss:
                     scaled_loss.backward()
                optimizer.step()

変更方法が異なる場合は
以下に変更してください

                optimizer.zero_grad()
                loss.backward()
                
                #with amp.scale_loss(loss, optimizer) as scaled_loss:
                     #scaled_loss.backward()
                optimizer.step()```
重新运行训练代码,成功解决问题。即放弃了使用apex的加速功能,不过总比跑不起来代码要好!

おすすめ

転載: blog.csdn.net/qq_45014374/article/details/127258558