loss非常大，直至nan - 代码天地

loss非常大，直至nan

企业开发 2023-04-07 01:53:06 阅读次数: 0

在训练网络的时候，loss不断的增加，一直增大到nan。之前怀疑是损失函数的问题，之前使用的BCEloss，于是考虑换dice loss，运行之后发现loss还是在增加，而且增加的非常快，epoch0的第一个iteration为15，往后第三个第四个就增长到了25,30以及训练到后面几代直接就会显示损失为nan。
在之前使用dice loss就没，就没有出现这种情况，损失都是慢慢下降:
![在这里插入图片描述](https://img-blog.csdnimg.cn/6214e43641a24dcfbfe6e21e05abc74a.png)

因此肯定是代码出现了问题，损失不断上升，梯度为nan，说明梯度爆炸，并且模型无法收敛，因为我是语义分割，之前一百代就可以达到0.4多，现在一百多代还是0.0001。
在这里插入图片描述

如何解决？因为我之前没有发生过梯度爆炸，模型代码也没有变，只换了个损失函数，肯定是训练的代码有问题。猜测：第一次训练结束的时候梯度没有清零，导致第二次计算时候第一次的梯度也进行累计，导致损失不断上升。
经过仔细排查发现代码的问题了：
在这里插入图片描述
在计算损失之前不知道什么时候将如下代码注释掉了。

        # for param in model.parameters():
        #     param.grad = None

我们知道在一个epoch中，首先要将梯度清零，接着计算损失，接着优化器更新。这句代码就是将模型中的每个参数梯度至为None，上一次梯度清空。图片参考
在这里插入图片描述
修改：将模型梯度清空这个"开关"打开。

        for param in model.parameters():
            param.grad = None

这个代码意思和下面那个一样：只需要打开一个就行。

# optimizer.zero_grad()

查看损失变换：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43733107/article/details/129488597

loss非常大，直至nan

TPS波动非常大

table的colspan非常大时的异常

python快速读取非常大的文件

1-N中素数的个数（N非常大）

爬虫是个非常大的搜索引擎

Python 条形图与直方图有非常大的区别

对非常大的两个数字求和——数字字符串求和

CursorAdapter加载数据量非常大的时候，出现数据加载延迟

创建GPT磁盘可以使用一个分区非常大的容量

如何在PDF中创建非常大的页面的技能，你get了吗？

git 上传了一个非常大的文件，删除文件

【tkinter】python工具pyinstaller打包生成exe文件非常大的原因分析（openpyxl）openpyxl

python工具pyinstaller打包生成exe文件非常大的原因分析（openpyxl）openpyxl

Win10 C盘系统和保留占用空间非常大

程序员这样面试，拿到offer的几率是非常大

刷脸支付拓展社会变化非常大每天都在变

caffe loss = nan

训练loss变成nan

【AI名利场·人物】奇点汽车黄浴博士：“AI-Car时代”对社会影响非常大

【罗宾逊全球物流陈源汉：区块链在未来的物流领域会有非常大的潜力】

当未来比特币交易数据非常大时，普通用户节点该怎么办

肖风：明年，区块链行业一场非常大的变化一定会来临！

Pytorch训练模型损失Loss为Nan或者无穷大（INF）原因

深度学习---loss变nan

神经网络loss Nan

训练时 loss 为 NaN

Tensorflow编程问题-Loss Nan

python中的当数据量非常大的时候，节省内存空间的设置方式------------------------生成器与迭代器详解，内附示例代码

java快速读取文本文件最后一行数据内容，文本文件非常大

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)