解决Caffe训练过程中loss不变问题 - 代码天地

解决Caffe训练过程中loss不变问题

其他 2018-05-29 13:21:51 阅读次数: 0

这段在使用caffe的时候遇到了两个问题都是在训练的过程中loss基本保持常数值，特此记录一下。

1.loss等于87.33不变

loss等于87.33这个问题是在对Inception-V3网络不管是fine-tuning还是train的时候遇到的，无论网络迭代多少次，网络的loss一直保持恒定。

查阅相关资料以后发现是由于loss的最大值由FLT_MIN计算得到，FLT_MIN是1.17549435e−38F其对应的自然对数正好是-87.3356，这也就对应上了loss保持87.3356了。

这说明softmax在计算的过程中得到了概率值出现了零，由于softmax是用指数函数计算的，指数函数的值都是大于0的，所以应该是计算过程中出现了float溢出的异常，也就是出现了inf，nan等异常值导致softmax输出为0.

当softmax之前的feature值过大时，由于softmax先求指数，会超出float的数据范围，成为inf。inf与其他任何数值的和都是inf，softmax在做除法时任何正常范围的数值除以inf都会变成0.然后求loss就出现了87.3356的情况。

解决办法

由于softmax输入的feature由两部分计算得到：一部分是输入数据，另一部分是各层的权值等组成

减小初始化权重，以使得softmax的输入feature处于一个比较小的范围
降低学习率，这样可以减小权重的波动范围
如果有BN(batch normalization)层，finetune时最好不要冻结BN的参数，否则数据分布不一致时很容易使输出值变得很大(注意将batch_norm_param中的use_global_stats设置为false )。
观察数据中是否有异常样本或异常label导致数据读取异常
本文遇到的情况采用降低学习率的方法，learning rate设置为0.01或者原来loss的1/5或者1/10。

2.loss保持0.69左右

采用VGG-16在做一个二分类问题,所以计算loss时等价与下面的公式：

l o s s = - l o g (P k = = l a b e l)

当p=0.5时，loss正好为0.693147，也就是训练过程中，无论如何调节网络都不收敛。最初的网络配置文件卷积层的参数如下所示：

从VGG-16训练好的模型进行fine-tuning也不发生改变，当在网络中加入初始化参数和decay_mult以后再次训练网络开始收敛。

但是具体是什么原因造成的，暂时还没有找到，难道是初始化参数的问题还是？

猜你喜欢

转载自blog.csdn.net/jdk_yxs/article/details/79867808

解决Caffe训练过程中loss不变问题

深度学习训练过程中的问题&解决

DeepID训练过程中loss居高不下解决方法

[解决]神经网络训练过程中loss中出现Non

caffe ssd 训练过程中出现nan问题解决

【Loss为Nan】关于深度学习训练过程中出现Loss为Nan的问题

Tensorflow学习笔记6：解决tensorflow训练过程中GPU未调用问题

解决：pytorch-ssd在训练过程中遇到的一系列问题

训练过程中的一些问题

训练过程中，出现样本错误的问题

【yolox训练过程中遇到的问题集合】

caffe绘制训练过程的loss和accuracy曲线

pytorch训练过程中loss出现NaN的原因及可采取的方法

在训练过程中loss出现NaN的原因以及可以采取的方法

深度学习（21）——关于训练过程中loss和acc固若磐石

caffe训练过程中使用的python脚本

解决CAFFE编译过程中的问题

【caffe】caffe保存训练生成的log & 绘制训练过程的loss和accuracy曲线

YOLOv5训练过程中验证集不加载标签问题的解决方法

模型训练过程中，混合精度训练稳定性解决方案

训练过程loss震荡原因与解决办法

Tensorflow 3. 训练过程，出现loss=NAN的问题？

tensorflow-SSD算法在训练过程中出现的问题和解决方案

Chatgpt在训练过程中过拟合的表现和解决办法

TensorFlow之tf.nn.dropout()：防止模型训练过程中的过拟合问题

关于训练过程中损失函数出现断崖式增长的问题

在训练过程中跑验证集导致显存out of memory问题。

超分网络训练过程中val出现颜色变化的问题

SSD训练过程中出现问题总结

ubuntu16.04下Caffe绘制训练过程的loss和accuracy曲线

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)