faster rcnn训练过程出现loss=nan的解决办法

其他 2018-09-14 04:18:50 阅读次数: 0

版权声明：本文为博主原创文章，转载请一定附上博主原文链接，并署名转自ZeroZone零域。 https://blog.csdn.net/ksws0292756/article/details/80702704

出现了loss=nan说明模型发散，此时应该停止训练。
出现这种错误的情况可能有以下几种，根据你自己的情况来决定。

1、GPU的arch设置的不对

打开./lib/setup.py文件，找到第130行，将gpu的arch设置成与自己电脑相匹配的算力，这里举个例子，如果你用的是GTX1080，那么你的算力就是6.1，此时就需要将-arch=sm_52改成-arch=sm_61。
可以在这个网站里查看到自己gpu的算力
https://developer.nvidia.com/cuda-gpus

2、自己制作了VOC或者coco数据集格式

如果你自己制作了voc pascal或者coco数据集格式，那么你需要注意，看看是否有类似下面的报错

RuntimeWarning: invalid value encountered in log targets_dw = np.log(gt_widths / ex_widths)

这种报错说明数据集的数据有一些问题，多出现在没有控制好边界的情况，首先，打开lib/database/pascal_voc.py文件，找到208行，将208行至211行每一行后面的-1删除，如下所示：

x1 = float(bbox.find(‘xmin’).text)
y1 = float(bbox.find(‘ymin’).text)
x2 = float(bbox.find(‘xmax’).text)
y2 = float(bbox.find(‘ymax’).text)
原因是因为我们制作的xml文件中有些框的坐标是从左上角开始的，也就是（0,0）如果再减一就会出现log（-1）的情况

如果这样之后还是出现类似的报错，那么说明依然有-1或者其他负数的情况出现。解决方法是打开./lib/model/config.py文件，找到flipp选项，将其置为False
__C.TRAIN.USE_FLIPPED = False

如果这样以后还是报类似的错误，就一定检查一下自己制作数据集的过程，看看是否哪里没有考虑清楚。

3、偏方：修改学习率

网上有人说可以通过修改学习率来解决，这个我没有验证，但是也可以作为一个备选方案把

猜你喜欢

转载自blog.csdn.net/ksws0292756/article/details/80702704

faster rcnn训练过程出现loss=nan的解决办法

训练faster rcnn出现AssertionError的解决办法

faster rcnn

Faster-RCNN (2)：py-faster-rcnn训练时遇到的一些问题及解决办法（转载）

训练自己的faster rcnn

SSD、Faster-rcnn Loss

faster rcnn训练自己的数据集demo和训练过程error总结

Faster-Rcnn训练出现的问题

训练Faster RCNN出现的错误集合

faster-rcnn训练过程中的相关Linux操作

faster-rcnn的训练.md

faster_rcnn编译及训练

RCNN Faster RCNN 理解

RCNN到Faster RCNN

faster rcnn windows配置过程

anchors的生成过程（Faster Rcnn）

faster rcnn全过程

Faster-RCNN

FASTER RCNN阅读笔记

Faster rcnn代码观看

py-faster-rcnn

faster-rcnn学习

faster rcnn 笔记

pytorch faster-rcnn

Faster-rcnn详解

Faster RCNN 学习与研究

Faster RCNN 论文小结

Faster RCNN解析

Faster rcnn代码理解

Faster RCNN 原理详解

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)