smooth L1 loss为什么好？ - 代码天地

smooth L1 loss为什么好？

其他 2020-03-21 23:50:48 阅读次数: 0

原文：https://www.zhihu.com/question/58200555

smooth L1 loss能从两个方面限制梯度：

当预测框与 ground truth 差别过大时，梯度值不至于过大；
当预测框与 ground truth 差别很小时，梯度值足够小。

考察如下几种损失函数，其中

损失函数对 x 的导数分别为：

观察 (4)，当 x 增大时 L2 损失对 x 的导数也增大。这就导致训练初期，预测值与 groud truth 差异过于大时，损失函数对预测值的梯度十分大，训练不稳定。

根据方程 (5)，L1 对 x 的导数为常数。这就导致训练后期，预测值与 ground truth 差异很小时， L1 损失对预测值的导数的绝对值仍然为 1，而 learning rate 如果不变，损失函数将在稳定值附近波动，难以继续收敛以达到更高精度。

最后观察 (6)，smooth L1 在 x 较小时，对 x 的梯度也会变小，而在 x 很大时，对 x 的梯度的绝对值达到上限 1，也不会太大以至于破坏网络参数。 smooth L1 完美地避开了 L1 和 L2 损失的缺陷。其函数图像如下：

由图中可以看出，它在远离坐标原点处，图像和 L1 loss 很接近，而在坐标原点附近，转折十分平滑，不像 L1 loss 有个尖角，因此叫做 smooth L1 loss。

参考：
请问faster rcnn和ssd 中为什么用smooth l1 loss，和l2有什么区别？

猜你喜欢

转载自www.cnblogs.com/ahulwj/p/12543373.html

smooth L1 loss为什么好？

smooth l1 loss & l1 loss & l2 loss

机器学习笔记：Huber Loss & smooth L1 loss

L1、L2正则化以及smooth L1 loss

smooth l1

深度学习: smooth L1 loss 计算

【回归损失函数】L1（MAE）、L2（MSE）、Smooth L1 Loss详解

目标检测之Loss：Faster-RCNN中的Smooth L1 Loss

目标检测回归损失函数1：L1 loss, L2 loss以及Smooth L1 Loss的对比

目标检测中的回归损失函数系列一：Smooth L1 Loss

OHEM - non_local - smooth L1 loss - Libra R-CNN

Smooth_L1_Loss函数的计算方式 Smooth_L1_Loss函数的计算方式

【L1、L2、smooth L1三类损失函数】

torch.nn.functional as F smooth_l1_loss

Smooth_L1_Loss函数的计算方式

L1 loss 与 MSE

smooth_l1_loss(y_true, y_pred)

为什么L1稀疏，L2平滑？

目标检测中回归损失函数（L1Loss,L2Loss,Smooth L1Loss,IOU,GIOU,DIOU,CIOU,EIOU,αIOU ,SIOU)

L1 loss L2 loss

Smooth

目标检测——Faster R_CNN使用smooth L1作为bbox的回归损失函数原因

L1和L2损失函数(L1 and L2 loss function)及python实现

L1为什么具有稀疏性

为什么L1正则具有稀疏性

常用loss以及L0，L1以及L2范数

smooth_L1个人理解

L1和L2正则化。L1为什么能产生稀疏值，L2更平滑

机器学习 l1 相比于 l2 为什么容易获得稀疏解？

l1 相比于 l2 为什么容易获得稀疏解？

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

SVN同步出现问题

解决 nginx 出现 413 Request Entity Too Large 的问题

第一节区块链服务BaaS的总体架构以及基本模块设计的一种方案

ITeye 2013年度盘点——社区赠书书单

IDEA / git 和github 的新手使用教程史上最简单的 IntelliJ IDEA 教程史上最简单的 GitHub 教程

测试工程方法：测试用例设计综合策略

Spark优化(三)：对多次使用的RDD进行持久化

使用STM32 ST-LINK Utility 设置读保护后不能运行

exgcd 解同余方程ax=b(%n)

Android使用脚本进行多渠道打包

每日归档

更多

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)