AdamW优化器简单理解

企业开发 2023-06-05 04:16:35 阅读次数: 0

1.SGD

L2 regularization 和 Weight decay 只在SGD优化的情况下是等价的。
在这里插入图片描述

2.自适应学习率算法

Adam自动调整学习率，大幅提高了训练速度，也很少需要调整学习率，但是有相当多的资料报告Adam优化的最终精度略低于SGD。

问题出在哪呢，其实Adam本身没有问题，问题在于目前大多数DL框架都是在优化器之前加上L2正则项来替代weight decay。
在这里插入图片描述

3. Adam vs AdamW

在这里插入图片描述

4. 图示分析

在这里插入图片描述

横纵坐标分别是不同的weight decay和learning rate的组合;
上方可以看到, 原始的实现方法, 最优化区域很小, 而且learning rate和weight decay有极大的相关性, 也就是说固定一个去调整另一个, 马上就会结果变差；
而下边作者提出的实现方法, 最优化区域明显增大, 固定一个去调整另一个, 才会真正的实现结果优化, 找到最优的参数组合.

猜你喜欢

转载自blog.csdn.net/xijuezhu8128/article/details/125543164

AdamW优化器简单理解

优化器：Adam与AdamW

SGD，Adam，AdamW，LAMB优化器

Baichuan2优化器，从SGD到Adam到AdamW

AdamW优化算法笔记

Lion : 超越 AdamW 的优化算法

梯度下降优化器：SGD -＞ SGDM -＞ NAG -＞AdaGrad -＞ AdaDelta -＞ Adam -＞ Nadam -＞ AdamW

Pytorch优化器全总结（二）Adadelta、RMSprop、Adam、Adamax、AdamW、NAdam、SparseAdam

Pytorch优化器全总结（二）Adadelta、RMSprop、Adam、Adamax、AdamW、NAdam、SparseAdam（重置版）

小知识点系列(二十六) 本文(5000字) | 优化器SGD，AdamW与Lion性能对比 |

模型训练（超参数batch_size/epoch/batch、损失函数DiceLoss/CrossEntropy/FocalLoss、优化器SGD/Adam/Adamw、衰减策略step/cos）

简单理解：编译器编译优化---常量传播和常量折叠

adam优化器再理解

Adam优化器（通俗理解）

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

简单认识Adam优化器

Android 内存优化与OOM简单分析理解

python装饰器简单理解

Java 对构造器的简单理解

python装饰器的简单理解

深度学习基础入门篇[三]：优化策略梯度下降算法：SGD、MBGD、Momentum、Adam、AdamW

关键词:预训练模型，编码器解码器，selfattention，AdamW，监督信号，深度学习，NLP

突然觉得mysql优化器蛮简单

简单计算器的实现与优化方法

简单 12 步理解 Python 装饰器

python中装饰器的简单理解

简单地理解 Python 的装饰器

简单的浏览器内核的理解

python的多装饰器简单理解

浏览器原理—简单理解

今日推荐

周排行

django中south支持多数据库

2、实时同步项目

http协议状态码解析

codeup 又一版 A+B(C++)

js三座大山之外的其他知识点

正向代理VS反向代理总结

规范的测试流程（转自51testing）

3、python-连接sql server

转~Jenkins pipeline：pipeline 使用之语法详解

cookie与sessio系列（一）：基本知识入门

每日归档

更多

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)