Adam优化器及其变种的原理 - 代码天地

Adam优化器及其变种的原理

企业开发 2023-06-21 12:28:24 阅读次数: 0

本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景。

1、SGD的原理

SGD（随机梯度下降法）是基于最速梯度下降法的原理，假设我们存在损失函数 $L(\theta )$ ，其中 $\theta$ 是要学习参数，定义如下的优化路径 $\theta^{k+1}=\theta^{k}+t^k\Delta(\theta^{k}),\ k=0,1,2,... ...$ ，使得损失函数 $L(\theta )$ 值最小。这是一个不断更新迭代参数 $\theta$ 的过程，其中 $k$ 表示其中某一更新步， $t^k$ 表示更新步长（即学习率）， $\Delta(\theta^{k})$ 表示更新方向。

假设存在最优参数 $\theta^*$ ，当前参数为最优参数附近的 $\theta^k$ ，我们选择合适的参数更新步长，使得 $\theta^{k+1}=\theta^{k}+t^k\Delta(\theta^{k})$ 逼迫最优参数。我们对目标损失函数 $L(\theta )$ 进行泰勒展开：

$L(\theta^*) = L(\theta^k+v)\approx L(\theta^k) + \nabla L(\theta^k) v$

因为 $\theta^*$ 是最优参数，所以：

$L(\theta^*) < L(\theta^k) \rightarrow \nabla L(\theta^k) v< 0$

最速下降法是指在规范化 $v$ 的基础上，找到一个合适的值使得方向导数 $\nabla L(\theta^k) v$ 最小，或者说让 $L(\theta^k)$ 近可能逼近最优值 $L(\theta^*)$ ，假设是L2范式 $\left \| v \right \|\leq 1$ 时，当 $v = -\nabla L(\theta^k)$ 时，方向导数最小。因此最速下降法的更新路径可以表示为：

$\theta^{k+1}=\theta^{k} - t^k\nabla L(\theta^k),\ k=0,1,2,... ...$

其中 $t^k$ 表示更新步长，因为上述泰勒展开式包含要求是在参数附近进行更新，因此需要控制更新的步长，其在SGD中称之为学习率。

2、SGD with Momentum 动量SGD的原理

因为在SGD中方向梯度 $g_k = L(\theta^k)$ 可能会因为某些点偏差会造成参数学习的振荡，因此通过动量来添加平滑参数：

$m_k = \beta m_{k-1} + (1-\beta )g_k$

$\theta^{k+1}=\theta^{k} - t^k m_k,\ k=0,1,2,... ...$

3、Adam的原理

动量SGD解决了由于梯度在某些点偏差会带来学习的振荡，但同时学习率设置也会影响学习，当梯度较小时，学习率设置过小，会减缓训练速度，而当梯度较大，学习率如果设置过大，会造成训练的振荡，因为Adam在动量SGD基础上增加了自适应调整学习率（即更新步长）。

$m_k = \beta_1 m_{k-1} + (1-\beta_1 )g_k$

$v_k = \beta_2 v_{k-1} + (1-\beta_2 )g_k^2$

$\theta^{k+1}=\theta^{k} - t^k m_k / \sqrt{v_k},\ k=0,1,2,... ...$

Adam在动量SGD的基础上增加了二阶动量 $v^k$ ，通过其来自适应控制步长，当梯度较小时，整体的学习率 $t^k /\sqrt{v_k}$ 就会增加，反之会缩小，因此在一般情况下，Adam相较于SGD，其收敛速度要更快。

同时为了避免某些点梯度偏差带来学习率的振荡，因此通过 $\beta_2$ 引入动量特性（由于梯度二次情况下，一般 $\beta_2 > \beta_1$ ）。

4、AdamW的原理

但是Adam存在另外的问题，当loss函数中存在L2正则项时，采用Adam优化并不会有效，主要原因是Adam的学习率是变化的，而且当梯度变大时，其学习率会变小，因此会使梯度较大的权重参数同梯度较小的权重参数相差更大，这同L2正则是相违背的。我们通过公式来说明这个过程：

假设目标损失函数添加了L2正则项后，如下表示为：

$L(\theta ) = L(\theta ) + \frac{1}{2}\left \| \theta \right \|^2$

如果通过动量SGD作为优化器，此时参数的更新可以写为如下式，同时可以看出L2正则项同weight decay也是等价的。

$\hat{m_k} = \beta m_{k-1} + (1-\beta )(g_k + \theta^k) = m_k + (1-\beta )\theta^k$

$\theta^{k+1}=\theta^{k} - t^k \hat{m_k} = \beta \theta^{k} - t^k m_k,\ k=0,1,2,... ...$

但是当Adam应用时，weight decay系数当梯度较大时其值较小，使得Adam对于L2正则项的优化并不好。因此AdamW主要是在Adam中增加了weight decay项，来帮助优化L2正则项：

$\theta^{k+1}=\theta^{k} - t^k (m_k / \sqrt{v_k} + \omega \theta^{k}),\ k=0,1,2,... ...$

$\omega =\omega_{norm}\sqrt{\frac{b}{BT}}$

上式中的 $\omega$ 为weight decay的系数，其中b表示batch size，B表示epoch中训练的batch数，T表示总共的epoch数，可以看出weight decay系数同整个训练轮数有关系。

5、AdamWR的原理

AdamWR主要是添加了热重启warm restart功能，其解决的问题是避免模型训练陷入局部最优，因为学习率和梯度会一直收敛，当达成局部最优点时，很难或者要很长时间才能跳出来，因此AdamWR主要是通过周期性增大学习率，从而提升模型的探索空间。

这个周期性调整学习率的函数称为cosine annealing，可以表示为：

$t^k = t^i_{min} + 0.5(t^i_{max} - t^i_{min})(1 + cos(\pi T_{cur}/T_i))$

AdamWR将整个训练过程分为多个热重启过程，上式中的i表示为第i个热重启过程， $t^i_{min}$ 表示在该阶段中最小的学习率， $T_i$ 表示当前热重启轮中总共需要训练epoch数， $T_{cur}$ 表示当前已经训练的epoch数。

通过AdamWR的模型的探索空间更大，下图评估了在不同初始学习率和L2正则项权重值的情况下，AdamWR所能找到的优点空间更大。

猜你喜欢

转载自blog.csdn.net/tostq/article/details/130597333

Adam优化器及其变种的原理

[work] Adam优化器

优化器：Adam

Adam优化器

优化器：Adam与AdamW

Adam优化器如何选择

adam优化器再理解

简单认识Adam优化器

Adam优化器（通俗理解）

【pytorch优化器】Adam优化算法详解

梯度爆炸对模型性能的影响机制:Adam 优化器算法原理

4种梯度下降的变种优化算法的拙见：Adagrad、RMSprop、Momentum、Adam（原创）

TensorFlow 常用优化器：GradientDescent、Momentum、Adam

Pytorch中adam优化器的参数问题

SGD，Adam，AdamW，LAMB优化器

adam优化

Adam的原理

FM分解机及其变种(FFM、DeepFM)原理详解

优化器（凸性、梯度、动量、Adagrad、RMSProp及Adam优化）

PyTorch－Adam优化算法原理，公式，应用

浏览器渲染页面原理，reflow、repaint及其优化

LSTM及其变种

ResNet及其变种

Convolution Network及其变种

RANSAC及其经典变种

Glomb编码及其变种

【NERF】及其变种

[机器学习 ] 优化器optimizer/鞍点/SGD/Adam

带adam优化器版本的神经网络

tensorflow中各种优化器解析（SGD、Momentum、Adam等）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)