一、说明

模型每次反向传导 都会给各个可学习参数p 计算出一个偏导数g_t，用于更新对应的参数p。通常偏导数g_t 不会直接作用到对应的可学习参数p上，而是通过优化器做一下处理，得到一个新的值 $\widehat{g}_t$ ，处理过程用函数F表示（不同的优化器对应的F的内容不同），即 $\widehat{g}_t=F(g_t)$ ，然后和学习率lr一起用于更新可学习参数p，即 $p=p-\widehat{g}_t*lr$ 。

Adam是在RMSProp和AdaGrad的基础上改进的。先掌握RMSProp的原理，就很容易明白Adam了。
关于 Adagrad、RMSProp优化算法详解可阅读此blog

二、Adam原理

在RMSProp的基础上，做两个改进：梯度滑动平均和偏差纠正。

1. 梯度滑动平均

在RMSProp中，梯度的平方是通过平滑常数平滑得到的，即在这里插入图片描述（根据论文，梯度平方的滑动均值用v表示；根据pytorch源码，Adam中平滑常数用的是β，RMSProp中用的是α），但是并没有对梯度本身做平滑处理。

在Adam中，对梯度也做了平滑，平滑后的滑动均值用m表示，即在这里插入图片描述，在Adam中有两个β。

2. 偏差纠正

上述m的滑动均值的计算，当t=1时， $m_1=\beta*m_0+(1-\beta)*g_1$ ，由于m_0的初始是0，且β接近1，因此t较小时，m的值是偏向于0的，v也是一样。这里通过除以在这里插入图片描述来进行偏差纠正，即 $\widehat{m}_t=\frac{m_t}{1-\beta^t}$ 。

3. Adam计算过程

为方便理解，以下伪代码和论文略有差异，其中蓝色部分是比RMSProp多出来的。
在这里插入图片描述

三、pytorch Adam参数

torch.optim.Adam(params,
                lr=0.001,
                betas=(0.9, 0.999),
                eps=1e-08,
                weight_decay=0,
                amsgrad=False)