tf.train.AdamOptimizer()【Adam优化器】

作用：

迭代更新神经网络的参数

定义：

__init__(
    learning_rate=0.001,
    beta1=0.9,
    beta2=0.999,
    epsilon=1e-08,
    use_locking=False,
    name='Adam'
)

关键字参数:
learning_rate( $\alpha$ )：学习率
beta1( $\beta_1$ )：一阶矩估计的衰减率
beta2( $\beta_2$ )：二阶矩估计的衰减率
epsilon( $\hat{\epsilon}$ )：辅助参数【不是论文算法1中的 $\epsilon$ 】
use_locking：锁定更新参数
name：优化器名称

优化过程：

参数：
1. $\alpha$ ：学习率
2. $\beta_1$ ：一阶矩估计的衰减率
3. $\beta_2$ ：二阶矩估计的衰减率
4. $\theta_0$ ：需要优化的参数
5. $f(\theta)$ ：目标函数

变量初值：
1.m $_0$ =0：一阶矩估计的偏差
2.v $_0$ =0：二阶矩估计的偏差
3.t=0：优化次数

过程：
如果 $\theta_t$ （t时刻的参数）没有收敛：

$t=t+1$ # 优化次数+1

$g_t=\nabla_\theta f_t(\theta_{t-1})$ # 获取最新的目标函数值的梯度

$m_t=\beta_1\cdot m_{t-1}+(1-\beta_1)\cdot g_t$ # 更新一阶矩估计的偏差

$m_t=\beta_2\cdot v_{t-1}+(1-\beta_2)\cdot g_t^2$ # 更新二阶矩估计的偏差

$\hat{m_t} = m_t/(1-\beta_1^t)$ # 偏差修正的一阶矩估计

$\hat{v_t} = v_t/(1-\beta_2^t)$ # 偏差修正的二阶矩估计

$\theta_t=\theta_{t-1}-\alpha\cdot\hat{m_t}/(\sqrt{\hat{v_t}}+\hat{\epsilon})$ # 更新参数

收敛后结束迭代，返回 $\theta_t$

tf.train.AdamOptimizer().minimize【优化目标最小化】

作用：

使优化器通过最小化loss来更新参数值

定义

minimize(
    loss,
    global_step=None,
    var_list=None,
    gate_gradients=GATE_OP,
    aggregation_method=None,
    colocate_gradients_with_ops=False,
    name=None,
    grad_loss=None
)

必选参数：
loss：需要最小化的值
关键字参数:
global_step：全局次数，如果不为None，则每次加1
var_list：自定义需要优化的参数，如果为None，则优化TRAINABLE_VARIABLES
gate_gradients：并发性参数，默认=GATE_OP（节点内部不并发）。可选GATE_NONE（最高级别并发）和GATE_GRAPH（最低级别并发）
aggregation_method：聚合方法
colocate_gradients_with_ops
name：返回操作的名称
grad_loss：维持loss的梯度计算结果

论文原文链接：Kingma D P, Ba J. Adam: A Method for Stochastic Optimization[J]. Computer Science, 2014.

Tensorflow优化器

tf.train.AdamOptimizer()【Adam优化器】

作用：

定义：

优化过程：

tf.train.AdamOptimizer().minimize【优化目标最小化】

作用：

定义

猜你喜欢