机器学习中的数学——优化技术:优化算法-[RMSProp]

RMSProp算法修改AdaGrad以在非凸设定下效果更好,改变梯度积累为指数加权的移动平均。AdaGrad旨在应用于凸问题时快速收敛。当应用于非凸函数训练神经网络时,学习轨迹可能穿过了很多不同的结构,最终到达一个局部凸的区域。AdaGrad根据平方梯度的整个历史收缩学习率,可能使得学习率在达到这样的凸结构前就变得太小了。RMSProp使用指数衰减平均以丢弃遥远过去的历史,使其能够在找到凸碗状结构后快速收敛,它就像一个初始化于该碗状结构的AdaGrad算法实例。相比于AdaGrad,使用移动平均引入了一个新的超参数 ρ \rho ρ,用来控制移动平均的长度范围。

RMSProp算法
输入:全局学习率 ϵ \epsilon ϵ;衰减速率 ρ \rho ρ;初始参数 θ \theta θ;小常数 δ \delta δ(为了数值稳定大约设为 1 0 − 6 10^{-6} 106
输出:神经网络参数 θ \theta θ
(1) 初始化梯度累积变量 r = 0 r=0 r=0
(2) while 停止准则未满足 \quad\text{停止准则未满足} 停止准则未满足
(1) \quad 从训练集中采包含 m m m个样本 { x ( 1 ) , x ( 2 ) , ⋯   , x ( m ) } \{x^{(1)}, x^{(2)}, \cdots, x^{(m)}\} { x(1),x(2),,x(m)}的小批量,其中 x ( i ) x^{(i)} x(i)对应目标为 y ( i ) y^{(i)} y(i)
(2) \quad 计算梯度估计: g = 1 m ∇ θ ∑ i L ( f ( x ( i ) ; θ ) , y ( i ) ) g = \frac{1}{m}\nabla_\theta\sum_iL(f(x^{(i)}; \theta), y^{(i)}) g=m1θiL(f(x(i);θ),y(i))
(3) \quad 累积平方梯度: r = ρ r + ( 1 − ρ ) g ⊙ g r=\rho r+(1-\rho)g\odot g r=ρr+(1ρ)gg
(4) \quad 更新参数: θ = θ − ϵ δ + t ⊙ g \theta=\theta-\frac{\epsilon}{\delta+t}\odot g θ=θδ+tϵg
(5) return θ \theta θ

以及使用Nesterov Momentum的RMSProp算法:

使用Nesterov Momentum的RMSProp算法
输入:全局学习率 ϵ \epsilon ϵ;衰减速率 ρ \rho ρ;初始参数 θ \theta θ;小常数 δ \delta δ(为了数值稳定大约设为 1 0 − 6 10^{-6} 106;动量系数 α \alpha α v v v
输出:神经网络参数 θ \theta θ
(1) 初始化梯度累积变量 r = 0 r=0 r=0
(2) while 停止准则未满足 \quad\text{停止准则未满足} 停止准则未满足
(1) \quad 从训练集中采包含 m m m个样本 { x ( 1 ) , x ( 2 ) , ⋯   , x ( m ) } \{x^{(1)}, x^{(2)}, \cdots, x^{(m)}\} { x(1),x(2),,x(m)}的小批量,其中 x ( i ) x^{(i)} x(i)对应目标为 y ( i ) y^{(i)} y(i)
(2) \quad 计算梯度估计: g k = 1 m ∇ θ + α v ∑ i L ( f ( x ( i ) ; θ + α v ) , y ( i ) ) g_k = \frac{1}{m}\nabla_{\theta+\alpha v}\sum_iL(f(x^{(i)}; \theta+\alpha v), y^{(i)}) gk=m1θ+αviL(f(x(i);θ+αv),y(i))
(3) \quad 累积平方梯度: r = ρ r + ( 1 − ρ ) g ⊙ g r=\rho r+(1-\rho)g\odot g r=ρr+(1ρ)gg
(4) \quad 计算速度更新: v = α v − ϵ r ⊙ g v=\alpha v-\frac{\epsilon}{\sqrt{r}}\odot g v=αvr ϵg
(4) \quad 更新参数: θ = θ − ϵ δ + t ⊙ g \theta=\theta-\frac{\epsilon}{\delta+t}\odot g θ=θδ+tϵg
(5) return θ \theta θ

经验上,RMSProp已被证明是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/123449497
今日推荐