RMSProp优化算法--学习笔记

  1. RMSProp优化算法是AdaGrad算法的一种改进。
  2. AdaGrad算法:
        要求的超参数:r(全局学习率),θ(初始参数),σ(小常数,为数值稳定大约设为10^-7)
        初始化梯度累计变量d=0
        where 没有达到停止条件:
            从训练集中选择m个样本的小批量以及其label
            计算梯度△d(损失函数链式法则回传梯度求和)
            累计平方梯度d=d+△d*△d
            计算更新:△θ=r/((σ)+开根(d)) * △d(逐元素应用除和求平方根)
            应用更新:θ=θ+△θ

  3. 原始的RMSProp优化算法和AdaGrad算法唯一的不同,就在于累积平方梯度的求法不同:
    d=ρ(衰减速率)d+(1-ρ)△d*△d 
    ,即RMSProp算法不是像AdaGrad算法那样暴力直接的累加平方梯度,而是加了一个衰减系数来控制历史信息的获取多少。
  4. 鉴于神经网络都是非凸条件下的,RMSProp在非凸条件下结果更好,改变梯度累积为指数衰减的移动平均以丢弃遥远的过去历史。
  5. 设置全局学习率之后,每次通过,全局学习率逐参数的除以经过衰减系数控制的历史梯度平方和的平方根,使得每个参数的学习率不同
  6. 起到的效果是在参数空间更为平缓的方向,会取得更大的进步(因为平缓,所以历史梯度平方和较小,对应学习下降的幅度较小),并且能够使得陡峭的方向变得平缓,从而加快训练速度。

猜你喜欢

转载自blog.csdn.net/weixin_45647721/article/details/127278500
今日推荐