MATLAB算法实战应用案例精讲-【深度学习】优化策略(最终篇)

目录

Nadam

AMSGrad

AdaBound

AdamW

RAdam

Lookahead


Nadam

Adam可以被看作是融合了RMSProp和momentum,RMSprop 贡献了历史平方梯度的指数衰减的平均值v_{t},而动量则负责历史梯度的指数衰减平均值m_{t},Nadam在Adam的基础上加入了一阶动量的累积,即Nesterov + Adam = Nadam,为了把NAG融入到Adam中,我们需要修改momentum的项

猜你喜欢

转载自blog.csdn.net/qq_36130719/article/details/131559691