梯度下降(Gradient Descent)(三)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012294618/article/details/79509688

  在之前的博客中,我们分别讲了梯度下降的基本原理三种变体。作为当今最流行的优化(optimization)算法(尤其是在深度学习中的应用),梯度下降存在很多问题和挑战,研究人员也相应地提出了许多优化方式,本文将对此作详细的讲解,作为梯度下降系列的最后一篇。


  考虑到篇幅过长,且有几篇关于此的文章已经写得非常好,笔者仅在这里给出相应的参考文献及简要介绍,读者可自行前往阅读。
  [1]是Sebastian Ruder写的一篇文章,里面详细讲解了关于梯度下降的诸多知识,细致且全面,这里再贴出Ruder的博客地址,供大家学习。
  [2]、[3]、[4]均是对[1]的中文翻译,大都翻译的比较通顺,不过缺失了很多公式,英文不好的读者可结合[1]一起看,帮助理解。
  最后,在这里贴两张别人制作的动图,对SGD的几种优化方式作了可视化,可直观地感受它们的收敛过程和使用效果:


这里写图片描述
这里写图片描述


参考文献

[1] https://download.csdn.net/download/u012294618/10280896
[2] https://download.csdn.net/download/u012294618/10280894
[3] https://www.jiqizhixin.com/articles/2016-11-21-4
[4] http://www.sohu.com/a/131923387_473283
以上为本文的全部参考文献,对原作者表示感谢。

猜你喜欢

转载自blog.csdn.net/u012294618/article/details/79509688
今日推荐