深度学习《CNN架构续篇 - 学习率衰减》

截图来自于吴恩达的深度学习视频。

我们在参数更新的时候,存在一个步长α,这个参数代表了我们每一轮迭代在梯度方向上要进步的步伐长度,以前呢骂我们都是设置成规定值,那么有什么影响呢?首先简单不用说了,在某个梯度下降的过程中,在谷底(梯度最低值)的时候,可能出现始终徘徊到达不了最低点,甚至反而出现越来越大不收敛的情况,原因就是步长一致导致的,因此有个优化方式就是,将固定的步长α改成变化的值,怎么变呢?
如下图,在固定步长下,在最优值附近会产生剧烈抖动,可能无法达到最优解。
在这里插入图片描述

1) 随着迭代次数的增长逐渐减少,使用反函数形式衰减。
a) 在这里插入图片描述

b) 在这里插入图片描述

c) 在这里插入图片描述

2) 随着梯度的值减少,梯度越大,说明坡度越大,那就采取大一些的值,越接近谷底,坡度越缓,就越要变化为小步伐前进。(不详细讲解)
3) 梯度衰减(不详细讲解)
4) 余弦衰减(不详细讲解)
5) 多项式衰减(不详细讲解)
6) 指数衰减
a) 在这里插入图片描述

使用学习率衰减后,得到的效果就是绿色线条表示,越接近最优值步长越小,越容易接近最优值:

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_29367075/article/details/108913309