梯度下降法
直观理解
当ω在曲线右半部分,导数>0,ω更新后会变小,向中间靠拢。反之,当ω在曲线左半部分,导数<0,ω更新后会变小,也向中间靠拢。
推导
方法1
泰勒展开,δ是变化量。当δ的方向与相同,最大,因此梯度方向是上升最快的。反之,沿着梯度的负方向下降最快。
方法2
同济高数书第六版P102、P104
牛顿下降法
目的是使得。
三阶泰勒展开:
求导:
化简:
当ω在曲线右半部分,导数>0,ω更新后会变小,向中间靠拢。反之,当ω在曲线左半部分,导数<0,ω更新后会变小,也向中间靠拢。
泰勒展开,δ是变化量。当δ的方向与相同,最大,因此梯度方向是上升最快的。反之,沿着梯度的负方向下降最快。
同济高数书第六版P102、P104
目的是使得。
三阶泰勒展开:
求导:
化简: