简析梯度下降法的数学原理

在机器学习领域的大部分算法中,最终求解损失函数的极值几乎都是基于梯度下降法。这个在数学上是如何求解出来的?

参考资料:https://web.stanford.edu/class/ee364b/lectures/stoch_subgrad_slides.pdf
(第20页)

设损失函数 f(x) 是二阶可导的, 优化问题即为求解

argminxRdf(x)

xt 为第 t 次更新之后的变量值,由以下Taylor展开公式:
f(y)f(xt)+f(xt)T(yxt)+Lt2yxt2

因此,第 t+1 步的变量值应由下式得到:
xt+1=argminyRd{f(xt)+f(xt)T(yxt)+Lt2yxt2}

等价于:
xt+1=argminyRd{f(xt)Lt2+2f(xt)TLt(yxt)+yxt2}

xt+1=argminyRdy(xtf(xt)Lt)2

因此,

xt+1=xtαtf(xt),  αt=L1t.

猜你喜欢

转载自blog.csdn.net/ljyt2/article/details/78672826