在机器学习领域的大部分算法中,最终求解损失函数的极值几乎都是基于梯度下降法。这个在数学上是如何求解出来的?
参考资料:https://web.stanford.edu/class/ee364b/lectures/stoch_subgrad_slides.pdf
(第20页)
设损失函数
设
因此,第
等价于:
因此,
在机器学习领域的大部分算法中,最终求解损失函数的极值几乎都是基于梯度下降法。这个在数学上是如何求解出来的?
参考资料:https://web.stanford.edu/class/ee364b/lectures/stoch_subgrad_slides.pdf
(第20页)
设损失函数
因此,