【笔记】机器学习 - 李宏毅 - 4 - Gradient Descent

梯度下降 Gradient Descent
梯度下降是一种迭代法(与最小二乘法不同),目标是解决最优化问题:\({\theta}^* = arg min_{\theta} L({\theta})\),其中\({\theta}\)是一个向量,梯度是偏微分。

为了让梯度下降达到更好的效果,有以下这些Tips:

  1. 调整学习率
    在刚开始的时候,学习率大一些,以便更快迭代,当靠近目标时,学习率调小一些。
    比如说用 \(1/t\) 衰减:\({\eta}^t = {\eta}/\sqrt{(t + 1)}\)
    另外,不同的参数应当给不同的学习率。

猜你喜欢

转载自www.cnblogs.com/yanqiang/p/11325772.html