梯度下降法&牛顿法

梯度下降法

在机器学习任务中,需要最小化损失函数\(L(\theta)\),其中\(\theta\)是要求解的模型参数。梯度下降法是一种迭代方法,用到损失函数的一阶泰勒展开。选取初值\(\theta ^0\),不断迭代更新\(\theta\)的值,进行损失函数的极小化。
迭代公式: \(\theta^t=\theta^{t-1}+\Delta\theta\)
\(L(\theta^t)\)\(\theta^{t-1}\)处进行一阶泰勒展开,有:


\begin{aligned}
L(\theta^t)&=L(\theta^{t-1}+\Delta\theta) \
&\approx L(\theta^{t-1})+L^{\prime}(\theta^{t-1})\Delta\theta \
\end{aligned}

牛顿法

用到损失函数的二阶泰勒展开。

猜你喜欢

转载自www.cnblogs.com/bellz/p/10587444.html