为什么不用牛顿法来代替梯度下降算法?

a. 牛顿法使用的是目标函数的二阶导数,在高维情况下这个矩阵非常大,计算和存储都是问题。

b. 在小批量的情况下,牛顿法对于二阶导数的估计噪声太大。

c.目标函数非凸的时候,牛顿法容易受到鞍点或者最大值点的吸引。

猜你喜欢

转载自blog.csdn.net/donkey_1993/article/details/82562636
今日推荐