a. 牛顿法使用的是目标函数的二阶导数,在高维情况下这个矩阵非常大,计算和存储都是问题。
b. 在小批量的情况下,牛顿法对于二阶导数的估计噪声太大。
c.目标函数非凸的时候,牛顿法容易受到鞍点或者最大值点的吸引。