1)梯度下降:每次使用全部数据集进行训练
优点:得到的是最优解
缺点:运行速度慢,内存可能不够
2)随机梯度下降SGM
在随机梯度下降法中每次仅根据一个样本对模型中的参数进行调整
优点:可以一定程度上解决局部最优解的问题
缺点:容易震荡,收敛速度较慢
3)批量梯度下降BGM
优点:容易陷入局部最优解
缺点:收敛速度较快
4)mini_batch梯度下降
假设训练集中的样本的个数为1000,则每个mini-batch只是其一个子集,假设,每个mini-batch中含有10个样本,这样,整个训练数据集可以分为100个mini-batch。
综合随机梯度下降和批量梯度下降的优缺点,提取的一个中和的方法。
优点:训练速度快,无内存问题,震荡较少
缺点:可能达不到最优解
5)牛顿法
牛顿法在迭代的时候,需要计算Hessian矩阵,当维度较高的时候,计算 Hessian矩阵比较困难。
6)拟牛顿法
拟牛顿法是为了改进牛顿法在迭代过程中,计算Hessian矩阵而提取的算法,它采用的方式是通过逼近Hessian的方式来进行求解。