1.梯度下降

以下均参考https://www.cnblogs.com/shixiangwan/p/7532830.html

（1）简介

梯度下降法是最早最简单，也是最为常用的最优化方法。梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。

（2）梯度下降的缺点

（1）靠近极小值时收敛速度减慢，如下图所示；
（2）直线搜索时可能会产生一些问题；
（3）可能会“之字形”地下降。

（3）两种梯度下降方法比较

批量梯度下降
最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是对于大规模样本问题效率低下。
随机梯度下降
最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近，适用于大规模训练样本情况。

2.泰勒公式

泰勒公式是将一个在x=x0处具有n阶导数的函数f(x)利用关于(x−x0)的n次多项式来逼近函数的方法。
若函数f(x)在包含x0的某个闭区间[a,b]上具有n阶导数，且在开区间(a,b)上具有(n+1)阶导数，则对闭区间[a,b]上任意一点x，成立下式：
其中，表示f(x)的n阶导数，等号后的多项式称为函数f(x)在x0处的泰勒展开式，剩余的Rn(x)是泰勒公式的余项，是(x−x0)n的高阶无穷小。如果 a=0的话，就是麦克劳伦公式：

其组成部分是由幂函数和相应的系数组成，其中的幂函数其实只有两种形态，一种是关于 Y 轴对称，一种是关于原点对称，并且指数越大，增长速度越大。
幂函数组成的多项式函数特点:各幂函数加上相应的系数，通过改变系数，多项式可以像铁丝一样弯成任意的函数曲线。

3.牛顿法

牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) = 0的根。牛顿法最大的特点就在于它的收敛速度很快。

五次及以上多项式方程没有根式解（就是没有像二次方程那样的万能公式），这个是被伽罗瓦用群论做出的最著名的结论，但牛顿法可以求出近似解。切线是曲线的线性逼近

（1）完整牛顿法过程

随机找一点(x1,f(x1))，根据切线找下一个点（切线是切点附近的曲线的近似）

（2）牛顿法的优缺点

优点：二阶收敛，收敛速度快；
缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。
（Hessian矩阵正定时，才可以保证目标函数有极值）

（3）牛顿法的问题

（4）牛顿法和梯度下降法效率对比

从本质上去看，牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想。）
红色:牛顿法的迭代路径，绿色:梯度下降法的迭代路径
从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。

4.拟牛顿法

拟牛顿法是求解非线性优化问题最有效的方法之一

（1）简介

拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。另外，因为拟牛顿法不需要二阶导数的信息，所以有时比牛顿法更为有效。如今，优化软件中包含了大量的拟牛顿算法用来解决无约束，约束，和大规模的优化问题。

（2）拟牛顿法的原理

　这个公式被称为割线方程。常用的拟牛顿法有DFP算法和BFGS算法。

（3）拟牛顿法优点

1.可以求解非线性优化问题
2.运算复杂度降低（相比于牛顿法）

5.共轭梯度法

（1）简介

共轭梯度法是介于最速下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点，共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一。在各种优化算法中，共轭梯度法是非常重要的一种。

（2）共轭梯度法和梯度下降法搜索最优解的路径对比示意图：

绿色:梯度下降法，红色:共轭梯度法
共轭梯度最多收敛于n个步骤，其中n是系统矩阵的大小（此处n = 2）

（3）优点

1.所需存储量小
2. 具有步收敛性
2. 稳定性高，而且不需要任何外来参数。

6.启发式优化方法

启发式方法指人在解决问题时所采取的一种根据经验规则进行发现的方法。其特点是在解决问题时,利用过去的经验,选择已经行之有效的方法，而不是系统地、以确定的步骤去寻求答案。启发式优化方法种类繁多，包括经典的模拟退火方法、遗传算法、蚁群算法以及粒子群算法等等。
还有一种特殊的优化算法被称之多目标优化算法，它主要针对同时优化多个目标（两个及两个以上）的优化问题，这方面比较经典的算法有NSGAII算法、MOEA/D算法以及人工免疫算法等。

7.解决约束优化问题——拉格朗日乘数法

http://www.cnblogs.com/maybe2030/p/4751804.html

常见的集中优化方法

1.梯度下降

（1）简介

（2）梯度下降的缺点

（3）两种梯度下降方法比较

2.泰勒公式

3.牛顿法

（1）完整牛顿法过程

（2）牛顿法的优缺点

（3）牛顿法的问题

（4）牛顿法和梯度下降法效率对比

4.拟牛顿法

（1）简介

（2）拟牛顿法的原理

（3）拟牛顿法优点

5.共轭梯度法

（1）简介

（2）共轭梯度法和梯度下降法搜索最优解的路径对比示意图：

（3）优点

6.启发式优化方法

7.解决约束优化问题——拉格朗日乘数法

猜你喜欢