数值最优化—优化问题的解(二)

一、定理

局部最小值点一阶必要条件： $\nabla f(x^*)=0$
局部最小值点二阶必要条件： $\nabla f(x^*)=0 且 \nabla^2 f(x^*)$ 正定。
局部最小值点二阶充分条件： $\nabla^2 f(x)$ 在 $x^*$ 的开邻域内连续， $\nabla f(x^*)=0$ 并且 $\nabla^2 f(x^*)$ 正定，那么 $x^*$ 是 $f (x)$ 的严格局部最小值点。

二、证明

Proof 1
反证法
假设当 $x^*$ 为局部最小值时 $\nabla f(x^*)\neq0$ ，那么定义 $-\nabla f(x^*)$ 。这样我们可以得到：
$p^T\nabla f(x^*)=-\nabla f(x^*)^T\nabla f(x^*)=-\|\nabla f(x^*)\|<0$ （1）
根据函数的连续性，必然可以得到，存在一个足够小的正数 $T$ ，使得：
$p^T\nabla f(x^*+tp)<0$ for all $t\in[0,T]$ （2）
考虑 \overline{t} \in(0,T] ，并对 f(x)$ 在 $x^*$ 点处做泰勒展开，我们可以得到：
$f(x^*+\overline{t}p) = f(x^*)+\overline{t}p^T\nabla f(x^*+tp) for some t\in (0,\overline{t})$ （3）
观察公式(3)的第二项， $\overline{t}$ 是一个正实数，根据公式(2)我们又可以知道 $p^T\nabla f(x^*+tp)$ 是一个负数。那么我们可以我们一定可以找到一个正数 $\beta$ ，使得：
$f(x^*+\overline{t}p) = f(x^*)-\beta$
也就是：
$f(x^*+\overline{t}p) < f(x^*)$
那么 x^* 不是局部最小值点，与假设相反，原结论成立。
Q.E.D
Proof 2：
由Proof 1我们已经证明了前半部分，现在证明后半部分，也就是 $\nabla^2 f(x^*)$ 正定。
反证法
假设 $\nabla^2 f(x^*)$ 不是正定的，那么肯定可以找到一个向量 $p$ 使得 $p^T\nabla^2 f(x^*)p<0$ 。同样由连续性，可以得到，存在一个正数 $T$ 使得：
$p^T\nabla^2f(x^*+tp)p<0$ for all $t\in[0,T]$
考虑 $\overline{t} \in(0,T]$ ，并对 $f (x)$ 在 $x^*$ 点处做二阶泰勒展开，我们可以得到：
$f(x^*+\overline{t}p) = f(x^*)+\overline{t}p^T\nabla f(x^*+tp)+\frac{1}{2}\overline{t}^2p^T\nabla^2f(x^*+tp)p<f(x^*)$
同理我们可以得到假设错误，原结论成立。
Q.E.D
Proof 3
由于 $\nabla^2f(x)$ 的连续性，我们可以知道，在 $x^*$ 的一个足够小的邻域内， $\nabla^2f(x)$ 可以保持正定性。假设这个邻域的半径为 $r$ ，那么这个邻域内所有点的集合为 $\mathcal{D} =\{z| \|z-x^*\|<r\}$ 。我们假设 $p$ 为任意满足 $\|p\|<r$ 的向量。那么我们可以得到 $x^*+p\in \mathcal{D}$ 。
（这里做一点简要的解释，在 $x^*$ 附近满足正定性条件的点不一定都在集合 $\mathcal{D}$ 里面，之所以引入集合 $\mathcal{D}$ 的概念主要是为了简化描述。对于单一变量而言， $\mathcal{D}$ 是一个以 $x^*$ 为中点的线段，这个线段中任何一点都能使二阶导正定。这个线段可能不是最长的线段，但是他必须是以 $x^*$ 为中点的，二维的话就是以 $x^*$ 为圆心的圆，三维就是以 $x^*$ 为球心的球。）
同样我们做泰勒展开：
$f(x^*+p) = f(x^*) +p^T \nabla f(x^*) + \frac{1}{2}p^T\nabla^2 f(z) p\\=f(x^*) + \frac{1}{2} p^T f(z) p$
这里需要解释的有两点。1、第二个等式是因为在 $x^*$ 处 $\nabla f(x^*) = 0$ 。2、根据泰勒定理，这里的 $z=x^*+tp$ for some $\in (0,1)$ 。对于最后一个等式的最后一项，根据正定的定义我们可以知道 $p^T f(z) p$ 是一个正数。
我们可以得到：
$f(x^*+p) > f(x^*)$
由于 $x^*+p$ 可以认为是一个在超平面上以 $x^*$ 为球心的开球域。这也就是说，在 $x^*$ 附近所有的函数值都比 $x^*$ 点处的大。
Q.E.D