陆吾生讲座最优化问题的数学基础

Ⅰ. Taylor expansion

对于光滑函数可以进行泰勒展开。
任意函数只要可以求导，放大看它的局部必是高阶的多项式求和的形式，根据要求的拟合误差决定需要的阶数。

One-variable case

f (x + δ) = f (x) + f' (x) δ + 1 2 f'' (x) δ 2 + \dots

$f(x+\delta)=f(x)+f'(x)\delta+{1\over 2}f''(x)\delta^2+…$

Multi-variable case

def. Hessian Matrix: $\nabla^2f(x)$

f (x + δ) = f (x) + \nabla T f (x) δ + 1 2 δ T \nabla 2 f (x) δ + \dots

$f(x+\delta)=f(x)+\nabla^Tf(x)\delta+{1\over 2}\delta^T\nabla^2f(x)\delta+…$

Linear approximation of f(x) at x

当 $\delta\rightarrow 0$ ，f(x)是关于 $\delta$ 的线性函数

f (x + δ) \approx f (x) + \nabla T f (x) δ

$f(x+\delta)\approx f(x)+\nabla^Tf(x)\delta$

Quadratic approximation of f(x) at x

当 $\delta\rightarrow 0$ ，f(x)是关于 $\delta$ 的二次函数

f (x + δ) \approx f (x) + \nabla T f (x) δ + 1 2 δ T \nabla 2 f (x) δ

$f(x+\delta)\approx f(x)+\nabla^Tf(x)\delta+{1\over 2}\delta^T\nabla^2f(x)\delta$

Ⅱ. Optimazation

求 $\min_{x\in \mathcal{R}^{n\times 1}}f(x)$

原始办法
得到两个方程，但对于复杂函数而言求导后解方程极其复杂。

$\nabla f (x) = ⎡ ⎣ ⎢ ⎢ ⎢ \partial f ( x ) \partial x 1 \partial f ( x ) \partial x 2 ⎤ ⎦ ⎥ ⎥ ⎥ = 0$ $\nabla f(x)=\begin{bmatrix} {\partial f(x)\over \partial x_1}\\ {\partial f(x)\over \partial x_2}\\ \end{bmatrix}=0$
A.Cauchy Method
不通过解方程找到方程的解。
随便找一个 $x_k$ ，然后使其移动得到更小的函数值，interatively，直到 $\nabla f(x)\rightarrow 0$ .
取 $\delta=-\nabla f(x_k)$ ， $x_{k+1}=x_k-\nabla f(x_k)$

$f (x k + δ) - f (x k) \approx \nabla T f (x k) δ = - | | \nabla f (x k) 2 | | < 0$ $f(x_k+\delta)-f(x_k)\approx\nabla^Tf(x_k)\delta=-||\nabla f(x_k)^2||<0$ 故可以保证当前的 $f(x_k+\delta)$ 比原先的 $f(x_k)$ 更小。
以此为基础还可以设置步长 $\alpha$
$F (α) = f (x k - α \nabla T f (x k))$ $F(\alpha)=f(x_k-\alpha\nabla^Tf(x_k))$ 得到的是关于 $\alpha$ 的非线性函数，当取到 $\alpha_{opt}$ 时可以得到最小的函数值。

关于 $\alpha$ 的选取，可参见Line search.
以此迭代产生
$x k + 1 = x k - α k \nabla f (x k)$ $x_{k+1}=x_k-\alpha_k\nabla f(x_k)$ $x k + 2 = x k + 1 - α k + 1 \nabla f (x k + 1)$ $x_{k+2}=x_{k+1}-\alpha_{k+1}\nabla f(x_{k+1})$ $. . .$ $...$ 直到 $\nabla f(x)\rightarrow 0$ .
Newton Method
上面的 $\alpha$ 求起来麻烦也不好估计。由于 $f$ 同时也是关于 $\delta$ 的二阶多项式
$f (x + δ) \approx f (x) + \nabla T f (x) δ + 1 2 δ T \nabla 2 f (x) δ$ $f(x+\delta)\approx f(x)+\nabla^Tf(x)\delta+{1\over 2}\delta^T\nabla^2f(x)\delta$ 故要求关于 $\delta$ 的最小值可关于 $\delta$ 求导
$\nabla δ (f (x k) + \nabla T f (x k) δ + 1 2 δ T \nabla 2 f (x k) δ) = 0$ $\nabla_{\delta}(~f(x_k)+\nabla^Tf(x_k)\delta+{1\over 2}\delta^T\nabla^2f(x_k)\delta~)=0$ 且有性质 $\nabla (c T x) = c$ $\nabla(c^Tx)=c$ 可得到
$\nabla f (x k) + \nabla 2 f (x k) δ = 0$ $\nabla f(x_k)+\nabla^2f(x_k)\delta=0$ 则
$δ = - (\nabla 2 f (x k)) - 1 \nabla f (x k)$ $\delta=-(\nabla^2f(x_k))^{-1}\nabla f(x_k)$ 可以确定步长
$x k + 1 = x k - (\nabla 2 f (x k)) - 1 \nabla f (x k)$ $x_{k+1}=x_k-(\nabla^2f(x_k))^{-1}\nabla f(x_k)$
如图真实函数为黑线。一开始任取 $x_k$ ，其Taylor展开后对函数为红线的近似。求得红线的极值点为 $x_{k+1}$ ，又得到绿色的近似，得到绿线的极值点为 $x_{k+2}$ ，反复迭代不断地逼近理想的极值点。

比较Cauchy和Newton的方法

比较哪种方法的质量好，可以通过 $\nabla f(x^*)$ ，越接近0的越好。同时收敛速度越快的也越好。

M e t h o d 收 敛 速 度 预 处 理 （ 求 导 等 ） 占 据 内 存 Cauchy 慢 快 小 Newton 快 慢 大

$\begin{array}{c|cc} Method & \text{Cauchy} & \text{Newton}\\ \hline 收敛速度 & 慢 & 快\\ 预处理（求导等）& 快 & 慢\\ 占据内存 & 小 & 大 \end{array}$

Ⅲ. Quadratic Form

Quadratic approximation of f(x) at x

f (x + δ) \approx f (x) + \nabla T f (x) δ + 1 2 δ T \nabla 2 f (x) δ

$f(x+\delta)\approx f(x)+\nabla^Tf(x)\delta+{1\over 2}\delta^T\nabla^2f(x)\delta$ 中出现了Hessian Matrix

H=∇2f(x) $H=\nabla^2f(x)$ ，最后这项是一个二次型。

想知道二次型的正负性，取决于H的特征值 $eig(H)-\lambda_1,\lambda_2,…,\lambda_n$ - real valued

d e f . ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ x T H x > 0 x T H x \geq 0 x T H x < 0 x T H x \leq 0 x T H x >, < 0 positive definite P.D positive semidefinite P.S.D negative definite N.D negative semidefinite N.S.D indefinite iff iff iff iff λ i > 0 λ i \geq 0 λ i < 0 λ i \leq 0

$def.\begin{cases} x^THx>0 & \text{positive definite P.D} & \text{iff} &\lambda_i>0 \\ x^THx\geq0 & \text{positive semidefinite P.S.D} & \text{iff} & \lambda_i\geq0\\ x^THx<0 & \text{negative definite N.D} & \text{iff} &\lambda_i<0\\ x^THx\leq0 & \text{negative semidefinite N.S.D} & \text{iff} &\lambda_i\leq0\\ x^THx>,<0 & \text{indefinite}\\ \end{cases}$
比如

H = [1 2.5 2.5 4]

$H=\begin{bmatrix} 1&2.5\\ 2.5&4\\ \end{bmatrix}$

f (x) = x T H x = x 21 + 5 x 1 x 2 + 4 x 22

$f(x)=x^THx=x_1^2+5x_1x_2+4x_2^2$

det (λ I - H) = [λ - 1 2.5 2.5 λ - 4] = (λ - 1) (λ - 4) - 6.25 = 0

$\det(\lambda I-H)= \begin{bmatrix} \lambda-1&2.5\\ 2.5&\lambda-4\\ \end{bmatrix} =(\lambda-1)(\lambda-4)-6.25=0$
陆老师一眼看出它是N.D，用了主子式(leading principal minors)简化运算：

1 \times 4 - 6.25 < 0

$1\times4-6.25<0$ 妈妈我不懂……

Convex Function

对于开口向上的凸函数而言，其图像有性质：任何点的切线都在函数图象下方。
convex
则对于x点处切线 $\tan\theta=f'(x)$ ， $\theta$ 为切线与x轴夹角。且如图

h = tan θ (x 1 - x) = f' (x) (x 1 - x)

$h=\tan\theta(x_1-x)=f'(x)(x_1-x)$ 则

f (x 1) = f (x) + h + p

$f(x_1)=f(x)+h+p$ 又由Taylor展开项

f (x + δ) \approx f (x) + \nabla T f (x) δ + 1 2 δ T \nabla 2 f (x) δ

$f(x+\delta)\approx f(x)+\nabla^Tf(x)\delta+{1\over 2}\delta^T\nabla^2f(x)\delta$ 代入到凸函数中得到

f (x 1) \approx f (x) + \nabla T f (x) (x 1 - x) + 1 2 (x 1 - x) T \nabla 2 f (x) (x 1 - x)

$f(x_1)\approx f(x)+\nabla^Tf(x)(x_1-x)+{1\over 2}(x_1-x)^T\nabla^2f(x)(x_1-x)$ 则

f (x 1) - f (x) - \nabla T f (x) (x 1 - x) \approx 1 2 (x 1 - x) T \nabla 2 f (x) (x 1 - x) \geq 0

$f(x_1)-f(x)-\nabla^Tf(x)(x_1-x)\approx {1\over 2}(x_1-x)^T\nabla^2f(x)(x_1-x)\geq0$ 即二次型是半正定的。
因此，求eig(H)则可得函数是否convex。

即使复杂如Logistic regression中的二阶梯度

\nabla 2 f (θ) = 1 N \sum i = 1 N ( 1 - 2 l i ) 2 e ( 1 - 2 l i ) θ T x ^ i x ^ i x ^ T i ( 1 + e ( 1 - 2 l i ) θ T x ^ i ) 2

$\nabla^2 f(\theta)={1\over N}\sum_{i=1}^N{(1-2l_i)^2e^{(1-2l_i)\theta^T\hat x_i}\hat x_i\hat x_i^T \over (1+e^{(1-2l_i)\theta^T\hat x_i})^2}$ 也可判断出原函数为凸。

感谢陆老师~
ECNU的秋