进阶优化算法

本文主要讨论在优化模型求解中用到的高级优化算法，这些算法基于常见的优化算法思想，采用一些非常巧妙的技巧，而使得算法到达更快的收敛等特点。这些高级优化算法也只限定于特定的模型求解，下面将对其进行简单总结。

1. Surrogate方法

首先我们考虑一些简单的优化问题 $\mathop{min}_x\frac{1}{2}\|x-x_0\|_2^2+\lambda\|x\|_1$ ，事实上我们只需要对 $x$ 向量中的每一个元素进行展开求解即可，它的优化解的表达式如下：

x * = S λ (x 0) = {0 ∥ x 0 ∥ 2 \leq λ x 0 - s i g n (x 0) * λ o t h e r w i s e

$x^*=S_\lambda(x_0)= \begin{cases} 0 \qquad\qquad\qquad\qquad\quad \|x_0\|_2 \leq \lambda \\ x_0-sign(x_0)*\lambda \qquad otherwise \end{cases}$
其中，

sign $sign$ 为符号函数。
下面我们考虑

ℓ2 $\ell_2$ 范数正则化约束，问题形式化为

minx12∥x−x0∥22+λ∥x∥2 $\mathop{min}_x\frac{1}{2}\|x-x_0\|_2^2+\lambda\|x\|_2$ ，同理我们只需要对

x $x$ 向量中的每一个元素进行展开求解即可，它的优化解的表达式如下：

x * = [(1 - λ ∥ x 0 ∥ 2) * x 0] + = {0 ∥ x 0 ∥ 2 \leq λ (1 - λ ∥ x 0 ∥ 2) * x 0 o t h e r w i s e

$x^*=[(1-\frac{\lambda}{\|x_0\|_2})*x_0]_+= \begin{cases} 0 \qquad\qquad\qquad\qquad \|x_0\|_2 \leq \lambda \\ (1-\frac{\lambda}{\|x_0\|_2})*x_0 \qquad otherwise \end{cases}$
考虑

ℓ∞ $\ell_\infty$ 范数正则化约束，问题形式化为

minx12∥x−x0∥22+λ∥x∥∞ $\mathop{min}_x\frac{1}{2}\|x-x_0\|_2^2+\lambda\|x\|_\infty$ 。由于

ℓ∞ $\ell_\infty$ 的共轭为

ℓ1 $\ell_1$ barrior函数，因此上述问题的对偶形式为

m i n y 1 2 ∥ y - x 0 ∥ 22 s . t . ∥ y ∥ 1 < λ

$\mathop{min}_y\frac{1}{2}\|y-x_0\|_2^2 \qquad s.t.\quad \|y\|_1<\lambda$
其中

y=x0−x $y=x_0-x$ 。通过转换的形式则通过

ℓ1 $\ell_1$ 约束问题很好求解。下面介绍另一种求解

ℓ∞ $\ell_\infty$ 范数正则化约束问题。首先判断

∥x0∥1 $\|x_0\|_1$ 的取值，如果小于等于

λ $\lambda$ ，则

x=0 $x=0$ ；否则，我们对

x0 $x_0$ 向量中每一个元素取绝对值，并安降序排列，记为

{v1,⋯,vj,⋯,vM} $\{v_1,\cdots,v_j,\cdots,v_M\}$ 。取

j^=max{j:λ−∑jr=1(vr−vj)>0} $\hat{j}=max\{j:\lambda-\sum_{r=1}^j(v_r-v_j)>0\}$ 。则最后

x $x$ 的优化解形式如下：

x * i = s i g n (x 0, i) m i n (v i, (\sum r = 1 j^v r - λ) / j^) i = 1, \dots, M

$x_i^*=sign(x_{0,i})min(v_i,(\sum_{r=1}^{\hat{j}}v_r-\lambda)/\hat{j})\quad i=1,\cdots,M$
下面我们继续考虑矩阵

ℓ∗ $\ell_*$ 核范数正则化约束问题，该问题可以形式化为

minA12∥X−A∥2F+∥A∥∗ $\mathop{min}_A\frac{1}{2}\|X-A\|_F^2+\|A\|_*$ ，这类问题的求解一般采用矩阵的SVD分解，

X=USVT $X=USV^T$ ；再使用Surrogate策略。一般优化解的形式如下：

A = U * S^* V T

$A=U*\hat{S}*V^T$
其中

S^ $\hat{S}$ 的表达式如下：

S^= T (S) = ⎧ ⎩ ⎨ S - ϵ S > ϵ S + ϵ S < - ϵ 0 o t h e r w i s e

$\hat{S}=T(S)= \begin{cases} S-\epsilon \qquad S>\epsilon \\ S+\epsilon \qquad S<-\epsilon \\ 0 \qquad\quad otherwise \end{cases}$

2. Accelerated Gradient Algorithm

我们考虑一个常见的优化问题，形式化为 $\mathop{min}_Wf(W)+\lambda\psi(W)$ ，函数的具体形式视情况而定。比如在机器学习领域， $f(W)$ 一般为总体训练样本的损失函数， $f(W)=\frac{1}{N}\sum_n \ell(\chi_n,W)$ ， $\chi_n=\{x_n,y_n\}$ 为训练样本，而 $\ell$ 为具体的损失函数，比如平方损失，logistic 损失，hinge损失等； $\psi(W)$ 一般为待训练参数 $W$ 的正则化约束，这里我们考虑混合约束 $\psi(W)=\|W\|_{1,\infty}$ 或 $\psi(W)=\|W\|_{1,2}$ 。该类混合约束在机器学习模型构建中经常用到，比如多任务建模中( $f(W)$ 则为总体任务下总体训练样本的损失， $W=\{w_k\}_k$ ， $w_k$ 为第 $k$ 个任务下待训练权重)，所以有必要讨论其优化解。
一般而言，上式问题的求解可以采用子梯度下降法优化 $W$ ，但遗憾的是收敛速度较慢。因此在优化目标问题中，对 $f(W)$ 在 $W=W_t$ 处进行二阶泰勒近似展开，优化目标函数为：

m i n W f (W t) + < W - W t, \nabla f (W t) > + L 2 ∥ W - W t ∥ 2 F + λ ψ (W)

$\mathop{min}_Wf(W_t)+<W-W_t,\nabla f(W_t)>+\frac{L}{2}\|W-W_t\|_F^2+\lambda\psi(W)$
其中

<A,B>=Tr(ATB) $<A,B>=Tr(A^TB)$ 。下面对上式进行重新整理得：

m i n W 1 2 ∥ W - (W t - 1 L \nabla f (W t)) ∥ 2 F + λ L ∥ W ∥ 1, \infty

$\mathop{min}_W \frac{1}{2}\|W-(W_t-\frac{1}{L}\nabla f(W_t))\|_F^2+\frac{\lambda}{L}\|W\|_{1,\infty}$
其中

∥W∥1,∞=∑j∥Wj∥∞ $\|W\|_{1,\infty}=\sum_j\|W^j\|_\infty$ ，即为每一行元素绝对值的最大值累加。为了简化上式，我们令

V=Wt−1L∇f(Wt) $V=W_t-\frac{1}{L}\nabla f(W_t)$ 和

λ^=λL $\hat{\lambda}=\frac{\lambda}{L}$ ，则

m i n W 1 2 ∥ W - V ∥ 2 F + λ^∥ W ∥ 1, \infty

$\mathop{min}_W \frac{1}{2}\|W-V\|_F^2+\hat{\lambda}\|W\|_{1,\infty}$
同样，上式问题可以各个维度上的子问题求解，下面我们仅考虑矩阵

W,V $W,V$ 的第

i $i$ 行，记着

w,v $w,v$ 。那么子问题简化为：

m i n w 1 2 ∥ w - v ∥ 22 + λ^∥ w ∥ \infty

$\mathop{min}_w \frac{1}{2}\|w-v\|_2^2+\hat{\lambda}\|w\|_{\infty}$
如果原始问题为

ψ(W)=∥W∥1,2 $\psi(W)=\|W\|_{1,2}$ 混合范数约束，则此时的优化子问题为：

m i n w 1 2 ∥ w - v ∥ 22 + λ^∥ w ∥ 2

$\mathop{min}_w \frac{1}{2}\|w-v\|_2^2+\hat{\lambda}\|w\|_2$
因此上述问题求解。可知，该方法对优化目标函数采用泰勒近似展开达到对原问题的简化，从而加快算法的收敛速度。

1. Surrogate方法

2. Accelerated Gradient Algorithm

猜你喜欢