模型优化方法小结

最近的研究设计并建立了一些优化模型，其中的一些优化方法值得总结。比如，当遇到如下模型：

\underset{U^{T} U = I}{m i n} ‖ X - U^{T} P ‖_{F}^{2}

$\mathop{min}_{U^TU=I}\|X-U^TP\|_F^2$

上述模型中 $U$ 为正交矩阵，如何优化求解 $U$ 呢？我们将优化的目标函数进行trace展开：

‖ X - U^{T} P ‖_{F}^{2} = T r (X^{T} X) + T r (P^{T} P) - 2 T r (X^{T} U^{T} P)

$\|X-U^TP\|_F^2=Tr(X^TX)+Tr(P^TP)-2Tr(X^TU^TP)$

那么最小化原始的目标函数，则等价为最大化如下目标函数：

\underset{U^{T} U = I}{m a x} T r (X^{T} U^{T} P)

$\mathop{max}_{U^TU=I}Tr(X^TU^TP)$

新的目标函数有如下性质：

T r (X^{T} U^{T} P) = T r (U^{T} P X^{T}) \leq \sum_{i = 1}^{n} σ_{i} (U^{T}) * σ_{i} (P X^{T}) = \sum_{i = 1}^{n} σ_{i} (P X^{T})

$Tr(X^TU^TP)=Tr(U^TPX^T)\leq \sum_{i=1}^n \sigma_i(U^T) * \sigma_i(PX^T)=\sum_{i=1}^n \sigma_i(PX^T)$

其中 $\sigma_i$ 表示矩阵的第 $i$ 大的奇异值。现在对 $PX^T$ 进行奇异值分解，得到 $PX^T=ASB^T$ (SVD分解)；那么当 $U=AB^T$ 时， $Tr(U^TPX^T)$ 取最大值。因为如下：

T r (U^{T} P X^{T}) = T r (B A^{T} * A S B^{T}) = T r (S) = \sum_{i = 1}^{n} σ_{i} (P X^{T})

$Tr(U^TPX^T)=Tr(BA^T*ASB^T)=Tr(S)=\sum_{i=1}^n\sigma_i(PX^T)$

所以最终的 $U=AB^T$ ，其中的 $A,B$ 为 $PX^T$ 的奇异值分解。

有时我们建立的数据模型有如下形式，其中数据 $X=[x_1,\cdots,x_N]\in R^{m \times N}$ ， $B=[b_1,\cdots,b_N]\in R^{m \times N}$ ：

\underset{B, W}{m i n} \frac{μ}{2} ‖ X - B ‖_{F}^{2} + λ \sum_{n = 1}^{N} ‖ b_{n + 1} - W b_{n} ‖_{2}^{2}

$\mathop{min}_{B,W} \frac{\mu}{2}\|X-B\|_F^2+\lambda \sum_{n=1}^N \|b_{n+1}-Wb_n\|_2^2$

为了更好的优化求解上式，我们需要对第二项进行简单变形得到关于 $B$ 的形式，由此我们引入矩阵 $H,h$ ，如下：

H = [\begin{matrix} 0 & 0 & \dots & 0 & 0 \\ 1 & 0 & \dots & 0 & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & 0 & 0 \\ 0 & 0 & \dots & 1 & 0 \end{matrix}] \in R^{N \times N}

$H= \left[ \begin{matrix} 0 & 0 & \cdots & 0 & 0 \\ 1 & 0 & \cdots & 0 & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 &0 & \cdots & 0 & 0 \\ 0 & 0 & \cdots & 1 & 0 \\ \end{matrix} \right] \in R^{N\times N}$

h = [0, 0, \dots, 0, 1]^{T} \in R^{N}

$h=[0,0,\cdots,0,1]^T\in R^N$

有了 $H,h$ ，上述的目标函数可改写为：

\underset{B, W}{m i n} \frac{μ}{2} ‖ X - B ‖_{F}^{2} + λ ‖ B H - W B ‖_{F}^{2} - λ ‖ W B h ‖_{2}^{2}

$\mathop{min}_{B,W} \frac{\mu}{2}\|X-B\|_F^2+\lambda \|BH-WB\|_F^2-\lambda \|WBh\|_2^2$

针对 $B$ 的优化，可以采取一种比较简便的变形。我们引入vec堆叠操作符，将矩阵拉为向量；目标函数则变为：（这里使用了堆叠操作符的性质： $vec(ASB)=(B^T\otimes A)*vec(S)$ ， $\otimes$ 为克罗内克积）

\underset{α}{m i n} \frac{μ}{2} ‖ x - α ‖_{2}^{2} + λ ‖ P α ‖_{2}^{2} - λ ‖ Q α ‖_{2}^{2}

$\mathop{min}_\alpha \frac{\mu}{2} \|x-\alpha\|_2^2 + \lambda \|P\alpha\|_2^2- \lambda \|Q\alpha\|_2^2$

其中 $vec(X)=x,vec(B)=\alpha,P=(H^T\otimes I_m)-(I_N\otimes W),Q=h^T\otimes W$ 。上述目标函数优化转换为对 $\alpha$ 的优化求解。其实上述目标函数中虽然有 $-\lambda \|Q\alpha\|_2^2$ 项的存在，但是此目标函数关于 $\alpha$ 是凸的，因为可以证明 $P^TP-Q^TQ$ 正定。则 $\alpha$ 有闭合解：

α = μ (μ I + 2 λ P^{T} P - 2 λ Q^{T} Q)^{+} x

$\alpha=\mu(\mu I+2\lambda P^TP-2\lambda Q^TQ)^+x$

而对 $W$ 的优化也有闭合解，最简单做法便是优化原始目标函数中的第二项，实质为一个线性问题：

[b_{2}, b_{3}, \dots, b_{N}] = W [b_{1}, b_{2}, \dots, b_{N - 1}]

$[b_2,b_3,\cdots,b_N]=W[b_1,b_2,\cdots,b_{N-1}]$

则 $W=[b_2,b_3,\cdots,b_N]*[b_1,b_2,\cdots,b_{N-1}]^+$ 。当然 $W$ 的优化也可直接对变换后的目标函数直接求导求解。

模型优化方法小结

猜你喜欢