文献会议笔记: Replacing/Enhancing Iterative Algorithms with Neural Networks Part 1: Background and Motivation

参考：David Wipf, Microsoft Research, Beijing
摘要：介绍了Learning to learn方法，以及算法的三个可能的改进空间；介绍了利用先验知识，即训练数据对Learning to learn模型的训练过程；介绍学习函数 $g(\theta,\omega)$ 的选择问题. 这部分内容主要是介绍相关概念.

例子：给出 $\theta\in\Omega$ ，求 $x^*=\arg\min_x f_{\theta}(x)$
传统方法：梯度下降

$\begin{aligned} x^{(k + 1)} & = x^{(k)} - η ▽ f_{θ} (x^{(k)}) \\ \hat{x} & \approx x^{*} \end{aligned}$ $\begin{aligned} x^{(k+1)}&=x^{(k)}-\eta\bigtriangledown f_{\theta}(x^{(k)})\\ \hat{x}&\approx x^* \end{aligned}$

Learning-based algorithm:

$\hat{x} = g (θ; \hat{ω}) \approx x^{*}$ $\hat x=g(\theta;\hat\omega)\approx x^*$

1.2 基于学习的方法可能的改进空间

更有效率的计算

一阶方法的收敛速度可能很慢，比如，对于非光滑的凸函数 $f_\theta(x)$ ，收敛速度为 $\frac{1}{\sqrt{k}}$ ，很慢.

低的目标函数值

现有的算法会有糟糕的局部最优解，但通过使用某些光滑近似 $h_\theta(x)$ 可以解决该问题.

能无缝嵌入大规模系统

取 $x^*=\arg\min_x f_{\theta}(x)\approx g(\theta;\hat\omega)$ ，如果我们的问题为

min_{w} \sum_{i} l [z_{i}, w^{T} x_{i}^{*}]

$\min_w \sum_i l\left[z_i, w^Tx_i^*\right]$

其中， $x_i^*=\arg\min_x f_{\theta_i}(x)\approx g(\theta_i;\hat\omega)$ .
能很容易将其转变为优化问题

min_{w, ω} \sum_{i} l [z_{i}, w^{T} g (θ_{i}; ω)]

$\min_{w,\omega} \sum_i l\left[z_i, w^Tg(\theta_i;\omega)\right]$

例子：通过人脸识别来直观阐述三种不同的改进可能性

$\begin{aligned} y & = Φ x + ϵ \\ = Φ^{'} x^{'} \end{aligned}$ $\begin{aligned} y&=\Phi x+\epsilon\\ &=\Phi'x' \end{aligned}$

$x'$ 可能有无穷多解，我们找出其中最稀疏的那个，因此 $x$ 的非零元素的位置需要提供辨识.
给出未知辨识的图像 $y$ ，优化问题为

$\begin{aligned} {\hat{x}}^{'} & = \arg min_{x^{'}} | | y - Φ^{'} x^{'} | |_{2}^{2} + λ_{0} | | x^{'} | |_{0} \\ \approx \arg min_{x^{'}} | | y - Φ^{'} x^{'} | |_{2}^{2} + λ_{1} | | x^{'} | |_{1} \end{aligned}$ $\begin{aligned} \hat{x}'&=\arg\min_{x'}||y-\Phi'x'||_2^2+\lambda_0||x'||_0\\ &\approx\arg\min_{x'}||y-\Phi'x'||_2^2+\lambda_1||x'||_1 \end{aligned}$

其中， $\hat{x}'=[\hat{x}, \hat{\epsilon}]^T$ ，分别为用于辨识的成分和误差.
因此可以得到

$g (θ; \hat{ω}) \approx \arg min_{x^{'}} | | θ - Φ^{'} x^{'} | |_{2}^{2} + λ_{1} | | x^{'} | |_{1}, θ = y$ $g(\theta;\hat{\omega})\approx\arg\min_{x'}||\theta-\Phi'x'||_2^2+\lambda_1||x'||_1,\quad \theta =y$

三个改进空间为

更高的效率
原优化问题在 $\Phi'$ 很大时，计算速度慢.

更好的近似
$g(\theta;\hat{\omega})$ 和 $L_0$ 范数约束之间的误差小于 $L_1$ 范数约束和 $L_0$ 范数约束之间的误差.

利用分类器联合训练
给与训练数据 $\left\{y_i,z_i\right\}$ ，其中 $z_i$ 为辨识标签，求解
$[\bar{\omega},\bar{w}]=\arg\min_{\omega, w}\sum_i l[z_i, \hat{z}_i],\quad s.t. \hat{z}_i=h(g(y_i;\hat{\omega});w)$
测试：给出新的未知图像 $y^*$ ，预测为 $h(g(y^*;\bar{\omega});\bar{w})$

2. 利用先验知识

不同问题利用不同先验知识，能够提高算法性能，相应的牺牲互补问题的性能.
有多种引入先验信息的方式：

无监督，能够获得候选问题的子集.

${f_{θ_{i}} : θ_{i} \in Ω, i = 1, 2, . . ., N} \subset F$ $\left\{f_{\theta_i}:\theta_i\in \Omega,i=1,2,...,N\right\}\subset F$
监督，在子集中也包括相应的优化组.

${f_{θ_{i}}, x_{i}^{*} : θ_{i} \in Ω, x_{i}^{*} = \arg min_{x} f_{θ_{i}} (x), i = 1, 2, . . ., N}$ $\left\{f_{\theta_i},x_i^*:\theta_i\in \Omega,x_i^*=\arg\min_x f_{\theta_i}(x),i=1,2,...,N\right\}$

2.1 无监督

现有的先验信息

{f_{θ_{i}} : θ_{i} \in Ω, i = 1, 2, . . ., N} \subset F

$\left\{f_{\theta_i}:\theta_i\in \Omega,i=1,2,...,N\right\}\subset F$

优化目标为

min_{ω} \sum_{i} f_{θ_{i}} [g (θ_{i}; ω)]

$\min_\omega \sum_i f_{\theta_i}\left[g(\theta_i;\omega)\right]$

简单的例子
取

$f_{θ} (x) = | | y - Φ x | |_{2}^{2}$ $f_{\theta}(x)=||y-\Phi x||_2^2$
$θ = {y, Φ}$ $\theta=\left\{y,\Phi\right\}$

令

$g (θ; ω) = (ω Φ^{T} y) - ω Φ^{T} (Φ (ω Φ^{T} y) - y)$ $g(\theta;\omega)=\left(\omega\Phi^Ty\right)-\omega\Phi^T\left(\Phi\left(\omega\Phi^Ty\right)-y\right)$

得到最终的优化函数为

$min_{ω} \sum_{i} f_{θ_{i}} [g (θ_{i}; ω)] = min_{ω} \sum_{i = 1}^{N} | | y_{i} - Φ_{i} {(ω Φ_{i}^{T} y_{i}) - ω Φ_{i}^{T} (Φ_{i} (ω Φ_{i}^{T} y_{i}) - y_{i})} | |_{2}^{2}$ $\min_\omega \sum_i f_{\theta_i}\left[g(\theta_i;\omega)\right]=\min_\omega \sum_{i=1}^{N} \big\lvert\big\lvert y_i-\Phi_i\left\{\left(\omega\Phi_i^Ty_i\right)-\omega\Phi_i^T\left(\Phi_i\left(\omega\Phi_i^Ty_i\right)-y_i\right)\right\}\big\rvert\big\rvert _2^2$

其中， $g(\theta;\omega)$ 的选取可以通过两步梯度下降直观理解:

$▽_{x} f_{θ_{i}} (x) = Φ^{T} (Φ x - y)$ $\bigtriangledown_xf_{\theta_i}(x)=\Phi^T(\Phi x-y)$

取 $x^{(0)}=0$ ， $\omega$ 为步长，由梯度下降可得

$\begin{aligned} x^{(1)} & = x^{(0)} - ω Φ^{T} (Φ x^{(0)} - y) \\ = ω Φ^{T} y \end{aligned}$ $\begin{aligned} x^{(1)}&=x^{(0)}-\omega\Phi^T(\Phi x^{(0)}-y)\\ &=\omega\Phi^Ty \end{aligned}$

$\begin{aligned} x^{(2)} & = x^{(1)} - ω Φ^{T} (Φ x^{(1)} - y) \\ = (ω Φ^{T} y) - ω Φ^{T} (Φ (ω Φ^{T} y) - y) \end{aligned}$ $\begin{aligned} x^{(2)}&=x^{(1)}-\omega\Phi^T(\Phi x^{(1)}-y)\\ &=\left(\omega\Phi^Ty\right)-\omega\Phi^T\left(\Phi\left(\omega\Phi^Ty\right)-y\right) \end{aligned}$

$x^{(2)}$ 正是选取的 $g(\theta;\omega)$ .

2.2 监督

现有的先验信息

{f_{θ_{i}}, x_{i}^{*} : θ_{i} \in Ω, x_{i}^{*} = \arg min_{x} f_{θ_{i}} (x), i = 1, 2, . . ., N}

$\left\{f_{\theta_i},x_i^*:\theta_i\in \Omega,x_i^*=\arg\min_x f_{\theta_i}(x),i=1,2,...,N\right\}$

优化目标为

min_{ω} \sum_{i} d [x_{i}^{*}, g (θ_{i}; ω)]

$\min_\omega \sum_i d\left[x_i^*,g(\theta_i;\omega)\right]$

简单的例子
取

$f_{θ} (x) = | | y - Φ x | |_{2}^{2}$ $f_{\theta}(x)=||y-\Phi x||_2^2$
$θ = {y, Φ}, x^{*} = Φ^{+} y$ $\theta=\left\{y,\Phi\right\},\quad x^*=\Phi^+y$
令
$\begin{aligned} g (θ; ω) & = (ω Φ^{T} y) - ω Φ^{T} (Φ (ω Φ^{T} y) - y) \\ d [u, v] & = | | u - v | |_{2}^{2} \end{aligned}$ $\begin{aligned} g(\theta;\omega)&=\left(\omega\Phi^Ty\right)-\omega\Phi^T\left(\Phi\left(\omega\Phi^Ty\right)-y\right)\\ d[u,v]&=||u-v||_2^2 \end{aligned}$
得到最终的优化函数为
$min_{ω} \sum_{i} d [x_{i}^{*}, g (θ_{i}; ω)] = min_{ω} \sum_{i = 1}^{N} | | Φ_{i}^{+} y_{i} - Φ_{i} {(ω Φ_{i}^{T} y_{i}) - ω Φ_{i}^{T} (Φ_{i} (ω Φ_{i}^{T} y_{i}) - y_{i})} | |_{2}^{2}$ $\min_\omega \sum_i d\left[x_i^*,g(\theta_i;\omega)\right]=\min_\omega \sum_{i=1}^{N} \big\lvert\big\lvert \Phi_i^+y_i-\Phi_i\left\{\left(\omega\Phi_i^Ty_i\right)-\omega\Phi_i^T\left(\Phi_i\left(\omega\Phi_i^Ty_i\right)-y_i\right)\right\}\big\rvert\big\rvert _2^2$

监督通常能够获得更好的结果，但需要正确的标注(ground truth).

2.3 监督标注的来源

得到的训练集为 $\left\{\theta_i,x_i^*\right\}_{i=1}^N$

直接利用现有方法求解

$x_{i}^{*} = \arg min_{x} f_{θ_{i}} (x), i = 1, 2, . . ., N$ $x_i^*=\arg\min_x f_{\theta_i}(x), i=1,2,...,N$
利用易处理的 $\tilde{f}_\theta(x)\approx f_\theta(x)$ ，再利用上述方法
通过直接测量得到的数据求解标注

例如，利用压缩感知从观测数据 $\theta$ 中恢复期望数据 $x^*$

$θ = Φ x^{*}$ $\theta=\Phi x^*$

求解 $x^*=\arg\min_x f_{\theta}(x)$ ，其中 $f_{\theta}(x)$ 为可逆操作.
开发生成模型，由于逆操作 $x^*=\arg\min_x f_{\theta}(x)$ 较难，而正向模型 $\theta=h(x^*)$ 简单

例如，前向线性模型 $\theta=\Phi x^*$ ，其中 $||x^*||_0<<\dim(x^*)$ ，即 $x^*$ 很稀疏.
它的逆问题为NP-hard问题 $x^*=\arg\min_x||x||_0+I_{\infty}(\theta\neq\Phi x)$
生成策略为：
对每一个 $i$ ，生成稀疏的 $x_i^*$ ，计算 $\theta_i=\Phi x_i^*$ .
得到带标记的训练集 $\left\{\theta_i,x_i^*\right\}_{i=1}^N$

注意：
前两种方法得到的标注，能够有机会改善速度，但无法改善准确性；后两种方法得到的标注，能够改善速度和准确性.

2.4 回顾小结

想要学习一个算法 $g(\theta;\omega)$ 来解决问题

x^{*} = \arg min_{x} f_{θ} (x)

$x^*=\arg\min_x f_{\theta}(x)$

可能得到改善的空间有三点：

计算效率
最终结果的准确性
无缝嵌入大规模系统

有多种可以训练的损失函数，先验信息：

无监督学习
监督学习，多种得到标注的方式

但接下去有一个核心问题： $g(\theta,\omega)$ 的好的结构是什么？

3. 选择 $g(\theta,\omega)$ 的结构

通过DNN可以发现，多种手工设计的特征共同促进DNN结构，并且可以得到一个统一的算法形式，线性变换和非线性激活.

x^{(k + 1)} = π (W x^{(k)} + b)

$x^{(k+1)}=\pi(Wx^{(k)}+b)$

即通过该算法的多次迭代，得到DNN的网络结构.
那么能否用类似的方式，得到一个可训练的算法，或者是学会学习的算法呢？？

首先要明确，有两种主要方式可供选择：

利用现有的算法结构，可学习的参数较少；
脱离现有的算法结构，较多可学习的参数.

利用现有算法结构的优点：

泛化能力通常更强；
需要更少的数据；
自然的初始化，利用标准算法的设置.

缺点：

较少优化性能的机会.

脱离现有算法结构的优点：

较多优化性能的机会，只要数据充足.

缺点：

可能泛化能力较差；
需要较多数据；
初始化困难，没有现有的算法.

简单的例子：对于 $f_{\theta}(x)=||y-\Phi x||_2^2$ ， $\theta=\left\{y, \Phi\right\}$ .
- 手工设计的结构：单一的参数，利用二步梯度下降，可调参数为步长

$g (y, ω) = (ω Φ^{T} y) - ω Φ^{T} (Φ (ω Φ^{T} y) - y)$ $g(y, \omega)=\left(\omega\Phi^Ty\right)-\omega\Phi^T\left(\Phi\left(\omega\Phi^Ty\right)-y\right)$
- 任意的线性结构：较大的参数矩阵，需要足够的数据来学习参数矩阵
$g (y, A) = A y$ $g(y, A) = Ay$

4. 后续内容提要

Part II: Basic first-order algorithms, their neural net analogs, and subsequent learning-to-learn enhancements.
Part III: Accelerated convergence, “optimal” first-order algorithms, and deep learning analogs
Part IV: Analysis of special cases, extensions to multi-loop iterative algorithms, and connections with gated recurrent neural nets.