Yang, C., et al., Semi-supervised low-rank representation for image classification. Signal Image & Video Processing, 2016: p. 1-8.
本文是这篇 SIViP 期刊论文的笔记，主要是对文中的理论方法进行展开详解。本人学术水平有限，文中如有错误之处，敬请指正。

摘要： LRR 可以构建低秩的、稀疏的系数矩阵，和字典矩阵的线性组合表示图像，但是实际上很不实用，因为缺少了图像信息。这是一个非监督的方法。基于 LRR ，此文提出了一种半监督的方法，标签约束稀疏低秩表示（label constrained sparse low-rank representation, LCSLRR），把标签信息加入作为硬约束条件。加入了这个约束之后，提升了低秩分解的判别能力。构建了LCSLRR 图来表示数据结构，用于半监督学习，并在图中提供边缘权值通过搜索一个低秩、稀疏的矩阵（在论文中没有看到）。

1 简介

LRR 1 通过在所有候选数据中，寻找最低秩的表达，并用已有的字典的线性组合表示数据样本。它已经能应用到人脸识别 2，显著目标检测 3，背景提取 4，追踪 5，3D 视觉恢复 6 等。LRR 是一种非监督的方法，实际使用时非常有限制。为了弥补这样的缺陷，一些额外的约束，比如非负 7 和稀疏，显示或隐式加入 LRR 中，推导出一些半监督的 LRR 算法。比如，一种非负低秩、稀疏图模型 (non-negative low-rank and sparse (NNLRS) graph 8) 是一种半监督的方法，添加约束使系数矩阵必须满足非负、稀疏和低秩，来构建一个信息图，用于半监督学习。NNLRS 的稀疏约束捕捉到数据的局部、低维的联系；而非负约束确保每一个数据都在其邻点的凸包之内（不知道有什么意义）。
此文提出了一个半监督的方法，label constrained sparse low-rank representation (LCSLRR)，其加入了标签信息作为额外的约束。该方法的核心思想是有相同标签的数据有类似的表示。LCSLRR 将标签信息以一个指示矩阵的形式加入目标函数中，推导出优化过程。在推导优化方法之后，推导出图邻近结构和图权值矩阵，用于半监督学习（论文只有一段简短的文字表述，没有图？？？）。
此文的主要贡献有：

提出了一种半监督的学习框架，加入了标签信息到优化函数中；
提出了一种解决图特征表示的方法，基于信息图（没看到？？？）。该方法同时推导了图结构和图权值。其避免了微调参数的代价，可以适用于很多的实际应用场合。

2 标签约束、低秩图

LRR 是一个有效的图像表示模型。 $X = [x_1, x_2, \cdots, x_n] \in \mathbb{R}^{d \times n}$ 是一个 $m$ 维的数据向量集合，来自一组线性子空间 $\{ S_i \}_{i=1}^d$ ，其中 $S_i$ 的维度是 $r_i$ 。数据的每一列都可以用字典 $A = [a_1, a_2, \cdots, a_m]$ 的线性组合表示，

X = A Z, (1)

$\begin{equation} \tag{1} X = A Z , \end{equation}$
其中

Z=[z1,z2,⋯,zn] $Z = [z_1, z_2, \cdots, z_n]$ 是系数矩阵，每一个

zi $z_i$ 表示一个

xi $x_i$ 。字典通常是过饱和的，为了使方程有解。

2.1 半监督有约束 LRR

加入标签信息作为约束，数据 $X$ 有 $n$ 个训练样本，设定前 $s$ 个数据 $\{x_1, \cdots, x_s\} (s \leq n)$ 有标签表示，而剩余的 $n-s$ 个数据 $\{ x_{s+1}, \cdots, x_n \}(s \leq n)$ 没有标签。假设一共有 $c$ 个类别，并且数据 $\{x_1, \cdots, x_s\}$ 中都有类别标签，那么就有一个 $c \times s$ 的指示矩阵 $S$ ，表示为

s p q = {1, 0, if x q is designated the pth class, otherwise, (2)

$\begin{equation} \tag{2} s_{pq} = \begin{cases} 1, & \text{if } x_q \text{ is designated the pth class}, \\ 0, & \text{otherwise}, \end{cases} \end{equation}$
有了这个指示矩阵

S $S$ ，标签约束矩阵

H $H$ 可以定义为

H = (Δ (n - s + c) \times n O (s - c) \times n), (3)

$\begin{equation} \tag{3} H = \begin{pmatrix} \Delta_{(n-s+c) \times n} \\ O_{(s-c) \times n} \\ \end{pmatrix}, \end{equation}$
其中

O(s−c)×n $O_{(s-c) \times n}$ 是一个

(s−c)×n $(s-c) \times n$ 的零矩阵，和

Δ = (S c \times s 0 0 I n - s), (4)

$\begin{equation} \tag{4} \Delta = \begin{pmatrix} S_{c \times s} & 0 \\ 0 & I_{n - s} \\ \end{pmatrix}, \end{equation}$
其中

In−s $I_{n - s}$ 是一个

(n−s)×(n−s) $(n-s) \times (n-s)$ 的单位矩阵。

H $H$ 作为标签信息的约束加入，

X = A H Z = A ⎛ ⎝ ⎜ S c \times s 00 0 I n - s 0 ⎞ ⎠ ⎟ n \times n Z . (5)

$\begin{equation} \tag{5} X = A H Z = A \begin{pmatrix} S_{c \times s} & 0 \\ 0 & I_{n - s} \\ 0 & 0 \\ \end{pmatrix}_{n \times n} Z. \end{equation}$

2.2 标签约束 LRR

观测到的数据通常是有噪声的。所以，获得低秩的数据表示可以被认为是恢复出低秩的数据矩阵 $X$ ，还有稀疏的误差 $E$ 。接着，将原始的 LRR 扩展到一个半监督的算法，LCLRR，求解 $Z$ 通过如下的优化问题：

min Z, E rank (Z) + λ | | E | | 2, 1 s.t. X = A H Z + E, (6)

$\begin{equation} \tag{6} \min_{Z,E} \ \text{rank} (Z) + \lambda || E ||_{2,1} \quad \text{s.t.} \ X = A H Z + E , \end{equation}$
其中参数

λ>0 $\lambda > 0$ 用于平衡两项的比例，经验性赋值。范数

||E||2,1=∑nj=1∑mi=1([E]ij)2−−−−−−−−−−−√ $|| E ||_{2,1} = \sum_{j=1}^{n} \sqrt{\sum_{i=1}^{m} \left( [E]_{ij} \right)^2}$ 用于描述稀疏误差

E $E$ 。然而，求解该问题是 NP-hard，因为 rank 函数的离散性质。然而可以其可以松弛为一种凸优化问题 9 ：

min Z, E | | Z | | * + λ | | E | | 2, 1 s.t. X = A H Z + E, (7)

$\begin{equation} \tag{7} \min_{Z,E} \ || Z ||_* + \lambda || E ||_{2,1} \quad \text{s.t.} \ X = A H Z + E , \end{equation}$
其中

||⋅||∗ $||\cdot||_*$ 是核范数，定义为矩阵的奇异值之和。原始的 LRR 问题用増广 Lagrange 乘子法求解。于是，此文使用经典的 inexact ALM 方法求解，过程与 LRR 10 类似。

首先，加入辅助变量 $J$ ，使得目标函数可分

min Z, J, E | | J | | * + λ | | E | | 2, 1 s.t. X = A H Z + E, Z = J, (8)

$\begin{equation} \tag{8} \min_{Z,J,E} \ ||J||_* + \lambda ||E||_{2,1} \quad \text{s.t.} \ X = A H Z + E , \ Z = J, \end{equation}$
然后，将约束优化问题转化为无约束的 Lagrangian 函数

L (Z, J, E, Y 1, Y 2) = | | J | | * + λ | | E | | 2, 1 + Y T 1 (A H Z + E - X) + Y T 2 (J - Z) + μ 2 (| | A H Z + E - X | | 2 F + | | J - Z | | 2 F) = | | J | | * + λ | | E | | 2, 1 + 1 2 μ (| | Y 1 | | 2 F + | | Y 2 | | 2 F) + μ 2 (| | X - A H Z - E + Y 1 / μ | | 2 F + | | Z - J + Y 2 / μ | | 2 F), (9)

$\begin{align} \mathcal{L}(Z, J, E, Y_1, Y_2) &= ||J||_* + \lambda ||E||_{2,1} + Y_1^T (AHZ + E - X) + Y_2^T (J - Z) + \frac{\mu}{2} \left( ||AHZ + E - X||_F^2 + ||J-Z||_F^2 \right) \\ &= ||J||_* + \lambda ||E||_{2,1} + \frac{1}{2\mu}\left( ||Y_1||_F^2 + ||Y_2||_F^2 \right) + \frac{\mu}{2} \left( ||X - AHZ - E + Y_1/\mu||_F^2 + ||Z-J+Y_2/\mu||_F^2 \right) , \tag{9} \end{align}$
其中

Y1,Y2 $Y_1, Y_2$ 是 Lagrange 乘子，

μ>0 $\mu > 0$ 是惩罚参数。完整的算法过程总结于 Algorithm 1 中。

Algorithm 1: LCLRR

Input: $X,\ H,\ \lambda$ ;
Initialize: $Z=0,\ J=0,\ E=0,\ Y_1=0,\ Y_2 = 0, \ \mu_0=10^{-7},\ \mu_\max=10^{30},\ \rho=1.1,\ \epsilon = 10^{-10}, \ k=0.$
1: While $not \ converged$ do
2: 更新 $J_{k+1}$

J k + 1 = arg min J | | J | | * + μ 2 | | J - (Z + Y 2 μ) | | 2 F . (10)

$\begin{equation} \tag{10} J_{k+1} = \arg\min_J \ ||J||_* + \frac{\mu}{2} || J - (Z + \frac{Y_2}{\mu}) ||_F^2 \ . \end{equation}$
3: 更新

Zk+1 $Z_{k+1}$

Z k + 1 = (H T A T A H + I) - 1 (J + H T A T (X - E) + (H T A T Y 1 - Y 2) / μ) . (11)

$\begin{equation} \tag{11} Z_{k+1} = (H^T A^T A H + I)^{-1} (J + H^T A^T (X - E) + (H^T A^T Y_1 - Y_2) / \mu) \ . \end{equation}$
4: 更新

Ek+1 $E_{k+1}$

E k + 1 = arg min E λ | | E | | 2, 1 + μ 2 | | E - (X - A H Z + Y 1 μ) | | 2 F . (12)

$\begin{equation} \tag{12} E_{k+1} = \arg\min_E \ \lambda ||E||_{2,1} + \frac{\mu}{2} || E - (X - AHZ + \frac{Y_1}{\mu}) ||_F^2 \ . \end{equation}$
5: 更新

Y1,Y2 $Y_1, Y_2$

Y k + 1 1 = Y k 1 + μ k (X - A H Z k + 1 - E k + 1), Y k + 1 2 = Y k 2 + μ k (Z k + 1 - J k + 1) . (13)

$\begin{equation} \tag{13} Y_1^{k+1} = Y_1^k +\mu_k (X -AHZ_{k+1} - E_{k+1}), \ Y_2^{k+1} = Y_2^{k} + \mu_k (Z_{k+1} - J_{k+1}) . \end{equation}$
6: 更新

μk+1=min(ρμk, μmax) $\mu_{k+1} = \min(\rho\mu_k,\ \mu_\max)$ .
7: 检查收敛条件

||X−AHZk+1−Ek+1||∞<ϵ, ||Zk+1−Jk+1||∞<ϵ $|| X-AHZ_{k+1} - E_{k+1} ||_\infty < \epsilon, \ || Z_{k+1} - J_{k+1} ||_\infty < \epsilon$ .
8:

k=k+1 $k = k+1$ .
9: End While
Output:

Z, J, E $Z,\ J,\ E$ .

2.3 标签约束稀疏 LRR

为了获得稀疏的数据表示，加入了稀疏正则项于 $Z$ 。于是，将 LCLRR 扩展到了 LCSLRR (label constrained sparse low-rank representation)，其优化问题的形式如下

min Z, E rank (Z) + β | | Z | | 0 + λ | | E | | 2, 1 s . t . X = A H Z + E, (14)

$\begin{equation} \tag{14} \min_{Z,E} \ \text{rank}(Z) + \beta ||Z||_0 + \lambda || E ||_{2,1} \quad \mathrm{s.t.} \ X = AHZ + E, \end{equation}$
其中

β>0 $\beta > 0$ 是平衡 rank 项和稀疏项的比例。

||⋅||0 $||\cdot||_0$ 表示

ℓ0 $\ell_0$ 范数，计算矩阵中非零项的个数。由于其非凸性质，用

ℓ1 $\ell_1$ 范数代替

ℓ0 $\ell_0$ 范数，核范数代替 rank 函数。于是，就得到了

min Z, E | | Z | | * + β | | Z | | 1 + λ | | E | | 2, 1 s . t . X = A H Z + E, (15)

$\begin{equation} \tag{15} \min_{Z,E} \ ||Z||_* + \beta ||Z||_1 + \lambda || E ||_{2,1} \quad \mathrm{s.t.} \ X = AHZ + E, \end{equation}$
其中

||⋅||1 $||\cdot||_1$ 是计算矩阵所有元素的绝对值之和。首先加入一个辅助变量

W $W$ ，使得目标函数可分，问题转化为

min Z, E | | Z | | * + β | | W | | 1 + λ | | E | | 2, 1 s.t. X = A H Z + E, W = Z . (16)

$\begin{equation} \tag{16} \min_{Z,E} \ ||Z||_* + \beta ||W||_1 +\lambda ||E||_{2,1} \quad \text{s.t.} \ X = AHZ + E, \ W = Z . \end{equation}$
将其转化为如下的无约束 Lagrangian 函数，

L (Z, W, E, Y 1, Y 2) = | | Z | | * + β | | W | | 1 + λ | | E | | 2, 1 + 1 2 μ (| | Y 1 | | 2 F + | | Y 2 | | 2 F) + μ 2 (| | X - A H Z - E + Y 1 / μ | | 2 F + | | Z - W + Y 2 / μ | | 2 F) . (17)

$\begin{align} \mathcal{L}(Z, W, E, Y_1, Y_2) &= ||Z||_* + \beta ||W||_1 + \lambda ||E||_{2,1} + \frac{1}{2\mu}\left( ||Y_1||_F^2 + ||Y_2||_F^2 \right) \\ & \quad + \frac{\mu}{2} \left( ||X - AHZ - E + Y_1/\mu||_F^2 + ||Z-W+Y_2/\mu||_F^2 \right) . \tag{17} \end{align}$
将二次项

h=μ2(||X−AHZ−E+Y1/μ||2F+||Z−W+Y2/μ||2F) $h = \frac{\mu}{2} \left( ||X - AHZ - E + Y_1/\mu||_F^2 + ||Z-W+Y_2/\mu||_F^2 \right)$ 使用上一次迭代的一阶近似代替，再加上一个逼近项 11，接着给出变量

Z,W,E $Z,W,E$ 的更新公式

Z k + 1 W k + 1 E k + 1 = arg min Z | | Z | | * + η μ k 2 | | Z - Z k + [- (A H) T (X - A H Z k - E k + Y 1 , k μ) + (Z - W k + Y 2 , k μ)] / η | | 2 F, = arg min W β | | W | | 1 + μ k 2 | | Z k + 1 - W + Y 2 , k μ | | 2 F, = arg min E λ | | E | | 2, 1 + μ k 2 | | E - (1 μ k Y 1, k + X - A H Z k + 1) | | 2 F, (18) (19) (20)

$\begin{align} Z_{k+1} &= \arg\min_Z \ ||Z||_* + \frac{\eta\mu_k}{2} || Z - Z_k + \left[ - (AH)^T \left(X - AHZ_k - E_k + \frac{Y_{1,k}}{\mu} \right) + \left(Z - W_k + \frac{Y_{2,k}}{\mu} \right) \right] / \eta ||_F^2 \ , \tag{18} \\ W_{k+1} & = \arg\min_W \ \beta ||W||_1 + \frac{\mu_k}{2} || Z_{k+1} - W + \frac{Y_{2,k}}{\mu} ||_F^2 \ , \tag{19} \\ E_{k+1} & = \arg\min_E \ \lambda ||E||_{2,1} + \frac{\mu_k}{2}|| E - \left( \frac{1}{\mu_k} Y_{1,k} + X - AHZ_{k+1} \right) ||_F^2 \ , \tag{20} \end{align}$
原文中的

∇Zh $\nabla_Z h$ 是

h $h$ 关于

Z $Z$ 的偏导，

η=||A||22 $\eta = ||A||_2^2$ ， 公式中并没有用到这个符号，而且 $\eta$ 也不清楚是怎么求出来的。**Algorithm 2 给出了 LCSLRR 算法。

Algorithm 2: LCSLRR

Input: $X,\ H,\ \lambda, \ \beta$ ;
Initialize: $Z=0,\ W=0,\ E=0,\ Y_1=0,\ Y_2 = 0, \ \mu_0=10^{-7},\ \mu_\max=10^{30},\ \rho=1.1,\ \epsilon = 10^{-10}, \ \eta = ||A||_2^2, \ k=0$ .
1: While $not \ converged$ do
2: 固定 $W,E$ ，更新 $Z_{k+1}$ ；
3: 固定 $Z,E$ ，更新 $W_{k+1}$ ；
4: 固定 $Z,W$ ，更新 $E_{k+1}$ ；
5: 更新 $Y_1, Y_2$

Y k + 1 1 = Y k 1 + μ k (X - A H Z k + 1 - E k + 1), Y k + 1 2 = Y k 2 + μ k (Z k + 1 - W k + 1) .

$\begin{equation} Y_1^{k+1} = Y_1^k +\mu_k (X -AHZ_{k+1} - E_{k+1}), \ Y_2^{k+1} = Y_2^{k} + \mu_k (Z_{k+1} - W_{k+1}) . \end{equation}$
6: 更新

μk+1=min(ρμk, μmax) $\mu_{k+1} = \min(\rho\mu_k,\ \mu_\max)$ .
7: 检查收敛条件

||X−AHZk+1−Ek+1||∞<ϵ, ||Zk+1−Wk+1||∞<ϵ $|| X-AHZ_{k+1} - E_{k+1} ||_\infty < \epsilon, \ || Z_{k+1} - W_{k+1} ||_\infty < \epsilon$ .
8:

k=k+1 $k = k+1$ .
9: End While
Output:

Z, W, E $Z,\ W,\ E$ .

2.4 标签约束低秩图构建

一般选择数据 X 自身作为字典，来学习最低秩的表达。获得了最优解 $Z^*$ ，可以构建一个加权的无向图 $G=(V,E)$ 和权值矩阵 $W = w_{ij}$ 来定义图的关系矩阵。数据向量对应的顶点集 $V=\{v_i\}_{i=1}^n$ ，每一个节点 $v_i$ 对应一个数据 $x_i$ 。 $E = e_{ij}$ 是边集， $w_{ij}$ 是连接节点 $v_i$ 和 $v_j$ 的权值。因为顶点已经有数据向量给出了，构建图的问题关键在于确定权值矩阵 $W$ 。之后确定权值矩阵 $W = \left( |\hat{Z^*}| + |\hat{Z^*}|^T \right)/2$ 。

实际问题中，用数据 $X$ 作为字典是很不适用的。改进的办法是用一个字典 $D$ 代替 $X$ ，字典的元素是已经校正过的数据，其维度与 $H$ 一致。

这里提到的构建一个图模型，此文中一个例图都没有给出？

3 实验

用了多个数据集 Yale B, PIE, USPS, ORL, AR，都统一用表格的形式给出准确率的对比。略

Liu, G., Lin, Z., Yu, Y.: Robust subspace segmentation by low-rank representation. Mach. Learn. pp. 663–670 (2010) ↩
Du,H., Hu,Q., Qiao,D., et al.: Robust face recognition via low-rank sparse representation-based classification. Int. J. Autom. Comput. 12(6), 579–587 (2015) ↩
Shen, X.,Wu, Y.: A unified approach to salient object detection via low rank matrix recovery. IEEE Conference on Computer Vision and Pattern Recognition pp. 853–860 (2012) ↩
Cui, X.,Huang, J.,Zhang, S., Metaxas, D.:Background Subtraction Using Low Rank and Group Sparsity Constraints. Springer, Berlin (2012) ↩
Zhang, T., Ghanem, B., Ahuja, N.: Low-rank Sparse Learning for Robust Visual Tracking. Springer, Berlin (2012) ↩
Lee, J., Shi, B. ,Matsushita,Y., Kweon, I., Ikeuchi,K.: Radiometric calibration by transform invariant low-rank structure. IEEE Conference on Computer Vision and Pattern Recognition, pp. 2337–2344 (2011) ↩
He, R., Zheng, W.S., Hu, B.G., Kong, X.W.: Nonnegative sparse coding for discriminative semi-supervised learning. IEEE Conference on Computer Vision and Pattern Recognition, pp. 792–801 (2011) ↩
Zhuang, L., Gao, H., Lin, Z., Ma, Y., Zhang, X., Yu, N.: Nonnegative low rank and sparse graph for semi-supervised learning. IEEE Conference on Computer Vision and Pattern Recognition pp. 2328–2335 (2012) ↩
Candés, E.J.,Li, X.,Ma,Y.,Wright, J.: Robust principal component analysis? JACM 58(3) (2011) ↩
Liu, G., Lin, Z., Yu, Y.: Robust subspace segmentation by low-rank representation. Mach. Learn. pp. 663–670 (2010) ↩
Lin, Z., Liu, R., Su, Z.: Linearized alternating direction method with adaptive penalty for low rank representation. In NIPS (2011) ↩

笔记：Semi-Supervised Low-Rank Representation for Image Classification