矩阵L2,1范数及矩阵L2,p范数的求导

常见的矩阵范数有L1，L2， $\infty$ 范数，F范数和引申出的L2,1范数。而在机器学习的特征选择中，利用选择矩阵的范数对选择矩阵进行约束，即是正则化技术，是一种稀疏学习。

$L_{0}$ ， $L_{1}$ 向量范数

$L_{0}$ 范数

$L_{0}$ 范数是指向量 $v$ 中的非0的个数，是一种度量向量稀疏性的表示方法。例如： $v=[0,1,1,0,0,1]$ ，那么 $\parallel v \parallel_{0}=3$ 。
$L_{1}$ 范数
$L_{1}$ 范数是向量中元素的绝对值之和，即 $\parallel v \parallel_{1}=\sum_{i=1}^n |v_{i}|$ ，也描述了向量的稀疏性。

从图中可以看出， $p$ 的取值在 $[0，1)$ 之间时，范数不具有凸性。在实际的优化中，是无法进行优化的，因此，一般会将 $L_{0}$ 范数转化为 $L_{1}$ 范数，或者是其他可优化的范数。

矩阵的 $L_{1}$ 范数

为了度量稀疏矩阵的稀疏性，则定义矩阵的一种范数，为：

∥ W ∥ 1 = \sum i, j | W i, j |

$\|W\|_{1}=\sum_{i,j}|W_{i,j}|$
即为矩阵所有元素的绝对值之和，能够描述接矩阵的稀疏性，但是在优化时，难度较大，是将情况向矩阵中元素尽可能是0的方向优化。

矩阵的 $L_{2,1}$ 范数

而为了进一步说明矩阵的稀疏性，来说明特征选择中矩阵 $L_{2,1}$ 范数的作用。

在特征选择中，通过稀疏化的特征选择矩阵来选取特征，即相当于是一种线性变换。

矩阵 $L_{2,1}$ 范数的求导

对于特征选择矩阵 $W$ ，每一行（即行向量）用向量的2-范数描述，即 $w_{i}=\sqrt{\sum_{j}|W_{i,j}|^2}$ 。那么，描述化之后即为向量 $w=[w_{1},w_{2},\cdots,w_{d}]^T$ ，那么对整个选择矩阵 $W$ 还需要用范数对 $w$ 进行描述，因为损失函数中的正则项，或称为正则化的项是一个数，而不是一个向量。因此再用1-范数对 $w$ 描述，即是 $W$ 的 $L_{2,1}$ 范数。

∥ W ∥ 2, 1 = ∥ w ∥ 1 = \sum i = 1 d \sum j = 1 n | W i, j | 2 - - - - - - - -  ⎷  

$\|W\|_{2,1}=\|w\|_{1}=\sum_{i=1}^d \sqrt{\sum_{j=1}^n|W_{i,j}|^2}$
这便是矩阵的

L2,1 $L_{2,1}$ 范数的实际描述过程。矩阵的

L2,1 $L_{2,1}$ 范数满足矩阵范数的自反性、非负性、对称性和三角不等式关系，是一个范数，这里不予证明。

那么，在线性学习模型，损失函数如：

min W, b ∥ X W + e n b T - Y ∥ 2 F + λ ∥ W ∥ 2, 1

$\min_{W,b} \|XW+e_{n}b^T-Y\|_{F}^2+\lambda\|W\|_{2,1}$
在优化中，矩阵的范数该如何求导？关于矩阵的F范数求导，可以参考矩阵的 Frobenius 范数及其求偏导法则。而矩阵

L2,1 $L_{2,1}$ 范数求导如下推导：
首先，先证明一个向量求导的问题,其中

x={x1,x2,…,xn} $\textbf{x} = \{x_{1},x_{2},\ldots,x_{n}\}$ , 而已知求导

d x x T = x 1 d x 1 + \dots + x n d x n ( x 2 1 + \dots + x 2 n ) 1 2 = x d x T ( x x T ) 1 2

$d\textbf{xx}^T = \frac{x_{1}dx_{1}+\cdots+x_{n}dx_{n}}{({x^2_{1}+\cdots+x^2_{n}})^\frac{1}{2}}=\frac{\textbf{x} d\textbf{x}^T}{({\textbf{xx}^T})^\frac{1}{2}}$
那么，可得向量的求导为

d x x T d x = x ( x x T ) 1 2 = x ∥ x ∥ 2

$\frac{d\textbf{xx}^T}{d\textbf{x}} = \frac{\textbf{x}}{({\textbf{xx}^T})^\frac{1}{2}} =\frac{\textbf{x}}{\parallel \textbf{x} \parallel_{2}}$
而对于一个矩阵

W=[w1,⋯,wd]T $\textbf{W} = [\textbf{w}_{1}, \cdots , \textbf{w}_{d}]^T$ , 其中

wi $\textbf{w}_{i}$ 是

W $\textbf{W}$ 的第

i $i$ 行。由矩阵的定义有

∥ W ∥ 2, 1 = ∥ w ∥ 1 = \sum i = 1 d ∥ w i ∥ 2 = \sum i = 1 d (w i w i T) 1 2

$\parallel \textbf{W} \parallel_{2,1} = \parallel \textbf{w} \parallel_{1} = \sum \limits_{i=1}^d \parallel \textbf{w}_{i} \parallel_{2} = \sum \limits_{i=1}^d (\textbf{w}_{i}{\textbf{w}_{i}}^T)^ \frac{1}{2}$
那么：

\partial ∥ W ∥ 2 , 1 \partial W = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ \partial ( \sum i = 1 d ∥ w i ∥ 2 ) \partial w j ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ d \times 1 = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ \partial ( \sum i = 1 d ( w i w i T ) 1 2 ) \partial w j ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ d \times 1 = (w j ∥ w j ∥ 2) d \times 1 = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ 1 ∥ w 1 ∥ 2 1 ∥ w 2 ∥ 2 ⋱ 1 ∥ w d ∥ 2 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ w 1 w 2 ⋮ w d ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ 1 ∥ w 1 ∥ 2 1 ∥ w 2 ∥ 2 ⋱ 1 ∥ w d ∥ 2 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ W = Σ W

$\begin{split} % 用于多行显示 \frac {\partial \parallel \textbf{W} \parallel_{2,1}}{\partial \textbf{W}} & = \left( \frac {\partial\left( \sum \limits_{i=1}^d \parallel \textbf{w}_{i} \parallel_{2} \right)}{\partial \textbf{w}_{j}} \right)_{d\times1} =\left( \frac {\partial\left( \sum \limits_{i=1}^d (\textbf{w}_{i}{\textbf{w}_{i}}^T)^ \frac{1}{2} \right)}{\partial \textbf{w}_{j}} \right)_{d\times1} = \left( \frac {\textbf{w}_{j}} {\parallel \textbf{w}_{j} \parallel_{2}} \right)_{d\times1} \\ & = \left( \begin{array}{cccc} \frac{1}{\parallel \textbf{w}_{1} \parallel_{2}} & & & \\ & \frac{1}{\parallel \textbf{w}_{2} \parallel_{2}} & & \\ & & \ddots & \\ & & & \frac{1}{\parallel \textbf{w}_{d} \parallel_{2}} \\ \end{array} \right) \left( \begin{array}{c} \textbf{w}_{1} \\ \textbf{w}_{2} \\ \vdots \\ \textbf{w}_{d} \\ \end{array} \right) \\ & = \left( \begin{array}{cccc} \frac{1}{\parallel \textbf{w}_{1} \parallel_{2}} & & & \\ & \frac{1}{\parallel \textbf{w}_{2} \parallel_{2}} & & \\ & & \ddots & \\ & & & \frac{1}{\parallel \textbf{w}_{d} \parallel_{2}} \\ \end{array} \right) \begin{array}{c} \textbf{W} \end{array} \\ & = \boldsymbol{\Sigma} \textbf{W} \end{split}$
这即是矩阵

L2,1 $L_{2,1}$ 范数的求导结果。