一些矩阵范数的subgradients

《Subgradients》
Subderivate-wiki
Subgradient method-wiki
《Subgradient method》
Subgradient-Prof.S.Boyd,EE364b,StanfordUniversity
《Characterization of the Subdifferential of Some Matrix Norms 》

这篇文章主要参考:

《Characterization of the Subdifferential of Some Matrix Norms 》

矩阵 A R m × n A \in \mathbb{R}^{m\times n} \|\cdot\| 为矩阵范数,注意这里我们并没有限定为何种范数。那么 A \|A\| 的次梯度可以用下式表示:
A = { G R m × n B > A + t r a c e [ ( B A ) T G ] , a l l   B R m × n } \partial \|A\| = \{G \in \mathbb{R}^{m\times n}|\|B\| > \|A\| +\mathrm{trace}[(B-A)^TG],all \: B \in \mathbb{R}^{m \times n} \}
这个定义和之前提到的定义是相一致的,事实上, t r a c e ( A T B ) \mathrm{trace}(A^TB) 就相当于将 A A B B 拉成俩个长向量作内积,比较实质就是对应元素相乘再相加。

G A G \in \partial \|A\| 等价于:
在这里插入图片描述
在我看的书里面,对偶范数一般用 \|\cdot\|_* 表示,且是如此定义的:
z = sup { z T x x 1 } \|z\|_* = \sup \{z^Tx| \|x\| \le 1\}
因为下面还有很多地方是采取截图的形式展示的,所以还是沿袭论文的符号比较好,这里只是简单提一下。
至于为什么等价,论文里面没有提,我只能证明,满足那俩点条件的 G G A \|A\| 的次梯度,而不能证明所有次梯度都满足那俩个条件。
证明如下:
假设 G G 满足上面的条件,那么:
t r a c e [ ( B A ) T G ] = A + t r a c e ( B T G ) A + t r a c e [ ( B A ) T G ] = t r a c e ( B T G ) \mathrm{trace}[(B-A)^TG]=-\|A\|+\mathrm{trace}(B^TG) \\ \Rightarrow \|A\| + \mathrm{trace}[(B-A)^TG] = \mathrm{trace}(B^TG)

t r a c e ( B T B G ) 1 = B B \mathrm{trace}(\frac{B^T}{\|B\|}G) \le 1=\frac{\|B\|}{\|B\|}
所以
B A + t r a c e [ ( B A ) T G ] \|B\|\ge \|A\| + \mathrm{trace}[(B-A)^TG]
所以 G A G \in \partial \|A\|
不好意思,我想到怎么证明啦!下证, G A G \in \partial \|A\| 必定满足上述的条件,我们先说明范数的一些性质:
齐次: t A = t A \|tA\|=|t|\|A\|
三角不等式: A + B A + B \|A+B\| \le \|A\|+\|B\|
既然对所有 B R m × n B \in \mathbb{R}^{m \times n} 成立:
B A + t r a c e [ ( B A ) T G ] \|B\| \ge \|A\| + \mathrm{trace}[(B-A)^TG]
B = 1 / 2 A B=1/2A ,可得:
t r a c e ( A T G ) A \mathrm{trace}(A^TG) \ge \|A\|

A + B A + B A + B t r a c e [ B T G ] + B t r a c e ( B T G ) B \|A+B\| \le \|A\| + \|B\| \le \|A+B\|-\mathrm{trace}[B^TG]+\|B\| \\ \Rightarrow \mathrm{trace}(B^TG)\le \|B\|
所以:
A t r a c e ( A T G ) A t r a c e ( A T G ) = A \|A\| \le \mathrm{trace}(A^TG) \le \|A\| \Rightarrow \mathrm{trace}(A^TG)=\|A\|
到此第一个条件得证。
又:
t r a c e ( B T G ) B t r a c e ( B T B G ) = G 1 \mathrm{trace}(B^TG)\le \|B\| \Rightarrow \mathrm{trace}(\frac{B^T}{\|B\|}G) = \|G\|^*\le 1
第二个条件也得证。漂亮!

正交不变范数

正交不变范数定义如下:
U A V = A \|UAV\| = \|A\|
其中 U , V U,V 为任意正交矩阵(原文是 U V A = A \|UVA\|=\|A\| ,我认为是作者的笔误)。
注意,如果范数 \|\cdot\| 是正交不变的,那么其对偶范数同样是正交不变的,证明如下:
既然:
Z = sup { t r a c e ( Z T X ) X 1 } \|Z\|^*=\sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \}
U Z V = sup { t r a c e ( V T Z T U T X ) X 1 } \|UZV\|^*=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \}
U X V UXV 替代 X X 代入即可得:
U Z V = sup { t r a c e ( V T Z T U T X ) X 1 } = sup { t r a c e ( V T Z T U T U X V ) U X V 1 } = sup { t r a c e ( Z T X ) X 1 } = Z \begin{array}{ll} \|UZV\|^*&=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \}\\ &=\sup \{\mathrm{trace}(V^TZ^TU^TUXV)|\|UXV\|\le1 \}\\ &= \sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \}\\ &= \|Z\|^* \end{array}
最后第二个等式成立根据迹的性质和 \|\cdot\| 的题设。

我们假设矩阵 A A 的SVD分解为:
A = U Σ V T A = U\Sigma V^T
其中 Σ R m × n \Sigma \in \mathbb{R}^{m \times n} 为对角矩阵(那种歪歪的对角矩阵), U U V V 的列我们用 u i , v i u_i,v_i 来表示。
假设其奇异值:
σ 1 σ 2 σ n \sigma_1\le \sigma_2 \le \ldots \le \sigma_n
降序排列。
所有这样的(正交不变?)范数都能用下式来定义:
A = ϕ ( σ ) \|A\| = \phi(\sigma)
其中 σ = ( σ 1 , , σ n ) T \sigma = (\sigma_1, \ldots, \sigma_n)^T , ϕ \phi 是一个对称规范函数(symmetirc gague function),满足:
在这里插入图片描述
上面这个东西我也证明不了,不过至少谱范数和核函数的确是这样的。

ϕ \phi 的对偶可以用下式来表示:
ϕ = max ϕ ( y ) = 1 x T y \phi^*= \max \limits_{\phi(y)=1} x^Ty
而且其次梯度更矩阵范数又有相似的一个性质:
在这里插入图片描述
证明是类似的,不多赘述。

一种常见的正交不变范数可由下式定义:
A = σ p \|A\| = \|\sigma\|_p
比较经典的, p = 1 p=1 对应核范数, p = 2 p=2 对应F范数, p = p=\infty 对应谱范数。

定理1

在这里插入图片描述

证明如下:

这一部分的证明需要注意,不要把 A A 当成题目中的 A A ,当成 A + r R A+rR 可能更容易理解。
在这里插入图片描述

这部分的证明,主要是得出了 σ i ( γ ) \sigma_i(\gamma) 的一个泰勒展开,要想证明这个式子成立,可以利用上面的公式,也可以这么想。 σ i ( γ ) \sigma_i(\gamma) A + γ R A+\gamma R 的第 i i 个奇异值:
lim γ 0 + σ i ( γ ) σ i γ = lim γ 0 + σ i ( A + γ R ) σ i γ = lim γ 0 + u i ( γ ) T ( A + γ R ) v i ( γ ) σ i γ \lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(\gamma)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(A+\gamma R)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^T(A+\gamma R)v_i(\gamma)-\sigma_i}{\gamma}
即为:
lim γ 0 + u i ( γ ) T A v i ( γ ) σ i γ + u i T R v i \lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^TAv_i(\gamma)-\sigma_i}{\gamma}+u_i^TRv_i
所以左边这项等于0?
在这里插入图片描述

下面的证明中,第一个不等式成立的原因是:
ϕ ( σ ) ϕ ( σ ( γ ) ) + ( σ σ ( γ ) ) T d ( γ ) \phi(\sigma) \ge \phi(\sigma(\gamma))+(\sigma-\sigma(\gamma))^T\mathrm{d}(\gamma)
σ ( γ ) T d ( r ) = ϕ ( σ ( r ) ) \sigma(\gamma)^T\mathrm{d}(r)=\phi(\sigma(r))
在这里插入图片描述

类似地,我们就可以得到下面的分析:
在这里插入图片描述
有一点点小问题是,没有体现出 max \max 的,不过从(2.5)看,因为这个不等式是对所有 d ϕ ( σ ) \mathrm{d}\in \partial \phi(\sigma) 都成立的,所以结果成立。怎么说呢,这个有点像是上确界的东西。

我们定义符号 c o n v { } \mathrm{conv} \{\cdot \} ,表示集合的凸包。

定理2

注意,我们的最终目的是找到 A \partial \|A\| 利用前面的铺垫我们可以得到定理2:

在这里插入图片描述
相当有趣的一个东西。

下面是证明:

证明总的是分俩大部分来证明的,首先得证明 G c o n v { S ( A ) } G \in \mathrm{conv} \{S(A)\} 满足上面的俩个条件,即是次梯度,再证明,不存在一个次梯度不属于 c o n v { S ( A ) } \mathrm{conv} \{S(A)\}
其实下面这部分的证明,我觉得用 A = U i Σ i V i T A = U_i\Sigma_i V_i^T 表示比较好,作者的意思应该是奇异值分解可以用不同的序,毕竟我们不能要求凸包中的元素有合适的序。
在这里插入图片描述

下面这部分的证明,感觉没什么好讲的。
在这里插入图片描述
下面这部分证明,打问号的地方我有疑惑,以为我觉得只能知道 ϕ ( d i ) 1 \phi^*(\mathrm{d}_i)\le 1 ,而且在这个条件下,证明依旧。好吧,我明白了,因为: ϕ ( d i ) = max ϕ ( x ) = 1 d i T x \phi^*(\mathrm{d}_i)=\max \limits_{\phi(x)=1}\mathrm{d}_i^Tx ,又 d i ϕ ( σ ) \mathrm{d}_i \in \phi(\sigma) ,所以只需令 x = σ / ϕ ( σ ) x=\sigma/|\phi(\sigma) 即可得 ϕ ( d i ) = 1 \phi^*(\mathrm{d}_i)=1
在这里插入图片描述
到此,俩个条件满足,第一部分证毕。

第二部分用到了一个理论,我没有去查阅。这部分证明的思想是,即便存在这么一个 G G 不属于 c o n v S ( A ) \mathrm{conv}S(A) G G 依旧得满足 t r a c e ( R T G ) max d ϕ ( σ ) t = 1 n d i u i T R v i \mathrm{trace}(R^TG) \le \max \limits_{\mathrm{d \in \partial \phi(\sigma)}} \sum \limits_{t=1}^n d_i u_i^TRv_i (要知道,后面这个部分是类似右导数的存在!!!),这个的原理是一种极限的思想,不好表述,但是真的真的蛮容易证明的。
在这里插入图片描述

例子:谱范数

在这里插入图片描述
在这里插入图片描述
凸包,凸包,切记切记。

例子:核范数

在这里插入图片描述
上面倒数第二行那个式子成立,要注意 i λ i = 1 \sum_i \lambda_i =1 这个条件。
在这里插入图片描述

注意:这里出现 Y , Z Y,Z 的原因是 U ( 2 ) , V ( 2 ) U^{(2)},V^{(2)} 对应的奇异值为0,所以其顺序是任意的,并没有对应一说。

算子范数

A \|\cdot\|_A B \|\cdot\|_B 分别表示定义在 R m \mathbb{R}^m R n \mathbb{R}^n 上的范数,那么对于矩阵 A R m × n A \in \mathbb{R}^{m \times n} 上的算子范数,可以如下定义:
A = max x B = 1 A x A \|A\| = \max \limits_{\|x\|_B=1} \|Ax\|_A
注意,矩阵范数,向量范数都满足引里的那个等价条件(实际上,只需满足正定性和三角不等式即可,就能推出那个等价条件)。

定义 Φ ( A ) \Phi(A) :
在这里插入图片描述

定理3

类似的,我们有定理3:
在这里插入图片描述

这部分的推导是类似的:
在这里插入图片描述
在这里插入图片描述

下面这部分和之前的是不同的,这么大费周章,就是为了证明最后收敛的结果在 Φ ( A ) \Phi(A) 中,之间没有这部分的证明,是因为凸函数次梯度的集合是闭凸的?
在这里插入图片描述
在这里插入图片描述

定理4

这个定理,就是为了导出 A \|A\| 的次梯度。

在这里插入图片描述
这部分首先利用迹的性质,再利用 A v i = A u i Av_i=\|A\|u_i
在这里插入图片描述
w i T R v i R w_i^TRv_i \le \|R\| 的原因是 w i A 1 \|w_i\|_A^* \le1 ,
R v i A R = R v i A max v _ B = 1 R v A 1 \frac{\|Rv_i\|_A}{\|R\|}=\frac{\|Rv_i\|_A}{\max \limits_{\|v\|\_B=1} \|Rv\|_A}\le1 (至少 R v i A = 1 \|Rv_i\|_A=1 ),所以有上面的结果。
在这里插入图片描述
到此,我们证明了, S ( A ) S(A) 中的元素均为次梯度,下证凡是次梯度,必属于 S ( A ) S(A)

这部分证明没有需要特别说明的。
在这里插入图片描述

例子 2 \ell_2

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/MTandHJ/article/details/89219680