矩阵分析与应用-1.4-内积与范数

前言

本文学习过程来源是《矩阵分析与应用-张贤达》一书. 可以通过 z-lib 下载.

一、向量的内积与范数

之前提到向量有常数向量、函数向量和随机向量. 不管怎么变, 其对应的内积和范数都要符合一定的公理. 实向量是复向量的特例, 这里以复向量为例, 用 R R R C C C 分别代表实数域和复数域.

定义: 令 V V V 是复向量空间. 函数 ⟨ x , y ⟩ : V × V → C \left \langle x,y \right \rangle : V \times V \to C x,y:V×VC 称为向量 x x x y y y 的内积, 若对所有 x , y , z ∈ V x,y,z \in V x,y,zV, 以下内积公理满足:

(1) ⟨ x , y ⟩ ≥ 0 \left \langle x,y \right \rangle \ge 0 x,y0

(1a) ⟨ x , y ⟩ = 0 \left \langle x,y \right \rangle = 0 x,y=0 , 当且仅当 x = 0 x=0 x=0

(2) ⟨ x + y , z ⟩ = ⟨ x , z ⟩ + ⟨ y , z ⟩ \left \langle x+y , z \right \rangle = \left \langle x , z \right \rangle + \left \langle y , z \right \rangle x+y,z=x,z+y,z

(3) ⟨ c x , y ⟩ = c ∗ ⟨ x , y ⟩ \left \langle cx , y \right \rangle = c^*\left \langle x , y \right \rangle cx,y=cx,y , 对所有复常数 c c c 成立.

(4) ⟨ x , y ⟩ = ⟨ y , x ⟩ ∗ \left \langle x , y \right \rangle = \left \langle y , x \right \rangle ^ * x,y=y,x

其中 ∗ * 代表复数共轭.

定义: 令 V V V 是复向量空间. 函数 ∥ x ∥ : V → R \left \| x \right \|: V \to R x:VR 称为向量 x x x 的范数, 若对所有 x , y ∈ V x,y \in V x,yV, 以下范数公理满足:

(1) ∥ x ∥ ≥ 0 \left \| x \right \| \ge 0 x0

(1a) ∥ x ∥ = 0 \left \| x \right \| = 0 x=0 , 当且仅当 x = 0 x=0 x=0

(2) ∥ c x ∥ = ∣ c ∣ ∥ x ∥ \left \| cx \right \| = |c| \left \| x \right \| cx=cx , 对所有复常数 c c c 成立.

(3) ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ \left \| x + y \right \| \le \left \| x \right \| + \left \| y \right \| x+yx+y , 对所有复常数 c c c 成立.

上述公理是平面欧几里得长度的熟知性质. 满足公理 (1), (2), (3), 但不一定满足公理 (1a) 的函数称为向量的半范数.

1. 常数向量的内积与范数

两个 m × 1 m \times 1 m×1 维常数向量 x = [ x 1 , x 2 , … , x m ] T x = [x_1,x_2,\dots,x_m]^{\mathrm{T}} x=[x1,x2,,xm]T y = [ y 1 , y 2 , … , y m ] T y = [y_1,y_2,\dots,y_m]^{\mathrm{T}} y=[y1,y2,,ym]T 的内积 (或叫点积) 定义为:

⟨ x , y ⟩ = x H y = ∑ i = 1 m x i ∗ y i (1) \left \langle x,y \right \rangle = x^{\mathrm{H}}y = \sum_{i=1}^mx_i^*y_i \tag{1} x,y=xHy=i=1mxiyi(1)

两个向量之间的夹角定义为

c o s θ = d e f ⟨ x , y ⟩ ⟨ x , x ⟩ ⟨ y , y ⟩ = x H y ∥ x ∥ ∥ y ∥ (2) cos\theta \overset{def}{=} \frac{\left \langle x,y \right \rangle}{\sqrt{\left \langle x,x \right \rangle } \sqrt{\left \langle y,y \right \rangle}} = \frac{x^{\mathrm{H}}y}{\left \| x \right \|\left \| y \right \|} \tag{2} cosθ=defx,x y,y x,y=xyxHy(2)

显然, 当 x H y = 0 x^{\mathrm{H}}y=0 xHy=0时, θ = π / 2 \theta=\pi/2 θ=π/2. 此时, 称常数向量 x x x y y y 正交. 因此, 两个常数向量正交的数学定义如下.

定义: 两个常数向量若它们的内积等于零, 即 x H y = 0 x^{\mathrm{H}}y=0 xHy=0, 则称这两个向量正交, 并记作 x ⊥ y x \perp y xy.

补充说明: 根据定义, 零向量与任何向量都正交.

常用向量范数:

(1) l 1 l_1 l1 范数

∥ x ∥ 1 = d e f ∣ ∑ i = 1 m x i ∣ = ∣ x 1 ∣ + ∣ x 2 ∣ + ⋯ + ∣ x m ∣ (3) \left \| x \right \|_1 \overset{def}{=} \left | \sum_{i=1}^mx_i \right | = |x_1| + |x_2| + \dots + |x_m| \tag{3} x1=defi=1mxi=x1+x2++xm(3)

这也叫和范数或者 1 范数.用作两点间的曼哈顿距离公式如下:

∥ x − y ∥ 1 = d e f ∣ ∑ i = 1 m x i − y i ∣ = ∣ x 1 − y 1 ∣ + ∣ x 2 − y 2 ∣ + ⋯ + ∣ x m − y m ∣ (4) \left \| x - y \right \|_1 \overset{def}{=} \left | \sum_{i=1}^{m}x_i-y_i \right | = |x_1-y_1| + |x_2-y_2| + \dots + |x_m-y_m| \tag{4} xy1=defi=1mxiyi=x1y1+x2y2++xmym(4)

(2) l 2 l_2 l2 范数

∥ x ∥ 2 = ( ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + ⋯ + ∣ x m ∣ 2 ) 1 / 2 (5) \left \| x \right \|_2 = (|x_1|^2 + |x_2|^2 + \dots + |x_m|^2)^{1/2} \tag{5} x2=(x12+x22++xm2)1/2(5)

这一范数常称 E u c l i d e a n \mathrm{Euclidean} Euclidean (欧几里得) 范数, 有时也称 F r o b e n i u s \mathrm{Frobenius} Frobenius 范数. 两个向量之间的该范数就是求欧几里得距离, 简而言之就是求两点间的空间距离.

(3) l ∞ l_{\infty} l 范数

∥ x ∥ ∞ = m a x ( ∣ x 1 ∣ , ∣ x 2 ∣ , … , ∣ x n ∣ ) (6) \left \| x \right \|_{\infty} = \mathrm{max}(|x_1|,|x_2|,\dots,|x_n|) \tag{6} x=max(x1,x2,,xn)(6)

也称无穷范数或极大范数.

(4) l p l_p lp 范数

∥ x ∥ p = ( ∑ i = 1 m ∣ x i ∣ p ) 1 / 2 , p ≥ 1 (7) \left \| x \right \|_p = \left ( \sum_{i=1}^{m}|x_i|^p \right )^{1/2} \quad , \quad p \ge 1 \tag{7} xp=(i=1mxip)1/2,p1(7)

l p l_p lp 范数也叫做 H o l d e r \mathrm{Holder} Holder 范数.

p = 2 p=2 p=2 时, l p l_p lp 范数与 E u c l i d e a n \mathrm{Euclidean} Euclidean 范数完全等价. 另外, 无穷范数是 l p l_p lp 范数的极限形式, 即有

∥ x ∥ ∞ = lim ⁡ p → ∞ ( ∑ i = 1 m ∣ x i ∣ p ) 1 / p (8) \left \| x \right \|_{\infty} = \lim_{p \to \infty} \left ( \sum_{i=1}^{m}|x_i|^p \right )^{1/p} \tag{8} x=plim(i=1mxip)1/p(8)

利用极限的知识就可以证明:

不妨令 ∣ a 1 ∣ ≤ ∣ a i ∣ |a_1| \le |a_i| a1ai, 那么
lim ⁡ p → ∞ ( ∣ a i ∣ ∣ a 1 ∣ ) = { 1 ∣ a i ∣ = ∣ a 1 ∣ 0 ∣ a i ∣ < ∣ a 1 ∣ \lim_{p \to \infty} \left ( \frac{|a_i|}{|a_1|} \right) = \left\{ \begin{array}{c} 1 \quad |a_i| = |a_1| \\ 0 \quad |a_i| < |a_1| \end{array} \right. \\ plim(a1ai)={ 1ai=a10ai<a1

lim ⁡ p → ∞ ( ∑ i = 1 n ∣ a i ∣ p ) 1 / p = lim ⁡ p → ∞ ( ∣ a 1 ∣ p ∑ i = 1 n ( ∣ a i ∣ ∣ a 1 ∣ ) p ) 1 p = ∣ a 1 ∣ lim ⁡ p → ∞ m 1 p = ∣ a 1 ∣ 0 < m ≤ n \lim_{p \to \infty} \left ( \sum_{i=1}^{n}|a_i|^p \right)^{1/p} = \lim_{p \to \infty} \left ( |a_1|^p \sum_{i=1}^{n}\left (\frac{|a_i|}{|a_1|} \right )^p \right )^{\frac{1}{p}} = |a_1| \lim_{p \to \infty}m^{\frac{1}{p}} = |a_1| \quad 0 < m \le n plim(i=1naip)1/p=plim(a1pi=1n(a1ai)p)p1=a1plimmp1=a10<mn

常数向量 w w w v v v 的外积 (又叫叉积) 记作 w v H wv^{\mathrm{H}} wvH 定义为

w v H = [ w 1 v 1 ∗ w 1 v 2 ∗ … w 1 v m ∗ w 2 v 1 ∗ w 2 v 2 ∗ … w 2 v m ∗ ⋮ ⋮ ⋮ w m v 1 ∗ w m v 2 ∗ … w m v m ∗ ] (9) wv^{\mathrm{H}} = \begin{bmatrix} w_1v_1^*& w_1v_2^*& \dots& w_1v_m^* \\ w_2v_1^*& w_2v_2^*& \dots& w_2v_m^* \\ \vdots& \vdots& & \vdots \\ w_mv_1^*& w_mv_2^*& \dots& w_mv_m^* \\ \end{bmatrix} \tag{9} wvH=w1v1w2v1wmv1w1v2w2v2wmv2w1vmw2vmwmvm(9)

2. 函数向量的内积与范数

x ( t ) x(t) x(t) y ( t ) y(t) y(t) 分别是变量 t t t 的函数变量, 则它们的内积定义为

⟨ x ( t ) , y ( t ) ⟩ = d e f ∫ a b x H ( t ) y ( t ) d t (10) \left \langle x(t),y(t) \right \rangle \overset{def}{=} \int_{a}^{b}x^{\mathrm{H}}(t)y(t)dt \tag{10} x(t),y(t)=defabxH(t)y(t)dt(10)

其中, 变量 t t t [ a , b ] [a,b] [a,b] 取值, 且 a < b a<b a<b.

两个函数向量的夹角定义为
c o s θ = d e f ⟨ x , y ⟩ ⟨ x , x ⟩ ⟨ y , y ⟩ = ∫ a b x H ( t ) y ( t ) d t ∥ x ∥ ∥ y ∥ (11) cos\theta \overset{def}{=} \frac{\left \langle x,y \right \rangle}{\sqrt{\left \langle x,x \right \rangle } \sqrt{\left \langle y,y \right \rangle}} = \frac{\int_{a}^{b}x^{\mathrm{H}}(t)y(t)dt}{\left \| x \right \|\left \| y \right \|} \tag{11} cosθ=defx,x y,y x,y=xyabxH(t)y(t)dt(11)

式中, ∥ x ( t ) ∥ \left \| x(t) \right \| x(t) 是函数向量 x ( t ) x(t) x(t) 的范数, 定义为

∥ x ( t ) ∥ = d e f ( ∫ a b x H ( t ) y ( t ) d t ) 1 / 2 (12) \left \| x(t) \right \| \overset{def}{=} \left ( \int_{a}^{b}x^{\mathrm{H}}(t)y(t)dt \right )^{1/2} \tag{12} x(t)=def(abxH(t)y(t)dt)1/2(12)

由此可得, 两函数向量内积为零.

∫ − ∞ ∞ x H ( t ) y ( t ) d t = 0 \int_{-\infty}^{\infty} x^{\mathrm{H}}(t)y(t)dt = 0 xH(t)y(t)dt=0

θ = π / 2 \theta = \pi/2 θ=π/2 时, 这两个函数向量正交, 并记作 x ( t ) ⊥ y ( t ) x(t) \perp y(t) x(t)y(t).

3. 随机向量的内积与范数

x ( ξ ) x(\xi) x(ξ) y ( ξ ) y(\xi) y(ξ) 分别是样本变量 ξ \xi ξ 的随机向量, 则它们的内积定义为

⟨ x ( ξ ) , y ( ξ ) ⟩ = d e f E { x H ( ξ ) y ( ξ ) } (13) \left \langle x(\xi),y(\xi) \right \rangle \overset{def}{=} E \left \{x^{\mathrm{H}}(\xi)y(\xi) \right \} \tag{13} x(ξ),y(ξ)=defE{ xH(ξ)y(ξ)}(13)

随机向量 x ( ξ ) x(\xi) x(ξ) 的范数定义为
∥ x ( ξ ) ∥ 2 = d e f E { x H ( ξ ) y ( ξ ) } (14) \left \| x(\xi) \right \|^2 \overset{def}{=} E \left \{x^{\mathrm{H}}(\xi)y(\xi) \right \} \tag{14} x(ξ)2=defE{ xH(ξ)y(ξ)}(14)

与常数向量和函数向量不同的是, 若 m × 1 m \times 1 m×1 随机向量 x ( ξ ) x(\xi) x(ξ) 的任意元素与 n × 1 n \times 1 n×1 随机向量 y ( ξ ) y(\xi) y(ξ) 的任意元素正交. 则 x ( ξ ) x(\xi) x(ξ) y ( ξ ) y(\xi) y(ξ) 称为正交. 这意味着两个向量的互相关矩阵为零矩阵 O m × n O_{m \times n} Om×n, 即

E { x ( ξ ) y H ( ξ ) } = O m × n (15) E \left \{x(\xi)y^{\mathrm{H}}(\xi) \right \} = O_{m \times n} \tag{15} E{ x(ξ)yH(ξ)}=Om×n(15)

并记作 x ( ξ ) ⊥ y ( ξ ) x(\xi) \perp y(\xi) x(ξ)y(ξ).

二、向量的相似度

考虑 M M M 个类型的模式, 它们分别记作 ω 1 , ω 2 , … , ω M \omega_1,\omega_2,\dots,\omega_M ω1,ω2,,ωM. 假设通过已知类型属性的观测样本, 比如已抽取出 M M M 个样本模式向量 s 1 , s 2 , … , s M s_1,s_2,\dots,s_M s1,s2,,sM. 给定一任意的位置模式向量 x x x, 判断属于哪一类模式, 这个问题称为模式分类.

这不就是机器学习中的分类问题吗? 模式分类的基本思想就是将未知模式向量 x x x M M M 个样本模式向量进行对比, 看 x x x 与哪一个样本模式向量最相似, 并据此做出模式分类的判断.

( x , s 1 ) , ( x , s 2 ) , … , ( x , s M ) (x,s_1), (x,s_2), \dots, (x,s_M) (x,s1),(x,s2),,(x,sM) 分别作为未知模式向量 x x x 和已知样本模式向量 s 1 , s 2 , … , s M s_1,s_2,\dots,s_M s1,s2,,sM 之间的相似关系的符号. 以 x x x s 1 , s 2 s_1,s_2 s1,s2 的相似关系为例, 若

( x , s 1 ) ≤ ( x , s 2 ) (16) (x,s_1) \le (x,s_2) \tag{16} (x,s1)(x,s2)(16)

则称未知模式向量 x x x 与样本模式向量 s 2 s_2 s2 更相似. 建立这样的关系需要定义相似度和相异度.

最简单的就是两个向量之间的欧几里得距离. 未知模式向量 x x x 与 第 i i i 个样本模式向量 s i s_i si 之间的欧几里得距离记作 D ( s i , x ) D(s_i,x) D(si,x), 定义为
D ( s i , x ) = ⟨ x − s i ⟩ 2 = ( x − s i ) T ( x − s i ) (17) D(s_i,x) = \left \langle x-s_i \right \rangle_2 = \sqrt{(x-s_i)^{\mathrm{T}}(x-s_i)} \tag{17} D(si,x)=xsi2=(xsi)T(xsi) (17)

s i ∈ { s 1 , s 2 , … , s M } s_i \in \left \{ s_1,s_2,\dots,s_M \right \} si{ s1,s2,,sM} 是到 x x x 的近邻 (即最近的邻居), 若

D ( s i , x ) = m i n k D ( s k , x ) , k = 1 , 2 , … , M (18) D(s_i,x) = \underset{k}{min}D(s_k,x), \quad k = 1,2,\dots,M \tag{18} D(si,x)=kminD(sk,x),k=1,2,,M(18)

这就是机器学习中大名鼎鼎的 KNN 算法的来源.

然后换做马氏距离来算, 令

m = 1 N ∑ k = 1 N s i (19) m = \frac{1}{N}\sum_{k=1}^{N}s_i \tag{19} m=N1k=1Nsi(19)

代表 N N N 个样本模式向量的均值向量, 并使用

C = 1 N ∑ i = 1 N ( s i − m ) ( s i − m ) T (20) C = \frac{1}{N}\sum_{i=1}^{N}(s_i-m)(s_i-m)^{\mathrm{T}} \tag{20} C=N1i=1N(sim)(sim)T(20)

代表 N N N 个样本模式向量的协方差矩阵.

从未知模式向量 x x x 到均值向量 m m m 之间的 M a h a l a n o b i s \mathrm{Mahalanobis} Mahalanobis 距离定义为

D ( m , x ) = ( x − m ) T C ( x − m ) (21) D(m,x)=(x-m)^{\mathrm{T}}C(x-m)\tag{21} D(m,x)=(xm)TC(xm)(21)

类似地, 从第 i i i 个样本模式向量 s i s_i si 到均值向量 m m m M a h a l a n o b i s \mathrm{Mahalanobis} Mahalanobis 定义为

D ( m , s i ) = ( s i − m ) T C ( s i − m ) (22) D(m,s_i)=(s_i-m)^{\mathrm{T}}C(s_i-m)\tag{22} D(m,si)=(sim)TC(sim)(22)

根据近邻分类法, 将未知模式向量 x x x 归为满足

D ( s i , x ) = m i n k ∣ D ( s k , x ) − D ( m , x ) ∣ , k = 1 , 2 , … , N (23) D(s_i,x)= \underset{k}{min}|D(s_k,x) - D(m,x)|,\quad k = 1,2,\dots,N \tag{23} D(si,x)=kminD(sk,x)D(m,x),k=1,2,,N(23)

的近邻 s i s_i si 的模式类型.

当然两个向量之间的相似度还可以用夹角的余弦函数
S ( s i , x ) = c o s ( θ i ) = x T s i ∥ x ∥ 2 ∥ s i ∥ 2 (24) S(s_i,x) = cos(\theta_i)=\frac{x^{\mathrm{T}}s_i}{\left \| x \right \|_2 \left \| s_i \right \|_2} \tag{24} S(si,x)=cos(θi)=x2si2xTsi(24)

c o s ( θ i ) < c o s ( θ j ) , ∀ j ≠ i cos(\theta_i) < cos(\theta_j), \forall j \neq i cos(θi)<cos(θj),j=i 成立, 则认为未知模式向量 x x x 与样本模式向量 s i s_i si 最相似.

式子 (24) 还可变形成为
S ( s i , x ) = x T s i x T x + s i T s i + x T s i (25) S(s_i,x)=\frac{x^{\mathrm{T}}s_i}{x^{\mathrm{T}}x + s^{\mathrm{T}}_is_i + x^{\mathrm{T}}s_i} \tag{25} S(si,x)=xTx+siTsi+xTsixTsi(25)

称为 T a n i m o t o \mathrm{Tanimoto} Tanimoto 测度, 广泛应用于信息恢复、疾病分类、动植物分类.

待分类的信号称为目标信号, 分类通常是根据某种物理或几何概念进行的. 令 X X X 为目标信号, A i A_i Ai代表第 i i i类目标的分类概念.
( X , A i ) ≤ ( X , A j ) , ∀ i , j (26) (X,A_i) \le (X,A_j), \forall i,j \tag{26} (X,Ai)(X,Aj),i,j(26)

这类有效关系一般用于目标-概念距离 D ( X , A i ) D(X,A_i) D(X,Ai) 描述. 因此, 若目标-概念距离 D ( X , A i ) D(X,A_i) D(X,Ai) 最小, 则将 X X X 归为第 i i i 类目标 C i C_i Ci.

三、正交向量在移动通信中的应用

1. 时分多址

在计算机网络中学过这样的概念, 就是单通道在把一段时间划给多个用户. 这个操作就更像操作系统中采用时间片轮转的调度形式.

2. 频分多址

不同用户占据不同频段. 日常生活中显而易见的就是收音机的不同频段可以同时收听到. 这就像计算机体系架构中多核CPU的运行, 它们是并行的概念.

3. 跳频-码分多址

先划分时间, 再划分频段. 就像是时分和频分的结合.

4. 直接序列-码分多址

同时通信, 共享频道. 因为每个用户的扩频码向量之间是互相正交, 互不影响.

四、向量范数用作 Lyapunov 函数

L y a p u n o v \mathrm{Lyapunov} Lyapunov 直接法是分析和构造线性和非线性控制系统最成功的工具之一.

定理 1: ( L y a p u n o v \mathrm{Lyapunov} Lyapunov 稳定性定理) 若对连续系统 d o t x = f ( x ) dot{x}=f(x) dotx=f(x) 或 离散系统 x k + 1 = f ( x k ) x_{k+1} = f(x_k) xk+1=f(xk) 存在一个函数 V ( x ) V(x) V(x) 具体平衡点 x = 0 x=0 x=0, 且 V V V 在整个 R n R^n Rn 内满足条件:

(1) V V V 是正定和径向无界函数.

(2) 对 x ≠ 0 x \neq 0 x=0

D V = lim ⁡ Δ t → 0 s u p V ( x ( t + Δ t ) ) − V ( x ( t ) ) Δ t < 0 ( 连 续 系 统 ) DV = \lim_{\Delta t \to 0}sup{\frac{V(x(t+\Delta t))-V(x(t))}{\Delta t}} < 0 \quad (连续系统) DV=Δt0limsupΔtV(x(t+Δt))V(x(t))<0()

Δ V = V ( x k + 1 ) − V ( x k ) < 0 ( 离 散 系 统 ) \Delta V = V(x_{k+1}) - V(x_k) < 0 \quad (离散系统) ΔV=V(xk+1)V(xk)<0()

则平衡点 x = 0 x=0 x=0 是全局渐近稳定的.

在向量 x x x n n n 维空间内, 考虑用向量范数

V ( x ) = ∥ W x ∥ V(x) = \left \| Wx \right \| V(x)=Wx

其中 W = [ ω 1 , ω 2 , … , ω n ] W=[\omega_1,\omega_2,\dots,\omega_n] W=[ω1,ω2,,ωn] m × n m \times n m×n 矩阵, 且 m ≥ n m \ge n mn r a n k ( W ) = n \mathrm{rank}(W)=n rank(W)=n

l p l_p lp 范数构成了一类特殊的向量范数, 其中 E u c l i d e a n \mathrm{Euclidean} Euclidean 范数
V ( x ) = ∥ W x ∥ 2 = ( ∑ i ∣ ω i T x ∣ 2 ) 1 / 2 (27) V(x) = \left \| Wx \right \|_2 = \left ( \sum_i|\omega_i^{\mathrm{T}}x|^2\right )^{1/2} \tag{27} V(x)=Wx2=(iωiTx2)1/2(27)

和无穷范数
V ( x ) = ∥ W x ∥ ∞ = lim ⁡ p → ∞ ( ∑ i ∣ ω i T x ∣ p ) 1 / p = m a x i { ω i T x } (28) V(x) = \left \| Wx \right \|_{\infty} = \lim_{p \to \infty}\left ( \sum_i|\omega_i^{\mathrm{T}}x|^p\right )^{1/p} = \underset{i}{\mathrm{max}}\{ \omega_i^{\mathrm{T}}x\} \tag{28} V(x)=Wx=plim(iωiTxp)1/p=imax{ ωiTx}(28)

L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数的两个重要例子.

定理 2: 函数 V ( x ) = ∥ W x ∥ V(x) = \left \| Wx \right \| V(x)=Wx (其中, W W W m × n m \times n m×n 矩阵, 且 r a n k W = n \mathrm{rank}W = n rankW=n) 是系统 x ˙ = A x \dot{x} = Ax x˙=Ax L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数, 当且仅当矩阵 W W W 是矩阵方程
W A − Q W = O (29) WA - QW = O \tag{29} WAQW=O(29)

的解, 假定矩阵 Q Q Q 满足条件
μ ( Q ) < 0 (30) \mu(Q) < 0 \tag{30} μ(Q)<0(30)

其中
μ ( Q ) = lim ⁡ Δ t → 0 + ∥ I + Δ t Q − 1 ∥ Δ t (31) \mu(Q) = \lim_{\Delta t \to 0+} \frac{\left \| I + \Delta tQ - 1 \right \|}{\Delta t} \tag{31} μ(Q)=Δt0+limΔtI+ΔtQ1(31)

μ ( Q ) \mu(Q) μ(Q) 有时称为矩阵 Q Q Q 的对数矩阵范数. 对数矩阵范数可以是复数, 这一点和矩阵范数非负性质相违背.

如果式子 (28) 的函数是 L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数, 那么它的平方
V 2 ( x ) = ∥ W x ∥ 2 2 = ∑ i = 1 n ( ω i T x ) 2 = x T W T W x (32) V^2(x) = \left \| Wx \right \|_2^2 = \sum_{i=1}^n(\omega_i^{\mathrm{T}}x)^2 = x^{\mathrm{T}}W^{\mathrm{T}}Wx \tag{32} V2(x)=Wx22=i=1n(ωiTx)2=xTWTWx(32)

也是 L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数. 式子 (32) 的函数为二次型 x T R x x^{\mathrm{T}}Rx xTRx, 其中
R = W T W (33) R = W^{\mathrm{T}}W \tag{33} R=WTW(33)

这样的二次型函数是系统 x ˙ = A x \dot{x}=Ax x˙=Ax L y a p u n o v \mathrm{Lyapunov} Lyapunov 函数, 当且仅当
A T R + R A = − Q ~ (34) A^{\mathrm{T}}R + RA = -\tilde{Q} \tag{34} ATR+RA=Q~(34)

的解 Q ~ \tilde{Q} Q~ 是一个正定对称矩阵.

定理 3: 下面两个集合等价:
L 1 = { R ∈ R n × n ∣ A T R + R A = − Q ~ , 其 中 , Q ~ , R > 0 , Q ~ 对 称 } (35) L_1 = \{ R \in R^{n \times n}|A^{\mathrm{T}}R+RA = -\tilde{Q}, 其中, \tilde{Q},R > 0, \tilde{Q} 对称 \} \tag{35} L1={ RRn×nATR+RA=Q~,,Q~,R>0,Q~}(35)

L 2 = { R ∈ R n × n ∣ R = W T W , W A − Q W = O , 其 中 , μ 2 ( Q ) < 0 , r a n k ( W ) = n } (36) L_2 = \{ R \in R^{n \times n}|R=W^{\mathrm{T}}W, WA - QW = O , 其中, \mu_2(Q) < 0, \mathrm{rank}(W)=n \} \tag{36} L2={ RRn×nR=WTW,WAQW=O,,μ2(Q)<0,rank(W)=n}(36)

感觉这部分和机器学习没有太大关系, 如果以后遇到了或者其他什么原因再来学习吧.

五、矩阵的范数和内积

作为一种算子, 实矩阵 A ∈ R m × n A \in R^{m \times n} ARm×n 的范数记作 ∥ A ∥ \left \| A \right \| A, 它是矩阵的实值函数, 必须要满足一些条件:

  1. 对于任何非零矩阵 A ≠ O A \neq O A=O, 其范数大于零, 即 ∥ A ∥ > 0 \left \| A \right \| > 0 A>0, 并且 ∥ O ∥ = 0 \left \| O \right \| = 0 O=0

  2. 对于任意复数 c c c ∥ c A ∥ = ∣ c ∣ ∥ A ∥ \left \| cA \right \| = |c|\left \| A \right \| cA=cA

  3. 矩阵范数满足三角不等式 ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ \left \| A+B \right \| \le \left \| A \right \| + \left \| B \right \| A+BA+B

  4. 两个矩阵乘积的范数小于或等于两个矩阵范数的乘积, 即 ∥ A B ∥ ≤ ∥ A ∥ ∥ B ∥ \left \| AB \right \| \le \left \| A \right \| \left \| B \right \| ABAB

有几个典型的矩阵范数

(1) F r o b e n i u s \mathrm{Frobenius} Frobenius 范数
∥ A ∥ F = d e f ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) 1 / 2 (37) \left \| A \right \|_F \overset{def}{=} \left ( \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2 \right )^{1/2} \tag{37} AF=def(i=1mj=1naij2)1/2(37)

这个范数也叫做矩阵的 l 2 l_2 l2 范数

(2) l p l_p lp 范数
∥ A ∥ p = d e f m a x x ≠ 0 ∥ A x ∥ p ∥ x ∥ p (38) \left \| A \right \|_p \overset{def}{=} \underset{x \neq 0}{\mathrm{max}} \frac{\left \| Ax \right \|_p}{\left \| x \right \|_p} \tag{38} Ap=defx=0maxxpAxp(38)

式子中, ∥ x ∥ p \left \| x \right \|_p xp 是向量 x x x l p l_p lp 范数. 这个矩阵范数也称 M i n k o w s k i p \mathrm{Minkowski} p Minkowskip 范数, 或者直接叫做 p p p 范数.

(3) 行和范数
∥ A ∥ r o w = m a x 1 ≤ i ≤ m { ∑ j = 1 n ∣ a i j ∣ } (39) \left \| A \right \|_{row} = \underset{1 \le i \le m}{\mathrm{max}} \left \{ \sum_{j=1}^{n} |a_{ij}|\right \} \tag{39} Arow=1immax{ j=1naij}(39)

(4) 列和范数
∥ A ∥ c o l = m a x 1 ≤ j ≤ n { ∑ i = 1 m ∣ a i j ∣ } (40) \left \| A \right \|_{col} = \underset{1 \le j \le n}{\mathrm{max}} \left \{ \sum_{i=1}^{m} |a_{ij}|\right \} \tag{40} Acol=1jnmax{ i=1maij}(40)

(5) 谱范数
∥ A ∥ s p e c = σ m a x = λ m a x (41) \left \| A \right \|_{spec} = \sigma_{max} = \sqrt{\lambda_{\mathrm{max}}} \tag{41} Aspec=σmax=λmax (41)

式子中, σ m a x \sigma_{max} σmax 是矩阵 A A A 的最大奇异值, 即 A H A A^{\mathrm{H}}A AHA 的最大特征值 λ m a x \lambda_{\mathrm{max}} λmax 的正平方根. 谱范数也称最大奇异值范数或者算子范数.

(6) M a h a l a n o b i s \mathrm{Mahalanobis} Mahalanobis 范数
∥ A ∥ Ω = t r ( A H Ω A ) (42) \left \| A \right \|_{\Omega} = \sqrt{tr(A^{\mathrm{H}} \Omega A)} \tag{42} AΩ=tr(AHΩA) (42)

式子中, Ω \Omega Ω 为正定矩阵 (所有特征值大于零的矩阵), t r ( A H Ω A ) tr(A^{\mathrm{H}} \Omega A) tr(AHΩA) 为矩阵 A H Ω A A^{\mathrm{H}} \Omega A AHΩA 的迹 (对角线之积).

A , B A,B A,B m × n m \times n m×n 矩阵, 则矩阵的范数具有以下性质:
∥ A + B ∥ + ∥ A − B ∥ = 2 ( ∥ A ∥ 2 + ∥ B ∥ 2 ) (43) \left \| A+B \right \| + \left \| A-B \right \| = 2(\left \| A \right \|^2 + \left \| B \right \|^2) \tag{43} A+B+AB=2(A2+B2)(43)

∥ A + B ∥ ∥ A − B ∥ ≤ ∥ A ∥ 2 + ∥ B ∥ 2 (44) \left \| A+B \right \| \left \| A-B \right \| \le \left \| A \right \|^2 + \left \| B \right \|^2 \tag{44} A+BABA2+B2(44)

与矩阵范数有联系的量是矩阵的内积, 对于任意 m × n m \times n m×n 复矩阵 A A A B B B, 矩阵的内积记作 $\left \langle A,B \right \rangle $, 定义为
⟨ A , B ⟩ = A H B (45) \left \langle A,B \right \rangle = A^{\mathrm{H}}B \tag{45} A,B=AHB(45)

以下是矩阵的内积与范数之间的关系

(1) C a u c h y − S c h w a r t z \mathrm{Cauchy-Schwartz} CauchySchwartz 不等式
∣ ⟨ A , B ⟩ ∣ 2 ≤ ∥ A ∥ 2 ∥ B ∥ 2 (46) |\left \langle A,B \right \rangle |^2 \le \left \| A \right \|^2 \left \| B \right \|^2 \tag{46} A,B2A2B2(46)

当且仅当 A = c B A=cB A=cB, 等号成立, 其中, c c c 是某个复常数.

(2) P a t h a g o r a s \mathrm{Pathagoras} Pathagoras 定理
⟨ A , B ⟩ 2 = 0 ⇒ ∥ A + B ∥ 2 = ∥ A ∥ 2 + ∥ B ∥ 2 (47) \left \langle A,B \right \rangle^2 = 0 \Rightarrow \left \| A+B \right \|^2 = \left \| A \right \|^2 + \left \| B \right \|^2 \tag{47} A,B2=0A+B2=A2+B2(47)

(3) 极化恒等式
R e ( ⟨ A , B ⟩ ) = 1 4 ( ∥ A + B ∥ 2 − ∥ A − B ∥ 2 ) (48) Re(\left \langle A,B \right \rangle) = \frac{1}{4}(\left \| A+B \right \|^2 - \left \| A-B \right \|^2) \tag{48} Re(A,B)=41(A+B2AB2)(48)

R e ( ⟨ A , B ⟩ ) = 1 2 ( ∥ A + B ∥ 2 − ∥ A ∥ 2 − ∥ B ∥ 2 ) (49) Re(\left \langle A,B \right \rangle) = \frac{1}{2}(\left \| A+B \right \|^2 - \left \| A \right \|^2 - \left \| B \right \|^2) \tag{49} Re(A,B)=21(A+B2A2B2)(49)

式子中, R e ( . ) Re(.) Re(.) 表示取复数的实部.

猜你喜欢

转载自blog.csdn.net/qq_44309220/article/details/125071201
今日推荐