矩阵分析 (六) 矩阵的函数

我的微信公众号名称:AI研究订阅号
微信公众号ID:MultiAgent1024
公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步!

矩阵的微分和积分

  定义:以变量 t t 的函数为元素的矩阵 A ( t ) = ( a i j ( t ) ) m × n A(t)=(a_{ij}(t))_{m \times n} 称为函数矩阵,这里 a i j ( t ) a_{ij}(t) t t 的函数。当 a i j ( t ) a_{ij}(t) 都可微时,规定导数为:

A ( t ) = ( a i j ( t ) ) m × n A^{'}(t)=(a_{ij}^{'}(t))_{m \times n}

或:

d A ( t ) d t = ( d d t a i j ( t ) ) m × n \frac{dA(t)}{dt}=(\frac{d}{dt}a_{ij}(t))_{m \times n}

  而当 a i j a_{ij} ( a , b ) (a,b) 上可积时,规定 A A 的积分为:

a b A ( t ) d t = ( a b a i j ( t ) d t ) m × n \int^{b}_{a}A(t)dt=(\int_{a}^{b}a_{ij}(t)dt)_{m \times n}

求导法则

  设 A ( t ) A(t) B ( t ) B(t) 是适当阶数的可微矩阵时, λ ( t ) \lambda(t) 是可微函数。

  1. ( A + B ) = A + B (A+B)^{'}=A^{'}+B^{'} ;

  2. ( λ A ) = λ A + λ A (\lambda A)^{'}=\lambda^{'}A+\lambda A^{'}

  3. ( A B ) = A B + A B (A \cdot B)^{'}=A^{'}B+A B^{'}

  4. u = f ( t ) u=f(t) 关于 t t 可微时: d A ( u ) d t = d A ( u ) d u d u d t \frac{dA(u)}{dt}=\frac{dA(u)}{du}\cdot\frac{du}{dt} ;

  5. A 1 ( t ) A^{-1}(t) 可微时, ( A 1 ( t ) ) = A 1 ( t ) A ( t ) A 1 ( t ) (A^{-1}(t))^{'}=-A^{-1}(t)A^{'}(t)A^{-1}(t)

  第五个等式的证明如下:

0 = I = ( X X 1 ) = X X 1 + X ( X 1 ) 0=I^{\prime}=\left(X X^{-1}\right)^{\prime}=X^{\prime} X^{-1}+X\left(X^{-1}\right)^{\prime}

( X 1 ) = X 1 X X 1 \Rightarrow\left(X^{-1}\right)^{\prime}=-X^{-1} X^{\prime} X^{-1}

  • 例题8:设 F = A X F=AX , A = ( a i j ) m × n A=(a_{ij})_{m \times n} X = ( x 1 x 2 x n ) T X=(x_{1},x_{2},\cdots ,x_{n})^{T} d F d X T \frac{dF}{dX^{T}}

  
d F d X T = A \frac{dF}{dX^{T}}=A

  • 例题9:设 f = X T Y f=X^{T}Y X = ( x 1 x 2 , x n ) T Y = ( y 1 y 2 , y n ) T X=(x_{1},x_{2},\cdots ,x_{n})^{T},Y=(y_{1},y_{2},\cdots ,y_{n})^{T} ,求 d f d X \frac{df}{dX} y i y_{i} X X 的函数)。

  

d F d X = d X T d X Y + d Y T d X X \frac{dF}{dX}=\frac{dX^{T}}{dX}Y+\frac{dY^{T}}{dX}\cdot X

  最小二乘解也可以通过这种方式求出,对误差的平方求导数即可得到。

矩阵序列及矩阵级数

定义:设有 C n × n C^{n \times n} 的矩阵序列 { A ( k ) } \{A^{(k)}\} ,其中:
A k = ( a i j k ) m × n A^{k}=(a_{ij}^{k})_{m \times n}
  若有:
l i m k a i j k = a i j lim_{k \rightarrow \infty}a_{ij}^{k}=a_{ij}
  则称矩阵序列 A k A^{k} 收敛于 A A , A = ( a i j ) n × n A=(a_{ij})_{n \times n} { A ( k ) } \{A(k)\} 的极限,记为:
l i m k A ( k ) = A A k A lim_{k \rightarrow \infty}A^{(k)}=A或A^{k} \rightarrow A
  不收敛的序列称之为发散序列。

  • 定理6.1:设 A k A^{k} , A C n × n A \in C^{n \times n} ,则 l i m k A k = A lim_{k \rightarrow \infty}A^{k}=A 的充要条件是:
    l i m k A k A = 0 , lim_{k \rightarrow \infty}||A^{k}-A||=0,

  其中 ||\cdot|| C n × n C^{n \times n} 上的任何一个范数。

  • 定理6.2:设:

A k A , B k B , A^{k} \rightarrow A,B^{k} \rightarrow B,

  其中:

A k , B k , A , B A^{k},B^{k},A,B

  是适当阶段的矩阵, a , b a,b \in C C 是常数,则:

  1. a A k + b B k a A + b B aA^{k}+bB^{k} \rightarrow aA+bB

  2. A k B k A B A^{k} \cdot B^{k} \rightarrow AB

  • 定义6.5:设 A C n × n A\in C^{n \times n} ,若 l i m k A k = 0 lim_{k \rightarrow \infty}A^{k}=0 ,则称 A A 为收敛矩阵,这里 A k A^{k} A A k k 次方。

  • 定理6.3 :设 A C n × n A \in C^{n \times n} ,则 A A 为收敛矩阵的充要条件是 ρ < 1 \rho < 1

矩阵的级数

  • 定义6.6:由 C n × n C^{n \times n} 的矩阵序列 { A ( k ) } \{A^{(k)}\} 构成的无穷级数:
    A ( 0 ) + A ( 1 ) + + A ( k ) + A^{(0)}+A^{(1)}+\cdots + A^{(k)}+\cdots

  称为矩阵级数,记为 k = 0 + A ( k ) \sum_{k=0}^{+\infty}A^{(k)} 。对任一正整数 N N ,称 S N = k = 0 N A k S^{N}=\sum_{k=0}^{N}A^{k} 为矩阵级数的部分和,如果由部分和构成的矩阵序列 { S N } \{S^{N}\} 收敛,且有极限,即:

l i m N S N = S lim_{N \rightarrow \infty}S^{N}=S

  则称矩阵级数 k = 0 + A k \sum_{k=0}^{+\infty}A^{k} 收敛,而且有和 S S ,记为:

S = k = 0 + A k S=\sum_{k=0}^{+\infty} A^{k}

  • 定义6.7:设 A ( k ) = ( a i j k ) n × n A^{(k)}=(a_{ij}^{k})_{n \times n} ,如果 n 2 n^{2} 个数量级数:

k = 0 + a i j k \sum_{k=0}^{+ \infty}a_{ij}^{k}

  都绝对收敛,即:

k = 0 + a i j k \sum_{k=0}^{+ \infty}|a_{ij}^{k}|

  收敛,则称级数 k = 0 + A k \sum_{k=0}^{+ \infty}A^{k} 绝对收敛

  • 定理6.4:设 A k = ( a i j ( k ) ) n × n A^{k}=(a_{ij}^{(k)})_{n \times n} ,则矩阵级数 k = 0 + A k \sum_{k=0}^{+ \infty}A^{k} 绝对收敛的充要条件是 k = 0 + A k \sum_{k=0}^{+ \infty}||A^{k}|| 收敛,其中 ||\cdot|| C n × n C^{n \times n} 上的任一矩阵范数。

矩阵的幂级数

  • 定义6.8: 设 A C n × n A \in C^{n \times n} , a k C ( k = 0 , 1 , 2 , ) a_{k} \in C(k=0,1,2,\cdots) ,称矩阵级数:

k = 0 + a k A k \sum_{k=0}^{+\infty}a_{k}A^{k}

  为矩阵 A A 的幂级数。

  利用定义来判断矩阵幂级数的敛散性,需要判别 n 2 n^{2} 个数项级数的敛散性,当矩阵的阶数较大时,这很不方便,且在许多情况下也不必要。矩阵幂级数是复变量 z z 的幂级数的推广,如果 k = 0 a k z k \sum_{k=0}^{\infty}a_{k}z^{k} 的收敛半径为 R R ,则对于收敛圆 z < R |z|< R 内的所有 z z ,都是绝对收敛,因此,讨论级数的收敛性问题,自然联系到 k = 0 a k z k \sum_{k=0}^{\infty}a_{k}z^{k} 的收敛半径,关于矩阵幂级数有下面的结论:

  • 定理6.5:设 k = 0 a k z k \sum_{k=0}^{\infty}a_{k}z^{k} 的收敛半径为 R R A C n × n A \in C^{n \times n} ,则:
  1. ρ ( A ) < R \rho(A)< R 时, k = 0 a k z k \sum_{k=0}^{\infty}a_{k}z^{k} 绝对收敛;

  2. ρ ( A ) > R \rho(A)> R 时, k = 0 a k z k \sum_{k=0}^{\infty}a_{k}z^{k} 发散。

矩阵函数

  • 矩阵函数定义

  这里利用方阵的幂级数来定义矩阵函数:

  在复变函数中,一些函数可以表达成无穷级数的和,即函数可以展开:

e Z = n = 0 + z n n ! e^{Z}=\sum_{n=0}^{+\infty}\frac{z^{n}}{n!}

  利用这种展开可以定义矩阵函数:

e A = n = 0 + A n n ! e^{A}=\sum_{n=0}^{+\infty}\frac{A^{n}}{n!}

  称之为矩阵 A A 的指数函数,而相应的幂级数的收敛半径为无穷大,所以对任何矩阵都收敛。

  • 计算矩阵函数

  这里介绍计算矩阵函数的最小多项式的方法

  若 f ( λ ) f(\lambda) 是多项式, m ( λ ) m(\lambda) A A 的最小多项式,它的次数为 m m ,以 m ( λ ) m(\lambda) 去除 f ( λ ) f(\lambda) 得:

f ( λ ) = m ( λ ) q ( λ ) + r ( λ ) f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)

  这里 r ( λ ) = 0 r(\lambda)=0 或者比 m ( λ ) m(\lambda) 的次数更低,因此:

f ( A ) = m ( A ) q ( A ) + r ( A ) = r ( A ) f(A)=m(A)q(A)+r(A)=r(A)

  由此可见,次数高于 m m 次的任一多项式 f ( A ) f(A) 都可以化为次数 m 1 \leq m-1 A A 的多项式 r ( A ) r(A) 来计算,这一思想可以推广到由矩阵幂级数确定的矩阵函数 f ( A ) f(A) 上,有如下定理:

  • 定理6.6:设 n n 阶矩阵 A A 的最小多项式为 m m 次多项式:

m ( λ ) = ( λ λ 1 ) n 1 ( λ λ 2 ) n 2 ( λ λ s ) n s m(\lambda)=(\lambda-\lambda_{1})^{n_{1}}(\lambda-\lambda_{2})^{n_{2}}\cdots(\lambda-\lambda_{s})^{n_{s}}

  其中, λ 1 , λ 2 , , λ s \lambda_{1},\lambda_{2},\cdots,\lambda_{s} A A 的所有不同的特征值,与 f ( z ) = k = 0 + C k z k f(z)=\sum_{k=0}^{+\infty}C_{k}z^{k} 相应的 f ( A ) = k = 0 C k A k f(A)=\sum_{k=0}^{\infty}C_{k}A^{k} A A 的幂级数,则:

f ( A ) = a 0 E + a 1 A + + a m 1 A m 1 f(A)=a_{0}E+a_{1}A+\cdots +a_{m-1}A^{m-1}

  系数 a 0 , a 1 , , a m 1 a_{0},a_{1},\cdots,a_{m-1} 满足下列方程组:

a 0 + a i λ i + + a m 1 λ i m 1 = f ( λ i ) a_{0}+a_{i}\lambda_{i}+\cdots +a_{m-1}\lambda_{i}^{m-1}=f(\lambda_{i})

a 1 + 2 a 2 λ i + + ( m 1 ) a m 1 λ i m 2 = f ( λ i ) a_{1}+2a_{2}\lambda_{i}+\cdots+(m-1)a_{m-1}\lambda_{i}^{m-2}=f^{'}(\lambda_{i})

( n i 1 ) a n i 1 + + ( m 1 ) ( m n i + 1 ) a m 1 λ i m n i + 1 = f ( n i 1 ) ( λ i ) (n_{i}-1)a_{n_{i-1}}+\cdots+(m-1)\cdots(m-n_{i}+1)a_{m-1}\lambda_{i}^{m-n_{i}+1}=f^{(n_{i}-1)}(\lambda_{i})

  即:

f ( λ ) = a 0 + a 1 λ + + a m 1 λ m 1 f(\lambda)=a_{0}+a_{1}\lambda+\cdots+a_{m-1}\lambda^{m-1}

  求 n i 1 n_{i}-1 次导数,得到 n i n_{i} 个子式,在这些式子中把 λ i \lambda_{i} 代入。事实上,设:

f ( λ ) = m ( λ ) q ( λ ) + r ( λ ) f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)

  两边求导

f ( λ ) = m ( λ ) q ( λ ) + m ( λ ) q ( λ ) + r ( λ ) f^{'}(\lambda)=m^{'}(\lambda)q(\lambda)+m(\lambda)q^{'}(\lambda)+r^{'}(\lambda)

  而 m ( λ ) m(\lambda) m ( λ ) m^{'}(\lambda) λ = λ i \lambda=\lambda_{i} 时为零,因为 m ( λ ) m(\lambda) 中有 ( λ λ i ) n i (\lambda-\lambda_{i})^{n_{i}} ,所以可以求 n i 1 n_{i}-1 次导数,代入时只有 r n i 1 ( λ i ) r^{n_{i}-1}(\lambda_{i}) 不是零。

  • 例16:设

A = ( 2 1 4 0 2 0 0 3 1 ) A=\left(\begin{array}{ccc} {2} & {1} & {4} \\ {0} & {2} & {0} \\ {0} & {3} & {1} \end{array}\right)

  

f ( λ ) = ( λ 1 ) ( λ 2 ) 2 f(\lambda)=(\lambda-1)(\lambda-2)^{2}

  而 ( λ 1 ) ( λ 2 ) (\lambda-1)(\lambda-2) 不是零化多项式,所以最小多项式是:

m ( λ ) = f ( λ ) m(\lambda)=f(\lambda)

  设:

e A t = a 0 E + a 1 A + a 2 A 2 e^{At}=a_{0}E+a_{1}A+a_{2}A^{2}

  由

e λ t = a 0 + a 1 λ + a 2 λ 2 e^{\lambda t}=a_{0}+a_{1}\lambda+a_{2}\lambda^{2}

  两边求导:

t e λ t = a 1 + 2 a 2 λ te^{\lambda t}=a_{1}+2a_{2}\lambda

  再带入特征值得

e t = a 0 + a 1 + a 2 e 2 t = a 0 + 2 a 1 + 4 a 2 t e 2 t = a 1 + 4 a 2 \begin{aligned} &\mathrm{e}^{t}=a_{0}+a_{1}+a_{2}\\ &\mathrm{e}^{2 t}=a_{0}+2 a_{1}+4 a_{2}\\ &t e^{2 t}=a_{1}+4 a_{2} \end{aligned}

  解出:

a 0 = 4 e t 3 e 2 t + 2 t e 2 t a 1 = 4 e 4 + 4 e 2 t 3 t e 2 t a 2 = e t e 2 t + t e 2 t \begin{aligned} &a_{0}=4 \mathrm{e}^{t}-3 \mathrm{e}^{2 t}+2 t \mathrm{e}^{2 t}\\ &a_{1}=-4 \mathrm{e}^{4}+4 \mathrm{e}^{2 t}-3 t \mathrm{e}^{2 t}\\ &a_{2}=\mathrm{e}^{t}-\mathrm{e}^{2 t}+t \mathrm{e}^{2 t} \end{aligned}

  代入得:

e A t = e 2 t ( 1 12 e t 12 + 13 t 4 e t + 4 0 1 0 0 3 e t + 3 e t ) \mathrm{e}^{A t}=\mathrm{e}^{2 t}\left(\begin{array}{ccc} {1} & {12 \mathrm{e}^{-t}-12+13 t} & {-4 \mathrm{e}^{-t}+4} \\ {0} & {1} & {0} \\ {0} & {-3 \mathrm{e}^{-t}+3} & {\mathrm{e}^{-t}} \end{array}\right)

矩阵函数的性质

  这里讨论一下矩阵函数的一些性质:

  1. s i n ( A ) = s i n ( A ) sin(-A)=-sin(A) c o s ( A ) = c o s ( A ) cos(-A)=cos(A)

  2. A , B C n × n A,B \in C^{n\times n} ,当 A B = B A AB=BA 时, e A + B = e A B B = e B B A e^{A+B}=e^{A} \cdot B^{B}=e^{B} \cdot B^{A}

  3. 由欧拉公式容易得到:

e i A = c o s ( A ) + i s i n ( A ) e^{iA}=cos(A)+isin(A)

c o s ( A ) = 1 2 ( e i A + e i A ) cos(A)=\frac{1}{2}(e^{iA}+e^{-iA})

s i n ( A ) = 1 2 i ( e i A e i A ) sin(A)=\frac{1}{2i}(e^{iA}-e^{-iA})

  1. 利用上面的公式容易得到,当 A B = B A AB=BA 时:

s i n ( A + B ) = s i n ( A ) c o s ( B ) + c o s ( A ) s i n ( B ) sin(A+B)=sin(A)cos(B)+cos(A)sin(B)

c o s ( A + B ) = c o s ( A ) c o s ( B ) s i n ( A ) s i n ( B ) cos(A+B)=cos(A)cos(B)-sin(A)sin(B)

矩阵函数在微分方程组中的应用

  考虑一阶常系数非齐次方程组:

{ d X d t = A X + F ( t ) X t = t 0 = X ( t 0 ) \left\{\begin{array}{l} {\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\ {\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)} \end{array}\right.

  其解为:

X ( t ) = e A ( t t 0 ) X ( t 0 ) + t 0 t e A ( t τ ) F ( τ ) d τ X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau

线性系统的能控性与能观性

  能控性概念理解

  考虑一阶常系数非齐次方程组:

{ d X d t = A X + F ( t ) X t = t 0 = X ( t 0 ) \left\{\begin{array}{l} {\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\ {\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)} \end{array}\right.

  其解为:

X ( t ) = e A ( t t 0 ) X ( t 0 ) + t 0 t e A ( t τ ) F ( τ ) d τ X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau

  如果能够通过输入控制输出,也就是控制 F ( t ) F(t) ,使其最后的解能够可控,我们称这个系统是能控的。

  • 定义6.9:对于一个线性定常系统,若在某个有限时间 [ 0 , t 1 ] [0,t_{1}] 内存在输入 μ ( t ) \mu(t) , ( 0 t t 1 ) (0 \leq t \leq t_{1}) 能够使系统从任意初始状态 X ( 0 ) = X 0 X(0)=X_{0} 转移到 X t 1 = 0 X_{t_{1}}=0 ,则称此状态是能控的;若系统的所有状态时能控的,则称此系统是完全能控的

  由前面知道系统的解为:

X ( t 1 ) = e A t 1 X ( 0 ) + 0 t 1 e A ( t 1 τ ) B u ( τ ) d τ X(t_{1})=e^{At_{1}} X\left(0\right)+\int_{0}^{t_{1}} e^{A(t_{1}-\tau)} Bu(\tau) d \tau

  想要:

X ( t 1 ) = 0 X(t_{1})=0

  得:

e A t 1 X ( 0 ) + t 0 t 1 e A t 1 e A τ B ( τ ) d τ = 0 e^{At_{1}} X(0)+\int_{t_{0}}^{t_{1}} e^{At_{1}} \cdot e^{-A\tau}B(\tau) d \tau=0

  约去 e A t 1 e^{At_{1}} 得:

X ( 0 ) + t 0 t 1 e A τ B ( τ ) d τ = 0 X(0)+\int_{t_{0}}^{t_{1}} e^{-A\tau}B(\tau) d \tau=0

  可见,只要取恰当的 u u 使得上式等于0即可:

  通过观察,可取:

u ( t ) = B T e A T t ( 0 t 1 e A τ B B T e A T τ d τ ) 1 X ( 0 ) u(t)=-B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} t}\left(\int_{0}^{t_{1}} \mathrm{e}^{-A \tau} B B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} \tau} \mathrm{d} \tau\right)^{-1} X(0)

  当然这里假设了矩阵:

W c = ( 0 t 1 e A τ B B T e A T τ d τ ) 1 W_{c}=\left(\int_{0}^{t_{1}} \mathrm{e}^{-A \tau} B B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} \tau} \mathrm{d} \tau\right)^{-1}

  可逆。即这个矩阵可逆时系统能控。

发布了141 篇原创文章 · 获赞 114 · 访问量 16万+

猜你喜欢

转载自blog.csdn.net/weixin_39059031/article/details/103464628