矩阵分析 (六) 矩阵的函数

我的微信公众号名称：AI研究订阅号
微信公众号ID：MultiAgent1024
公众号介绍：主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容，分享学习过程中的学习笔记和心得！期待您的关注，欢迎一起学习交流进步！

矩阵的微分和积分

定义：以变量 $t$ 的函数为元素的矩阵 $A(t)=(a_{ij}(t))_{m \times n}$ 称为函数矩阵，这里 $a_{ij}(t)$ 是 $t$ 的函数。当 $a_{ij}(t)$ 都可微时，规定导数为：

$A^{'}(t)=(a_{ij}^{'}(t))_{m \times n}$

或：

$\frac{dA(t)}{dt}=(\frac{d}{dt}a_{ij}(t))_{m \times n}$

而当 $a_{ij}$ 在 $(a,b)$ 上可积时，规定 $A$ 的积分为：

$\int^{b}_{a}A(t)dt=(\int_{a}^{b}a_{ij}(t)dt)_{m \times n}$

求导法则：

设 $A(t)$ 与 $B(t)$ 是适当阶数的可微矩阵时， $\lambda(t)$ 是可微函数。

$(A+B)^{'}=A^{'}+B^{'}$ ;
$(\lambda A)^{'}=\lambda^{'}A+\lambda A^{'}$
$(A \cdot B)^{'}=A^{'}B+A B^{'}$
当 $u=f(t)$ 关于 $t$ 可微时： $\frac{dA(u)}{dt}=\frac{dA(u)}{du}\cdot\frac{du}{dt}$ ;
当 $A^{-1}(t)$ 可微时， $(A^{-1}(t))^{'}=-A^{-1}(t)A^{'}(t)A^{-1}(t)$

第五个等式的证明如下：

$0=I^{\prime}=\left(X X^{-1}\right)^{\prime}=X^{\prime} X^{-1}+X\left(X^{-1}\right)^{\prime}$

$\Rightarrow\left(X^{-1}\right)^{\prime}=-X^{-1} X^{\prime} X^{-1}$

例题8：设 $F=AX$ , $A=(a_{ij})_{m \times n}$ ， $X=(x_{1}，x_{2}，\cdots ，x_{n})^{T}$ 求 $\frac{dF}{dX^{T}}$ 。

解：
$\frac{dF}{dX^{T}}=A$

例题9：设 $f=X^{T}Y$ ， $X=(x_{1}，x_{2}，\cdots ,x_{n})^{T}，Y=(y_{1}，y_{2}，\cdots ,y_{n})^{T}$ ，求 $\frac{df}{dX}$ （ $y_{i}$ 是 $X$ 的函数）。

解：

$\frac{dF}{dX}=\frac{dX^{T}}{dX}Y+\frac{dY^{T}}{dX}\cdot X$

最小二乘解也可以通过这种方式求出，对误差的平方求导数即可得到。

矩阵序列及矩阵级数

定义：设有 $C^{n \times n}$ 的矩阵序列 $\{A^{(k)}\}$ ，其中：
$A^{k}=(a_{ij}^{k})_{m \times n}$
若有：
$lim_{k \rightarrow \infty}a_{ij}^{k}=a_{ij}$
则称矩阵序列 $A^{k}$ 收敛于 $A$ , $A=(a_{ij})_{n \times n}$ 为 $\{A(k)\}$ 的极限，记为：
$lim_{k \rightarrow \infty}A^{(k)}=A或A^{k} \rightarrow A$
不收敛的序列称之为发散序列。

定理6.1：设 $A^{k}$ , $A \in C^{n \times n}$ ，则 $lim_{k \rightarrow \infty}A^{k}=A$ 的充要条件是：
$lim_{k \rightarrow \infty}||A^{k}-A||=0,$

其中 $||\cdot||$ 是 $C^{n \times n}$ 上的任何一个范数。

定理6.2：设：

$A^{k} \rightarrow A,B^{k} \rightarrow B,$

其中：

$A^{k},B^{k},A,B$

是适当阶段的矩阵， $a,b$ $\in$ $C$ 是常数，则：

$aA^{k}+bB^{k} \rightarrow aA+bB$
$A^{k} \cdot B^{k} \rightarrow AB$

定义6.5：设 $A\in C^{n \times n}$ ，若 $lim_{k \rightarrow \infty}A^{k}=0$ ，则称 $A$ 为收敛矩阵，这里 $A^{k}$ 是 $A$ 的 $k$ 次方。
定理6.3 ：设 $A \in C^{n \times n}$ ，则 $A$ 为收敛矩阵的充要条件是 $\rho < 1$ 。

矩阵的级数

定义6.6：由 $C^{n \times n}$ 的矩阵序列 $\{A^{(k)}\}$ 构成的无穷级数：
$A^{(0)}+A^{(1)}+\cdots + A^{(k)}+\cdots$

称为矩阵级数，记为 $\sum_{k=0}^{+\infty}A^{(k)}$ 。对任一正整数 $N$ ，称 $S^{N}=\sum_{k=0}^{N}A^{k}$ 为矩阵级数的部分和，如果由部分和构成的矩阵序列 $\{S^{N}\}$ 收敛，且有极限，即：

$lim_{N \rightarrow \infty}S^{N}=S$

则称矩阵级数 $\sum_{k=0}^{+\infty}A^{k}$ 收敛，而且有和 $S$ ，记为：

$S=\sum_{k=0}^{+\infty} A^{k}$

定义6.7：设 $A^{(k)}=(a_{ij}^{k})_{n \times n}$ ，如果 $n^{2}$ 个数量级数：

$\sum_{k=0}^{+ \infty}a_{ij}^{k}$

都绝对收敛，即：

$\sum_{k=0}^{+ \infty}|a_{ij}^{k}|$

收敛，则称级数 $\sum_{k=0}^{+ \infty}A^{k}$ 绝对收敛。

定理6.4：设 $A^{k}=(a_{ij}^{(k)})_{n \times n}$ ，则矩阵级数 $\sum_{k=0}^{+ \infty}A^{k}$ 绝对收敛的充要条件是 $\sum_{k=0}^{+ \infty}||A^{k}||$ 收敛，其中 $||\cdot||$ 是 $C^{n \times n}$ 上的任一矩阵范数。

矩阵的幂级数

定义6.8：设 $A \in C^{n \times n}$ , $a_{k} \in C(k=0,1,2,\cdots)$ ,称矩阵级数：

$\sum_{k=0}^{+\infty}a_{k}A^{k}$

为矩阵 $A$ 的幂级数。

利用定义来判断矩阵幂级数的敛散性，需要判别 $n^{2}$ 个数项级数的敛散性，当矩阵的阶数较大时，这很不方便，且在许多情况下也不必要。矩阵幂级数是复变量 $z$ 的幂级数的推广，如果 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径为 $R$ ,则对于收敛圆 $|z|< R$ 内的所有 $z$ ，都是绝对收敛，因此，讨论级数的收敛性问题，自然联系到 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径，关于矩阵幂级数有下面的结论：

定理6.5：设 $\sum_{k=0}^{\infty}a_{k}z^{k}$ 的收敛半径为 $R$ ， $A \in C^{n \times n}$ ，则：

当 $\rho(A)< R$ 时， $\sum_{k=0}^{\infty}a_{k}z^{k}$ 绝对收敛；
当 $\rho(A)> R$ 时， $\sum_{k=0}^{\infty}a_{k}z^{k}$ 发散。

矩阵函数

矩阵函数定义：

这里利用方阵的幂级数来定义矩阵函数：

在复变函数中，一些函数可以表达成无穷级数的和，即函数可以展开：

$e^{Z}=\sum_{n=0}^{+\infty}\frac{z^{n}}{n!}$

利用这种展开可以定义矩阵函数：

$e^{A}=\sum_{n=0}^{+\infty}\frac{A^{n}}{n!}$

称之为矩阵 $A$ 的指数函数，而相应的幂级数的收敛半径为无穷大，所以对任何矩阵都收敛。

计算矩阵函数：

这里介绍计算矩阵函数的最小多项式的方法：

若 $f(\lambda)$ 是多项式， $m(\lambda)$ 是 $A$ 的最小多项式，它的次数为 $m$ ，以 $m(\lambda)$ 去除 $f(\lambda)$ 得：

$f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)$

这里 $r(\lambda)=0$ 或者比 $m(\lambda)$ 的次数更低，因此：

$f(A)=m(A)q(A)+r(A)=r(A)$

由此可见，次数高于 $m$ 次的任一多项式 $f(A)$ 都可以化为次数 $\leq m-1$ 的 $A$ 的多项式 $r(A)$ 来计算，这一思想可以推广到由矩阵幂级数确定的矩阵函数 $f(A)$ 上，有如下定理：

定理6.6：设 $n$ 阶矩阵 $A$ 的最小多项式为 $m$ 次多项式：

$m(\lambda)=(\lambda-\lambda_{1})^{n_{1}}(\lambda-\lambda_{2})^{n_{2}}\cdots(\lambda-\lambda_{s})^{n_{s}}$

其中， $\lambda_{1},\lambda_{2},\cdots,\lambda_{s}$ 是 $A$ 的所有不同的特征值，与 $f(z)=\sum_{k=0}^{+\infty}C_{k}z^{k}$ 相应的 $f(A)=\sum_{k=0}^{\infty}C_{k}A^{k}$ 是 $A$ 的幂级数，则：

$f(A)=a_{0}E+a_{1}A+\cdots +a_{m-1}A^{m-1}$

系数 $a_{0},a_{1},\cdots,a_{m-1}$ 满足下列方程组：

$a_{0}+a_{i}\lambda_{i}+\cdots +a_{m-1}\lambda_{i}^{m-1}=f(\lambda_{i})$

$a_{1}+2a_{2}\lambda_{i}+\cdots+(m-1)a_{m-1}\lambda_{i}^{m-2}=f^{'}(\lambda_{i})$

$(n_{i}-1)a_{n_{i-1}}+\cdots+(m-1)\cdots(m-n_{i}+1)a_{m-1}\lambda_{i}^{m-n_{i}+1}=f^{(n_{i}-1)}(\lambda_{i})$

即：

$f(\lambda)=a_{0}+a_{1}\lambda+\cdots+a_{m-1}\lambda^{m-1}$

求 $n_{i}-1$ 次导数，得到 $n_{i}$ 个子式，在这些式子中把 $\lambda_{i}$ 代入。事实上，设：

$f(\lambda)=m(\lambda)q(\lambda)+r(\lambda)$

两边求导

$f^{'}(\lambda)=m^{'}(\lambda)q(\lambda)+m(\lambda)q^{'}(\lambda)+r^{'}(\lambda)$

而 $m(\lambda)$ ， $m^{'}(\lambda)$ 当 $\lambda=\lambda_{i}$ 时为零，因为 $m(\lambda)$ 中有 $(\lambda-\lambda_{i})^{n_{i}}$ ,所以可以求 $n_{i}-1$ 次导数，代入时只有 $r^{n_{i}-1}(\lambda_{i})$ 不是零。

例16：设

$A=\left(\begin{array}{ccc} {2} & {1} & {4} \\ {0} & {2} & {0} \\ {0} & {3} & {1} \end{array}\right)$

解：

$f(\lambda)=(\lambda-1)(\lambda-2)^{2}$

而 $(\lambda-1)(\lambda-2)$ 不是零化多项式，所以最小多项式是：

$m(\lambda)=f(\lambda)$

设：

$e^{At}=a_{0}E+a_{1}A+a_{2}A^{2}$

由

$e^{\lambda t}=a_{0}+a_{1}\lambda+a_{2}\lambda^{2}$

两边求导：

$te^{\lambda t}=a_{1}+2a_{2}\lambda$

再带入特征值得

$\begin{aligned} &\mathrm{e}^{t}=a_{0}+a_{1}+a_{2}\\ &\mathrm{e}^{2 t}=a_{0}+2 a_{1}+4 a_{2}\\ &t e^{2 t}=a_{1}+4 a_{2} \end{aligned}$

解出：

$\begin{aligned} &a_{0}=4 \mathrm{e}^{t}-3 \mathrm{e}^{2 t}+2 t \mathrm{e}^{2 t}\\ &a_{1}=-4 \mathrm{e}^{4}+4 \mathrm{e}^{2 t}-3 t \mathrm{e}^{2 t}\\ &a_{2}=\mathrm{e}^{t}-\mathrm{e}^{2 t}+t \mathrm{e}^{2 t} \end{aligned}$

代入得：

$\mathrm{e}^{A t}=\mathrm{e}^{2 t}\left(\begin{array}{ccc} {1} & {12 \mathrm{e}^{-t}-12+13 t} & {-4 \mathrm{e}^{-t}+4} \\ {0} & {1} & {0} \\ {0} & {-3 \mathrm{e}^{-t}+3} & {\mathrm{e}^{-t}} \end{array}\right)$

矩阵函数的性质

这里讨论一下矩阵函数的一些性质：

$sin(-A)=-sin(A)$ ， $cos(-A)=cos(A)$
设 $A,B \in C^{n\times n}$ ，当 $AB=BA$ 时， $e^{A+B}=e^{A} \cdot B^{B}=e^{B} \cdot B^{A}$ 。
由欧拉公式容易得到：

$e^{iA}=cos(A)+isin(A)$

$cos(A)=\frac{1}{2}(e^{iA}+e^{-iA})$

$sin(A)=\frac{1}{2i}(e^{iA}-e^{-iA})$

利用上面的公式容易得到，当 $AB=BA$ 时：

$sin(A+B)=sin(A)cos(B)+cos(A)sin(B)$

$cos(A+B)=cos(A)cos(B)-sin(A)sin(B)$

矩阵函数在微分方程组中的应用

考虑一阶常系数非齐次方程组：

$\left\{\begin{array}{l} {\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\ {\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)} \end{array}\right.$

其解为：

$X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau$

线性系统的能控性与能观性

能控性概念理解：

考虑一阶常系数非齐次方程组：

$\left\{\begin{array}{l} {\frac{\mathrm{d} X}{\mathrm{d} t}=A X+F(t)} \\ {\left.X\right|_{t=t_{0}}=X\left(t_{0}\right)} \end{array}\right.$

其解为：

$X(t)=e^{A\left(t-t_{0}\right)} X\left(t_{0}\right)+\int_{t_{0}}^{t} e^{A(t-\tau)} F(\tau) d \tau$

如果能够通过输入控制输出，也就是控制 $F(t)$ ，使其最后的解能够可控，我们称这个系统是能控的。

定义6.9：对于一个线性定常系统，若在某个有限时间 $[0,t_{1}]$ 内存在输入 $\mu(t)$ , $(0 \leq t \leq t_{1})$ 能够使系统从任意初始状态 $X(0)=X_{0}$ 转移到 $X_{t_{1}}=0$ ，则称此状态是能控的；若系统的所有状态时能控的，则称此系统是完全能控的。

由前面知道系统的解为：

$X(t_{1})=e^{At_{1}} X\left(0\right)+\int_{0}^{t_{1}} e^{A(t_{1}-\tau)} Bu(\tau) d \tau$

想要：

$X(t_{1})=0$

得：

$e^{At_{1}} X(0)+\int_{t_{0}}^{t_{1}} e^{At_{1}} \cdot e^{-A\tau}B(\tau) d \tau=0$

约去 $e^{At_{1}}$ 得：

$X(0)+\int_{t_{0}}^{t_{1}} e^{-A\tau}B(\tau) d \tau=0$

可见，只要取恰当的 $u$ 使得上式等于0即可：

通过观察，可取：

$u(t)=-B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} t}\left(\int_{0}^{t_{1}} \mathrm{e}^{-A \tau} B B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} \tau} \mathrm{d} \tau\right)^{-1} X(0)$

当然这里假设了矩阵：

$W_{c}=\left(\int_{0}^{t_{1}} \mathrm{e}^{-A \tau} B B^{\mathrm{T}} \mathrm{e}^{-A^{\mathrm{T}} \tau} \mathrm{d} \tau\right)^{-1}$

可逆。即这个矩阵可逆时系统能控。

小小何先生

发布了141 篇原创文章 · 获赞 114 · 访问量 16万+

私信关注