我的微信公众号名称:AI研究订阅号
微信公众号ID:MultiAgent1024
公众号介绍:主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容,分享学习过程中的学习笔记和心得!期待您的关注,欢迎一起学习交流进步!
矩阵的微分和积分
定义:以变量
t的函数为元素的矩阵
A(t)=(aij(t))m×n称为函数矩阵,这里
aij(t)是
t的函数。当
aij(t)都可微时,规定导数为:
A′(t)=(aij′(t))m×n
或:
dtdA(t)=(dtdaij(t))m×n
而当
aij在
(a,b)上可积时,规定
A的积分为:
∫abA(t)dt=(∫abaij(t)dt)m×n
求导法则:
设
A(t)与
B(t)是适当阶数的可微矩阵时,
λ(t)是可微函数。
-
(A+B)′=A′+B′;
-
(λA)′=λ′A+λA′
-
(A⋅B)′=A′B+AB′
-
当
u=f(t)关于
t可微时:
dtdA(u)=dudA(u)⋅dtdu;
-
当
A−1(t)可微时,
(A−1(t))′=−A−1(t)A′(t)A−1(t)
第五个等式的证明如下:
0=I′=(XX−1)′=X′X−1+X(X−1)′
⇒(X−1)′=−X−1X′X−1
- 例题8:设
F=AX,
A=(aij)m×n,
X=(x1,x2,⋯,xn)T求
dXTdF。
解:
dXTdF=A
- 例题9:设
f=XTY,
X=(x1,x2,⋯,xn)T,Y=(y1,y2,⋯,yn)T,求
dXdf(
yi是
X的函数)。
解:
dXdF=dXdXTY+dXdYT⋅X
最小二乘解也可以通过这种方式求出,对误差的平方求导数即可得到。
矩阵序列及矩阵级数
定义:设有
Cn×n的矩阵序列
{A(k)},其中:
Ak=(aijk)m×n
若有:
limk→∞aijk=aij
则称矩阵序列
Ak收敛于
A,
A=(aij)n×n为
{A(k)}的极限,记为:
limk→∞A(k)=A或Ak→A
不收敛的序列称之为发散序列。
- 定理6.1:设
Ak,
A∈Cn×n,则
limk→∞Ak=A的充要条件是:
limk→∞∣∣Ak−A∣∣=0,
其中
∣∣⋅∣∣是
Cn×n上的任何一个范数。
Ak→A,Bk→B,
其中:
Ak,Bk,A,B
是适当阶段的矩阵,
a,b
∈
C是常数,则:
-
aAk+bBk→aA+bB
-
Ak⋅Bk→AB
-
定义6.5:设
A∈Cn×n,若
limk→∞Ak=0,则称
A为收敛矩阵,这里
Ak是
A的
k次方。
-
定理6.3 :设
A∈Cn×n,则
A为收敛矩阵的充要条件是
ρ<1。
矩阵的级数
- 定义6.6:由
Cn×n的矩阵序列
{A(k)}构成的无穷级数:
A(0)+A(1)+⋯+A(k)+⋯
称为矩阵级数,记为
∑k=0+∞A(k)。对任一正整数
N,称
SN=∑k=0NAk为矩阵级数的部分和,如果由部分和构成的矩阵序列
{SN}收敛,且有极限,即:
limN→∞SN=S
则称矩阵级数
∑k=0+∞Ak收敛,而且有和
S,记为:
S=k=0∑+∞Ak
- 定义6.7:设
A(k)=(aijk)n×n,如果
n2个数量级数:
k=0∑+∞aijk
都绝对收敛,即:
k=0∑+∞∣aijk∣
收敛,则称级数
∑k=0+∞Ak绝对收敛。
- 定理6.4:设
Ak=(aij(k))n×n,则矩阵级数
∑k=0+∞Ak绝对收敛的充要条件是
∑k=0+∞∣∣Ak∣∣收敛,其中
∣∣⋅∣∣是
Cn×n上的任一矩阵范数。
矩阵的幂级数
- 定义6.8: 设
A∈Cn×n,
ak∈C(k=0,1,2,⋯),称矩阵级数:
k=0∑+∞akAk
为矩阵
A的幂级数。
利用定义来判断矩阵幂级数的敛散性,需要判别
n2个数项级数的敛散性,当矩阵的阶数较大时,这很不方便,且在许多情况下也不必要。矩阵幂级数是复变量
z的幂级数的推广,如果
∑k=0∞akzk的收敛半径为
R,则对于收敛圆
∣z∣<R内的所有
z,都是绝对收敛,因此,讨论级数的收敛性问题,自然联系到
∑k=0∞akzk的收敛半径,关于矩阵幂级数有下面的结论:
- 定理6.5:设
∑k=0∞akzk的收敛半径为
R,
A∈Cn×n,则:
-
当
ρ(A)<R时,
∑k=0∞akzk绝对收敛;
-
当
ρ(A)>R时,
∑k=0∞akzk发散。
矩阵函数
这里利用方阵的幂级数来定义矩阵函数:
在复变函数中,一些函数可以表达成无穷级数的和,即函数可以展开:
eZ=n=0∑+∞n!zn
利用这种展开可以定义矩阵函数:
eA=n=0∑+∞n!An
称之为矩阵
A的指数函数,而相应的幂级数的收敛半径为无穷大,所以对任何矩阵都收敛。
这里介绍计算矩阵函数的最小多项式的方法:
若
f(λ)是多项式,
m(λ)是
A的最小多项式,它的次数为
m,以
m(λ)去除
f(λ)得:
f(λ)=m(λ)q(λ)+r(λ)
这里
r(λ)=0或者比
m(λ)的次数更低,因此:
f(A)=m(A)q(A)+r(A)=r(A)
由此可见,次数高于
m次的任一多项式
f(A)都可以化为次数
≤m−1的
A的多项式
r(A)来计算,这一思想可以推广到由矩阵幂级数确定的矩阵函数
f(A)上,有如下定理:
- 定理6.6:设
n阶矩阵
A的最小多项式为
m次多项式:
m(λ)=(λ−λ1)n1(λ−λ2)n2⋯(λ−λs)ns
其中,
λ1,λ2,⋯,λs是
A的所有不同的特征值,与
f(z)=∑k=0+∞Ckzk相应的
f(A)=∑k=0∞CkAk是
A的幂级数,则:
f(A)=a0E+a1A+⋯+am−1Am−1
系数
a0,a1,⋯,am−1满足下列方程组:
a0+aiλi+⋯+am−1λim−1=f(λi)
a1+2a2λi+⋯+(m−1)am−1λim−2=f′(λi)
(ni−1)ani−1+⋯+(m−1)⋯(m−ni+1)am−1λim−ni+1=f(ni−1)(λi)
即:
f(λ)=a0+a1λ+⋯+am−1λm−1
求
ni−1次导数,得到
ni个子式,在这些式子中把
λi代入。事实上,设:
f(λ)=m(λ)q(λ)+r(λ)
两边求导
f′(λ)=m′(λ)q(λ)+m(λ)q′(λ)+r′(λ)
而
m(λ),
m′(λ)当
λ=λi时为零,因为
m(λ)中有
(λ−λi)ni,所以可以求
ni−1次导数,代入时只有
rni−1(λi)不是零。
A=⎝⎛200123401⎠⎞
解:
f(λ)=(λ−1)(λ−2)2
而
(λ−1)(λ−2)不是零化多项式,所以最小多项式是:
m(λ)=f(λ)
设:
eAt=a0E+a1A+a2A2
由
eλt=a0+a1λ+a2λ2
两边求导:
teλt=a1+2a2λ
再带入特征值得
et=a0+a1+a2e2t=a0+2a1+4a2te2t=a1+4a2
解出:
a0=4et−3e2t+2te2ta1=−4e4+4e2t−3te2ta2=et−e2t+te2t
代入得:
eAt=e2t⎝⎛10012e−t−12+13t1−3e−t+3−4e−t+40e−t⎠⎞
矩阵函数的性质
这里讨论一下矩阵函数的一些性质:
-
sin(−A)=−sin(A),
cos(−A)=cos(A)
-
设
A,B∈Cn×n,当
AB=BA 时,
eA+B=eA⋅BB=eB⋅BA。
-
由欧拉公式容易得到:
eiA=cos(A)+isin(A)
cos(A)=21(eiA+e−iA)
sin(A)=2i1(eiA−e−iA)
- 利用上面的公式容易得到,当
AB=BA时:
sin(A+B)=sin(A)cos(B)+cos(A)sin(B)
cos(A+B)=cos(A)cos(B)−sin(A)sin(B)
矩阵函数在微分方程组中的应用
考虑一阶常系数非齐次方程组:
{dtdX=AX+F(t)X∣t=t0=X(t0)
其解为:
X(t)=eA(t−t0)X(t0)+∫t0teA(t−τ)F(τ)dτ
线性系统的能控性与能观性
能控性概念理解:
考虑一阶常系数非齐次方程组:
{dtdX=AX+F(t)X∣t=t0=X(t0)
其解为:
X(t)=eA(t−t0)X(t0)+∫t0teA(t−τ)F(τ)dτ
如果能够通过输入控制输出,也就是控制
F(t),使其最后的解能够可控,我们称这个系统是能控的。
- 定义6.9:对于一个线性定常系统,若在某个有限时间
[0,t1]内存在输入
μ(t),
(0≤t≤t1)能够使系统从任意初始状态
X(0)=X0转移到
Xt1=0,则称此状态是能控的;若系统的所有状态时能控的,则称此系统是完全能控的。
由前面知道系统的解为:
X(t1)=eAt1X(0)+∫0t1eA(t1−τ)Bu(τ)dτ
想要:
X(t1)=0
得:
eAt1X(0)+∫t0t1eAt1⋅e−AτB(τ)dτ=0
约去
eAt1得:
X(0)+∫t0t1e−AτB(τ)dτ=0
可见,只要取恰当的
u使得上式等于0即可:
通过观察,可取:
u(t)=−BTe−ATt(∫0t1e−AτBBTe−ATτdτ)−1X(0)
当然这里假设了矩阵:
Wc=(∫0t1e−AτBBTe−ATτdτ)−1
可逆。即这个矩阵可逆时系统能控。