矩阵论(一):线性代数基础知识整理(下)

本篇博客是线性代数的基础理论知识下篇,限于篇幅,不会把所有定义都罗列出来,而是将整理的重点放在定理和结论上(当然有些必要的定义还是会说明的),对于最基础的概念(如什么是矩阵、行列式的定义及基本计算方法、矩阵的基本运算等等)不清楚的童鞋可以参考线性代数常用基本知识整理
本篇博客的上篇是矩阵论(零):线性代数基础知识整理(上)
为更具一般性,讨论复矩阵和复向量,向量如无特别说明均为列向量

本篇博客主要有以下几部分内容:

  • 向量空间(向量、內积、范数)
    • 向量空间(又称线性空间)
    • 內积公理、复內积空间(又称酋空间)
    • 范数公理、常用的向量范数、向量间距离
    • 线性空间的基
    • 矩阵的內积与范数
  • 酋矩阵与线性变换
    • 正交矩阵、酋矩阵
    • 线性变换的定义及性质
    • 线性变换的矩阵
  • 方阵的特征值
    • 特征值的定义及性质
    • A H A A^HA A A H AA^H 的特征值的关系(很重要,在奇异值分解中要用到)
  • 相似变换与相似对角化
    • 相似矩阵的定义及性质
    • Sylvester定理
    • 相似对角化的定义及其充要条件
  • 零矩阵的判定方法

向量空间(向量、內积、范数)

向量空间(线性空间)

  • 线性空间的定义
    设V是一个非空集合,F是一个数域,若V满足以下10条公理,则称V是F上的一个线性空间,简称线性空间:
    • 在V的元素(称为向量,是一种抽象的概念)间定义了一种二元运算,叫做“加法”,满足加法运算是封闭的 x , y V , x + y V \forall{x,y}\in{V}, x+y\in{V}
    • 在数域F和V的元素间定义了一种代数运算,叫做“数量乘法”,简称数乘,满足数乘运算是封闭的 k F , x V , k x V \forall{k}\in{F},\forall{x}\in{V},kx\in{V}
    • 满足加法的交换律: x , y V , x + y = y + x \forall{x,y}\in{V},x+y=y+x
    • 满足加法的结合律: x , y , z V , ( x + y ) + z = x + ( y + z ) \forall{x,y,z}\in{V},(x+y)+z=x+(y+z)
    • 存在零元: 0 V , x V , x + 0 = x \exists{0}\in{V},\forall{x}\in{V},x+0=x
    • V中每个元素都有负元: x V , x V , x + ( x ) = 0 \forall{x}\in{V},\exists{-x}\in{V},x+(-x)=0
    • 满足数乘的单位率: x V , 1 x = x \forall{x}\in{V},1x=x
    • 满足数乘运算的结合律: k , b F , x V , k ( b x ) = ( k b ) x \forall{k,b}\in{F},\forall{x}\in{V},k(bx)=(kb)x
    • 满足数乘运算对向量的分配律: k F , x , y V , k ( x + y ) = k x + k y \forall{k}\in{F},\forall{x,y}\in{V},k(x+y)=kx+ky
    • 满足数乘运算对数的分配律: k , b F , x V , ( k + b ) x = k x + b x \forall{k,b}\in{F},\forall{x}\in{V},(k+b)x=kx+bx
      当数域F是实数域时,称线性空间V是实线性空间;当F是复数域时,称V是复线性空间。易验证 C n C^n 是一个复线性空间。
  • 线性空间的性质
    • 零元是唯一的
    • 每个向量的负元是唯一的,由此可以定义向量间的减法: x y = x + ( y ) x-y=x+(-y)
    • 0 x = 0 , ( 1 ) x = x , k 0 = 0 0x=0,(-1)x=-x,k0=0
    • k x = 0 kx=0 ,则 k = 0 x = 0 k=0\lor{}x=0
  • 线性子空间的定义与判定
    • 定义:设W是线性空间V的一个非空子集,若W是线性空间,则称W是V的线性子空间
    • 定理:设W是线性空间V的一个非空子集,则W是V的子空间的充要条件为W对V中的线性运算(加法和数乘)封闭
      例:关于x的齐次线性方程组 A m × n x = 0 A_{m\times{n}}x=0 的所有解向量构成了 C n C^n 的一个线性子空间,称为方程组 A m × n x = 0 A_{m\times{n}}x=0 的解空间
    • 定义:设 a 1 , a 2 ,   , a s a_1,a_2,\cdots,a_s 是V中的向量,这些向量的所有线性组合构成了V的一个线性子空间( { k 1 a 1 + + k s a s k 1 ,   , k s F } \{k_1a_1+\cdots+k_sa_s|k_1,\cdots,k_s\in{F}\} ),称为V的生成子空间,记作 W = s p a n a 1 , a 2 ,   , a s W=span{a_1,a_2,\cdots,a_s}
      例:矩阵 A m × n A_{m\times{n}} 的所有列向量的线性组合构成了 C m C^m 的一个生成子空间,常称为A的列空间;同样地, A m × n A_{m\times{n}} 的所有行向量的线性组合构成了 C n C^n 的一个生成子空间,常称为A的行空间

內积公理

设V是一个复线性空间,若在V的任意两个向量间定义了满足以下4条內积公理的二元运算(运算结果必须是复数),则称V是复內积空间:

  • 共轭对称性: < x , y > = < y , x > <x,y>=\overline{<y,x>}
  • 加性: < x + y , z > = < x , z > + < y , z > <x+y,z>=<x,z>+<y,z>
  • 齐性: < k x , y > = k ˉ < x , y > , k C <kx,y>=\bar{k}<x,y>,k\in{C}
  • 非负性: < x , x > R < x , x > 0 <x,x>\in{R}\land{}<x,x>\geqslant{0} ,且 < x , x > = 0 <x,x>=0 的充要条件为 x = 0 x=0
    (在 C n C^n 中定义向量的內积为 < x , y > = x H y <x,y>=x^Hy ,易验证是满足內积公理的。)

从上面的公理可以推导出:

  • < x , y + z > = < x , y > + < x , z > <x,y+z>=<x,y>+<x,z>
  • < x , k y > = k < x , y > , k C <x,ky>=k<x,y>,k\in{C} (注意和齐性的区别,齐性公理中的复数k不是直接提出来的,而是取了共轭)
  • 柯西施瓦兹不等式 < x , y > < x , x > < y , y > |<x,y>|\leqslant{}\sqrt{<x,x>}\sqrt{<y,y>} ,等号当且仅当x和y线性相关时取

范数公理

在复內积空间中,若给每个向量赋予唯一的一个实数,当该实数满足如下四条范数公理时,称给每个向量定义了范数:

  • x 0 ||x||\geqslant{0}
  • x = 0 ||x||=0 的充要条件是 x = 0 x=0
  • c x = c x , c C ||cx||=|c|||x||,c\in{C}
  • 三角不等式 x + y x + y ||x+y||\leqslant{}||x||+||y||

R m R^m C m C^m 中常用的向量范数

  • l 1 l_1 范数: x 1 = i = 0 m x i ||x||_1=\sum_{i=0}^m|x_i|
  • l 2 l_2 范数(又称Frobenius范数、欧几里得范数等): x 2 = i = 0 m x i 2 ||x||_2=\sqrt{\sum_{i=0}^m|x_i|^2} ,即 x 2 = x H x ||x||_2=\sqrt{x^Hx}
  • l p l_p 范数: x p = ( i = 1 m x i p ) 1 p , p R p 1 ||x||_p=\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}},p\in{R}\land{}p\geqslant{1}
  • l l_{\infty} 范数:当 l p l_p 范数中的 p p 趋于正无穷时,其极限是存在的,称该极限为 l l_{\infty} 范数。现在证明该极限是存在的:
    证明:
    S = m a x { x 1 , x 2 ,   , x m } S=max\{|x_1|,|x_2|,\cdots,|x_m|\} 。因为 S = ( S p ) 1 p ( i = 1 m x i p ) 1 p ( m S p ) 1 p = m 1 p S S=(S^p)^\frac{1}{p}\leqslant{}\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}}\leqslant{}\bigl(mS^p\bigr)^\frac{1}{p}=m^{\frac{1}{p}}S lim p + S = lim p + m 1 p S = S \lim_{p\to{+\infty}}S=\lim_{p\to{+\infty}}m^{\frac{1}{p}}S=S 故由夹逼定理得 lim p + ( i = 1 m x i p ) 1 p = S = m a x ( x 1 , x 2 ,   , x m ) \lim_{p\to{+\infty}}\Bigl(\sum_{i=1}^m|x_i|^p\Bigr)^{\frac{1}{p}}=S=max(|x_1|,|x_2|,\cdots,|x_m|) 所以我们定义 x = m a x ( x 1 , x 2 ,   , x m ) ||x||_\infty=max(|x_1|,|x_2|,\cdots,|x_m|)

(因为 l 2 l_2 范数是最常用的,故如无特别说明,后文均采用 l 2 l_2 范数)

  • 由范数引出的其他概念:

    • 两个向量的夹角:复向量x和y的夹角余弦是一复数,定义为 c o s ( x , y ) = < x , y > x 2 y 2 cos(x,y)=\frac{<x,y>}{||x||_2||y||_2}
    • 向量正交:若 c o s ( x , y ) = 0 cos(x,y)=0 < x , y > = 0 <x,y>=0 ,则称x和y正交
    • 向量间的距离:常采用两向量差的 l 2 l_2 范数作为这两个向量间的距离的定义,即 d ( x , y ) = x y 2 d(x,y)=||x-y||_2 (当然其他范数也可以类似地定义距离)
  • 向量间的距离满足如下性质:

    • 对称性 d ( x , y ) = d ( y , x ) d(x,y)=d(y,x)
    • 非负性 d ( x , y ) 0 d(x,y)\geqslant{0} 且等号当且仅当x=y时取
    • 三角不等式 d ( x , y ) d ( x , z ) + d ( z , y ) d(x,y)\leqslant{}d(x,z)+d(z,y)

线性空间的基

对一线性空间V,前面在 C n C^n 中探讨的线性无关、极大无关组等概念都适用,且有以下定义和定理:

  • 定义:若V中的线性无关向量组可以含任意多个向量,则称V是无限维空间,否则称V是有限维空间
  • 定义:若V的一个线性无关向量组满足任意V中向量都可由该组线性表示,则称该线性无关组是V的一组基
  • 定理:有限维空间V必有极大无关组,V的所有极大无关组所含的向量的个数相等,都可以作为V的一组基。称V的极大无关组所含向量的个数为V的维数。对于n维线性空间V,V中任意n个线性无关的向量都可构成V的一组基。V中任意向量都可由V的一组基唯一地线性表示
  • 定义:设有限维空间V的一个基向量组为 a 1 , a 2 ,   , a n a_1,a_2,\cdots,a_n ,任意V中向量x可由它唯一地线性表示,即存在唯一的向量z使得 x = [ a 1 a n ] z x=\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}z ,称z是x在该基下的坐标向量,简称坐标
  • 定义:(正交向量组和标准正交向量组)若V的一个向量组不含零向量,且任意两向量正交,则称该向量组是一个正交向量组。如果V的正交向量组的每个向量都是单位向量,则称该正交向量组是标准正交向量组
  • 定理:正交向量组一定是线性无关向量组
  • 定义:n维线性空间V的n个向量构成的正交向量组称为V的正交基,若该正交基的每个向量还是单位向量,则称为V的标准正交基
  • 定理:设 a 1 , a 2 ,   , a n a_1,a_2,\cdots,a_n 是线性空间V的一个正交基,则 x V , x = i = 1 n < a i , x > < a i , a i > a i \forall{x}\in{V},x=\sum_{i=1}^n\frac{<a_i,x>}{<a_i,a_i>}a_i
  • Gram-Schmidt正交化方法:任意n维线性空间V都有标准正交基,其标准正交基可从一n个向量的线性无关向量组 a 1 , a 2 ,   , a n a_1,a_2,\cdots,a_n 构造而得: b 1 = a 1 b 2 = a 2 < b 1 , a 1 > < b 1 , b 1 > b 1 b n = a n < b 1 , a n > < b 1 , b 1 > b 1 < b 2 , a n > < b 2 , b 2 > b 2 < b n 1 , a n > < b n 1 , b n 1 > b n 1 \begin{aligned}&b_1=a_1\\&b_2=a_2-\frac{<b_1,a_1>}{<b_1,b_1>}b_1\\&\cdots\cdots\cdots\\&b_n=a_n-\frac{<b_1,a_n>}{<b_1,b_1>}b_1-\frac{<b_2,a_n>}{<b_2,b_2>}b_2-\cdots-\frac{<b_{n-1},a_n>}{<b_{n-1},b_{n-1}>}b_{n-1}\end{aligned} 这就构造出了V的一个正交基,只要再将每个基向量单位化就得到了V的一个标准正交基。
  • 扩充定理:对任意r维线性空间V,V的任意一个线性无关组都可以扩充为V的一个基
    证明:
    对V中任意线性无关组U,若U含有r个向量,则U就是V的一个基。若U含有 n < r n\lt{r} 个向量,任取V的一个基 U U^{'} ,则存在 U U^{'} 中的一个向量x,x不能用U线性表示(用反证法:已知U可以用 U U^{'} 线性表示,假设 U U^{'} 可以用U线性表示,则U和 U U^{'} 是等价的,故它们含有的向量数相同,这与 n < r n\lt{r} 是矛盾的,故假设不成立)。所以 U x U\cup{\text{{x}}} 是线性无关的(若 U x U\cup{\text{{x}}} 是线性相关的,则由U线性无关知,x可由U线性表示,这是矛盾的)。将x加入U中。重复以上步骤,直到U含有r个向量,这就将开始时的U扩充为了V的一个基。得证。
  • a 1 , a 2 , . . . , a r a_1,a_2,...,a_r C n C^n 的一个线性无关向量组,则可通过如下方法将 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r 扩充为 C n C^n 的一个基:
    方法:
    A = [ a 1 a 2 a r ] A=\begin{bmatrix}a_1&a_2&\cdots&a_r\end{bmatrix} ,则A是一个列满秩矩阵,故可通过有限步初等行变换将A变换成它的秩标准形,即存在可逆矩阵P使得 P A = [ I r O ] PA=\begin{bmatrix}I_r\\O\end{bmatrix} 。设 B = P 1 [ I r O O I n r ] = P 1 B=P^{-1}\begin{bmatrix}I_r&O\\O&I_{n-r}\end{bmatrix}=P^{-1} ,则B是可逆矩阵,B的列向量组是 C n C^n 的一个基。由于 B = [ P 1 [ I r O ] P 1 [ O I n r ] ] = [ A P 1 [ O I n r ] ] B=\begin{bmatrix}{P^{-1}\begin{bmatrix}I_r\\O\end{bmatrix}}&{P^{-1}\begin{bmatrix}O\\I_{n-r}\end{bmatrix}}\end{bmatrix}=\begin{bmatrix}A&{P^{-1}\begin{bmatrix}O\\I_{n-r}\end{bmatrix}}\end{bmatrix} ,故B的列向量组包含了A的列向量组,这就将A的列向量组扩充为了 C n C^n 的一个基。实际求解时,只需求出使得PA是A的行最简形(即A的秩标准形)的可逆矩阵P,再取 P 1 P^{-1} 的列向量组即可。
    【注】进一步地,取 P 1 P^{-1} 的前i个 ( i > r ) (i\gt{r}) 列向量就是A的列向量组扩充为i个线性无关的向量的结果。
  • 设V是 C n C^n 的一个m维线性子空间,且 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r 是V中一组线性无关的向量,则可通过如下方法将 a 1 , a 2 , . . . , a r a_1,a_2,...,a_r 扩充为V的一个基:
    方法:
    b 1 , b 2 ,   , b m b_1,b_2,\cdots,b_m 是已知的V的一组基,设 B = [ b 1 b 2 b m ] B=\begin{bmatrix}b_1&b_2&\cdots&b_m\end{bmatrix} A = [ a 1 a 2 a r ] A=\begin{bmatrix}a_1&a_2&\cdots&a_r\end{bmatrix} ,A的列向量组可以用B的列向量组线性表示,设 a i = B x i a_i=Bx_i ,可以通过解线性方程组的方法求出每个 x i x_i ,设 X = [ x 1 x 2 x r ] X=\begin{bmatrix}x_1&x_2&\cdots&x_r\end{bmatrix} ,则 A = B X A=BX ,显然X是一个列满秩矩阵,可以通过扩充的方法(见上一条)将X扩充为 [ X X ] \begin{bmatrix}X&X^{'}\end{bmatrix} ,它有m个线性无关的列向量。显然 B [ X X ] B\begin{bmatrix}X&X^{'}\end{bmatrix} 的列向量组是线性无关的,且都在V内,故可作为V的一个基,又知它包含了A的列向量组,这就将A的列向量组扩充为了V的一个基。

矩阵的內积和范数

  • 矩阵的內积
    • 定义:任意 m × n m\times{n} 矩阵A、B,其內积定义为 < A , B > = t r ( A H B ) <A,B>=tr(A^HB)
    • 矩阵的內积具有如下性质(和向量的內积公理是一致的):
      • 共轭对称性 < A , B > = < B , A > <A,B>=\overline{<B,A>}
      • 加性 < A + B , C > = < A , C > + < B , C > <A+B,C>=<A,C>+<B,C>
      • 齐性 < k A , B > = k ˉ < A , B > , k C <kA,B>=\bar{k}<A,B>,k\in{C}
      • 非负性 < A , A > R < A , A > 0 <A,A>\in{R}\land{}<A,A>\geqslant{0} < A , A > = 0 <A,A>=0 的充要条件是 A = O A=O
      • < A , B + C > = < A , B > + < A , C > <A,B+C>=<A,B>+<A,C>
      • < A , k B > = k < A , B > , k C <A,kB>=k<A,B>,k\in{C}
        只证第4条性质(非负性),前面三条由方阵的迹的性质容易得出,最后两条可由其他几条性质推导得出:
        A m × n = ( a i j ) m × n A_{m\times{n}}=(a_{ij})_{m\times{n}} ,则 < A , A > = t r ( A H A ) = i , j a i j a i j = i , j a i j 2 <A,A>=tr(A^HA)=\sum_{i,j}\overline{a_{ij}}a_{ij}=\sum_{i,j}|a_{ij}|^2 是非负实数。 < A , A > = 0 <A,A>=0 的充要条件是 i , j a i j 2 = 0 \sum_{i,j}|a_{ij}|^2=0 ,即 A = O A=O 。得证。
  • 矩阵的范数
    • 范数公理
      矩阵A的范数 A ||A|| 必须是实值函数且具有如下性质:
      • A O , A > 0 ; O = 0 \forall{A}\neq{O},||A||\gt{0};||O||=0
      • c C , c A = c A \forall{c}\in{C},||cA||=|c|||A||
      • 三角不等式 A + B A + B ||A+B||\leqslant{}||A||+||B||
      • A B A B ||AB||\leqslant{}||A||||B||
    • 矩阵的Frobenius范数(如无特别说明,矩阵的范数就采用Frobenius范数)
      矩阵的Frobenius范数定义为 A = < A , A > = t r ( A H A ) = i , j a i j 2 ||A||=\sqrt{<A,A>}=\sqrt{tr(A^HA)}=\sqrt{\sum_{i,j}|a_{ij}|^2} ,其中 a i j a_{ij} 是A的第i行,第j列元素。
    • 矩阵內积和范数的关系
      • 柯西施瓦兹不等式
        < A , B > A B |<A,B>|\leqslant{}||A||||B||

【注】实际上,全体 m × n m\times{n} 矩阵构成了复数域 C C 上的一个线性空间,所以线性空间中的结论可以直接迁移到矩阵这里来。但需要注意的是,矩阵的范数公理比一般的向量空间的范数公理多了一条限制。

扫描二维码关注公众号,回复: 3378918 查看本文章

酋矩阵与线性变换

酋矩阵

  • 正交矩阵
    • 定义:如果实方阵A满足 A T A = A A T = I A^TA=AA^T=I ,则称A为正交矩阵
    • 定理:m阶实方阵A是正交矩阵的充要条件为A的列(行)向量组是 R m R^m 的一个标准正交基
  • 酋矩阵
    • 定义:如果复方阵A满足 A H A = A A H = I A^HA=AA^H=I ,则称A为酋矩阵,酋矩阵是实正交矩阵在复矩阵上的推广
    • 定理:m阶复方阵A是酋矩阵的充要条件为A的列(行)向量组是 C m C^m 的一个标准正交基
    • m阶酋矩阵U的性质
      • 实矩阵是酋矩阵的充要条件为它是正交矩阵
      • U 1 = U H U^{-1}=U^H
      • U 1 U^{-1} 也是酋矩阵
      • d e t ( U ) = 1 |det(U)|=1
      • 酋变换保持向量的內积不变: < U x , U y > = < x , y > , x , y C m <Ux,Uy>=<x,y>,x,y\in{C^m}
      • 酋变换保持向量的范数不变: U x = x , x C m ||Ux||=||x||,x\in{C^m}
      • 若A、B都是m阶酋矩阵,则AB是m阶酋矩阵
      • 若A、B分别是m阶、n阶酋矩阵,则 [ A O O B ] \begin{bmatrix}A&O\\O&B\end{bmatrix} 也是一个酋矩阵
        特例:若U是一个酋矩阵,则 [ I n O O U ] \begin{bmatrix}I_n&O\\O&U\end{bmatrix} 也是一个酋矩阵

线性变换(只讨论有限维空间)

  • 线性变换及其性质
    • 线性变换(线性映射)的定义:设V、W是数域F上的线性空间, T : V W T:V\to{W} 是一个映射,若 x , y V , a , b F , T ( a x + b y ) = a T ( x ) + b T ( y ) \forall{x,y}\in{V},\forall{a,b}\in{F},T(ax+by)=aT(x)+bT(y) 则称T是V到W的一个线性变换(线性映射)。V到W的线性变换的全体记为 L ( V , W ) L(V,W) ,V到V自身的线性变换全体记为 L ( V ) L(V) 。若 T L ( V ) T\in{L(V)} ,则称T是V上的线性算子。
    • 线性变换相等的定义:设 T , S L ( V , W ) T,S\in{}L(V,W) ,若 x V , T ( x ) = S ( x ) \forall{x}\in{V},T(x)=S(x) ,则称T和S相等
    • 线性变换的基本性质
      T L ( V , W ) T\in{L(V,W)} ,则
      • T ( 0 ) = 0 T(0)=0 (一般来说,任意线性空间的零元都记为0,故需区分不同线性空间中0的含义)
      • T ( x ) = T ( x ) T(-x)=-T(x)
      • T ( k 1 x 1 + + k m x m ) = k 1 T ( x 1 ) + + k m T ( x m ) , k i F T(k_1x_1+\cdots+k_mx_m)=k_1T(x_1)+\cdots+k_mT(x_m),k_i\in{F}
      • T把V中的线性相关向量组映射为W中的线性相关向量组
    • 定理:设V的一组基是 x 1 , x 2 ,   , x n x_1,x_2,\cdots,x_n ,则 T , S L ( V , W ) T,S\in{}L(V,W) 相等的充要条件为 T ( x i ) = S ( x i ) , i = 1 , 2 ,   , n T(x_i)=S(x_i),i=1,2,\cdots,n
    • 定义:设 T L ( V , W ) T\in{L(V,W)} k e r ( T ) = { x x V , T ( x ) = 0 } ker(T)=\{x|x\in{V},T(x)=0\} 称为T的核或零空间, R ( T ) = { T ( x ) x V } R(T)=\{T(x)|x\in{V}\} 称为T的值域或像空间
    • 定理: k e r ( T ) ker(T) 是V的一个子空间, R ( T ) R(T) 是W的一个子空间
    • 定义:称T的零空间的维数为T的零度,记为 n u l l i t y ( T ) = d i m   k e r ( T ) nullity(T)=dim\ ker(T) ;称T的像空间的维数为T的秩,记为 r a n k ( T ) = d i m   R ( T ) rank(T)=dim\ R(T)
    • 定理:设 d i m ( V ) = n dim(V)=n T L ( V , W ) T\in{L(V,W)} ,则存在V的一个基U, U = U 1 U 2 , U 1 U 2 = U=U_1\cup{U_2},U_1\cap{U_2}=\emptyset ,使得 U 1 U_1 k e r ( T ) ker(T) 的基, { T ( u ) u U 2 } \{T(u)|u\in{U_2}\} R ( T ) R(T) 的基
    • 秩加零度定理:设 d i m ( V ) = n dim(V)=n T L ( V , W ) T\in{L(V,W)} ,则nullity(T)+rank(T)=n
    • 定理:设 T L ( V , W ) , d i m ( V ) = n T\in{L(V,W)},dim(V)=n ,则以下命题是相互等价的
      • T是单射
      • k e r ( T ) = { 0 } ker(T)=\{0\}
      • T将V中的线性无关组映射为W中的线性无关组
      • r a n k ( T ) = n rank(T)=n
  • 线性变换的矩阵表示
    • 线性变换的矩阵:设V和W的维数分别是n和m, T L ( V , W ) T\in{L(V,W)} a 1 , a 2 ,   , a n a_1,a_2,\cdots,a_n b 1 , b 2 ,   , b m b_1,b_2,\cdots,b_m 分别是V和W的一组基。因为 T ( a i ) W T(a_i)\in{W} ,故存在唯一的矩阵 A m × n A_{m\times{n}} 使得 [ T ( a 1 ) T ( a n ) ] = [ b 1 b m ] A \begin{bmatrix}T(a_1)&\cdots&T(a_n)\end{bmatrix}=\begin{bmatrix}b_1&\cdots&b_m\end{bmatrix}A ,称矩阵A是T在给定的基下的矩阵,简称是T的矩阵
    • 定理:设 T L ( V , W ) T\in{L(V,W)} ,V中向量 v v 在V的基 a 1 , a 2 ,   , a n a_1,a_2,\cdots,a_n 下的坐标为x, T ( v ) T(v) 在W的基 b 1 , b 2 ,   , b m b_1,b_2,\cdots,b_m 下的坐标是y,则 y = A x y=Ax ,其中A是T在给定的基下的矩阵
      证明: T ( v ) = T ( [ a 1 a n ] x ) = [ T ( a 1 ) T ( a n ) ] x = [ b 1 b m ] A x \begin{aligned}T(v)&=T(\begin{bmatrix}a_1&\cdots&a_n\end{bmatrix}x)\\&=\begin{bmatrix}T(a_1)&\cdots&T(a_n)\end{bmatrix}x\\&=\begin{bmatrix}b_1&\cdots&b_m\end{bmatrix}Ax\end{aligned} 另一方面 T ( v ) = [ b 1 b m ] y T(v)=\begin{bmatrix}b_1&\cdots&b_m\end{bmatrix}y ,故由基下的坐标的唯一性得 y = A x y=Ax 。得证。

矩阵的特征值

  • 定义:设A是一个n阶方阵,若 λ C , x C n , x 0 \exists{\lambda}\in{C},x\in{C^n},x\neq{0} 使得 A x = λ x Ax=\lambda{x} ,或者等价地 ( λ I A ) x = 0 (\lambda{I}-A)x=0 ,则称 λ \lambda 是A的一个特征值, x x 是A的对应于 λ \lambda 的一个特征向量
  • 定理: λ \lambda 是n阶方阵A的特征值的充要条件为 d e t ( λ I A ) = 0 det(\lambda{}I-A)=0
  • 定义: d e t ( λ I A ) = 0 det(\lambda{}I-A)=0 称为A的特征方程;关于 λ \lambda 的一元n次多项式 d e t ( λ I A ) det(\lambda{}I-A) 称为A的特征多项式;若 λ \lambda 是A的特征值,则齐次线性方程组 ( λ I A ) x = 0 (\lambda{I}-A)x=0 的解空间称为 λ \lambda 的特征子空间
  • 定义:若方阵A的特征值 λ \lambda 是A的特征方程的k重根,则称k是 λ \lambda 的代数重数; λ \lambda 的特征子空间的基所含向量个数为 λ \lambda 的几何重数
  • 定理:n阶方阵A的全部不同特征值的代数重数之和为n
  • 定理:方阵A的任意特征值的几何重数小于等于代数重数
  • 定理:设 λ 1 , λ 2 ,   , λ s \lambda{}_1,\lambda{}_2,\cdots,\lambda{}_s 是A的互不相同的特征值, x i 1 , x i 2 ,   , x i j i x_{i1},x_{i2},\cdots,x_{ij_i} 是A关于 λ i \lambda{}_i 的线性无关的特征向量,则 x 11 ,   , x 1 j 1 , x 21 ,   , x 2 j 2 ,   , x s 1 ,   , x s j s x_{11},\cdots,x_{1j_1},x_{21},\cdots,x_{2j_2},\cdots,x_{s1},\cdots,x_{sj_s} 是线性无关的
    证明:(数学归纳法)
    当s=1时,显然命题成立。
    假设当s=i时,命题成立,则当s=i+1时,设 k 11 x 11 + + k 1 j 1 x 1 j 1 + k 21 x 21 + + k 2 j 2 x 2 j 2 + + k s 1 x s 1 + + k s j s x s j s = 0 k_{11}x_{11}+\cdots+k_{1j_1}x_{1j_1}+k_{21}x_{21}+\cdots+k_{2j_2}x_{2j_2}+\cdots+k_{s1}x_{s1}+\cdots+k_{sj_s}x_{sj_s}=0
    用A左乘两端并整理得: λ 1 ( k 11 x 11 + + k 1 j 1 x 1 j 1 ) + + λ s ( k s 1 x s 1 + + k s j s x s j s ) = 0 \lambda{}_1(k_{11}x_{11}+\cdots+k_{1j_1}x_{1j_1})+\cdots+\lambda{}_s(k_{s1}x_{s1}+\cdots+k_{sj_s}x_{sj_s})=0 由以上两式消去 k s 1 x s 1 + + k s j s x s j s k_{s1}x_{s1}+\cdots+k_{sj_s}x_{sj_s} ( λ s λ 1 ) ( k 11 x 11 + + k 1 j 1 x 1 j 1 ) + + ( λ s λ s 1 ) ( k ( s 1 ) 1 x ( s 1 ) 1 + + k ( s 1 ) j s 1 x ( s 1 ) j s 1 ) = 0 (\lambda{}_s-\lambda{}_1)(k_{11}x_{11}+\cdots+k_{1j_1}x_{1j_1})+\cdots+(\lambda{}_s-\lambda{}_{s-1})(k_{(s-1)1}x_{(s-1)1}+\cdots+k_{(s-1)j_{s-1}}x_{(s-1)j_{s-1}})=0 由特征值互不相等及假设知 k 11 = = k 1 j 1 = = k ( s 1 ) 1 = = k ( s 1 ) j s 1 = 0 k_{11}=\cdots=k_{1j_1}=\cdots=k_{(s-1)1}=\cdots=k_{(s-1) j_{s-1}}=0 k s 1 x s 1 + + k s j s x s j s = 0 k_{s1}x_{s1}+\cdots+k_{sj_s}x_{sj_s}=0 ,由题设知 k s 1 = = k s j s = 0 k_{s1}=\cdots=k_{sj_s}=0 ,故命题对s=i+1时也成立。故由归纳假设,原命题成立。得证。
  • 特征值与迹、行列式的关系
    设n阶方阵A的特征值是 λ 1 , λ 2 ,   , λ n \lambda{}_1,\lambda{}_2,\cdots,\lambda{}_n (重特征值按重数算),则
    • d e t ( A ) = λ 1 λ 2 λ n det(A)=\lambda{}_1\lambda{}_2\cdots\lambda{}_n
    • t r ( A ) = λ 1 + λ 2 + + λ n tr(A)=\lambda{}_1+\lambda{}_2+\cdots+\lambda{}_n
  • 特殊矩阵的特征值与特征向量
    • λ \lambda{} 是n阶对角矩阵A的特征值的充要条件为 λ \lambda{} 是A的主对角元
    • λ \lambda{} 是上(下)三角矩阵A的特征值的充要条件为 λ \lambda{} 是A的主对角元
    • n阶对角矩阵A有n个线性无关的特征向量
      证明:
      设A的所有互不相同的特征值为 λ 1 , λ 2 ,   , λ s \lambda{}_1,\lambda{}_2,\cdots,\lambda{}_s ,相应地代数重数为 j 1 , j 2 ,   , j s j_1,j_2,\cdots,j_s ,考虑A的特征方程 ( λ i I A ) x = 0 (\lambda{}_iI-A)x=0 ,易验证 r ( λ i I A ) = n j i r(\lambda{}_iI-A)=n-j_i ,故 ( λ i I A ) x = 0 (\lambda{}_iI-A)x=0 的基础解系解向量的个数为 j i j_i ,求出A的每个特征值对应的特征方程的基础解系,就能得到 i = 1 s j i = n \sum_{i=1}^sj_i=n 个线性无关的特征向量。得证。
  • A A H AA^H A H A A^HA 的特征值(很重要,在奇异值分解中要用到)
    • A A H AA^H A H A A^HA 的特征值均为非负实数
      证明:
      考虑特征方程 A A H x = λ x AA^Hx=\lambda{x} ,用 x H x^H 左乘两端得 x H A A H x = ( A H x ) H ( A H x ) = λ x H x x^HAA^Hx=(A^Hx)^H(A^Hx)=\lambda{}x^Hx ,即 A H x 2 = λ x 2 ||A^Hx||^2=\lambda{}||x||^2 ,故 A A H AA^H 的特征值均为非负实数。同理可证 A H A A^HA 的特征值均为非负实数。得证。
    • A A H AA^H A H A A^HA 的非零特征值相同(即二者中任意一者的任意非零特征值都是另一者的非零特征值)
      证明:
      考虑 A A H AA^H 的特征方程 A A H x = λ x , λ 0 , x 0 AA^Hx=\lambda{}x,\lambda{}\neq0,x\neq0 ,设 y = A H x y=A^Hx ,由 A H x 2 = λ x 2 ||A^Hx||^2=\lambda{}||x||^2 A H x > 0 ||A^Hx||\gt0 ,故 y 0 y\neq0 。用 A H A^H 左乘 A A H x = λ x AA^Hx=\lambda{x} 两端得 A H A y = λ y A^HAy=\lambda{y} ,可见 λ \lambda 也是 A H A A^HA 的特征值。同理可证 A H A A^HA 的非零特征值都是 A A H AA^H 的特征值。得证。
    • A A H AA^H A H A A^HA 的同一个非零特征值的几何重数相等
      证明:
      λ \lambda{} A A H AA^H A H A A^HA 的一个非零特征值,设 A A H AA^H 的特征方程 ( λ I A A H ) x = 0 (\lambda{}I-AA^H)x=0 的一个基础解系为 x 1 , x 2 ,   , x s x_1,x_2,\cdots,x_s ,则 A H x 1 , A H x 2 ,   , A H x s A^Hx_1,A^Hx_2,\cdots,A^Hx_s 都是 A H A A^HA 关于 λ \lambda 的特征向量。设 k 1 A H x 1 + + k s A H x s = 0 k_1A^Hx_1+\cdots+k_sA^Hx_s=0 ,用 A A 左乘该式两端得 λ ( k 1 x 1 + + k s x s ) = 0 \lambda{}(k_1x_1+\cdots+k_sx_s)=0 ,由于 λ 0 \lambda{}\neq0 ,所以 k 1 x 1 + + k s x s = 0 k_1x_1+\cdots+k_sx_s=0 ,故 k 1 = = k s = 0 k_1=\cdots=k_s=0 ,故 A H x 1 , A H x 2 ,   , A H x s A^Hx_1,A^Hx_2,\cdots,A^Hx_s 是线性无关的。这说明 A H A A^HA 的特征值 λ \lambda 的特征子空间的维数不小于 A A H AA^H 。同理可证 A A H AA^H 的特征值 λ \lambda 的特征子空间的维数不小于 A H A A^HA 。原命题得证。
    • A A H AA^H A H A A^HA 的同一个非零特征值的代数重数相等
      证明:由Sylvester定理(在下一节相似变换的最后)的证明直接可得。
      【注】以上结论都限定在特征值非零的情况下,这是因为可能 A A H AA^H A H A A^HA 两者中一个有零特征值,而另一个没有零特征值。例如,设A是 m × n m\times{n} 矩阵,当 m > n m>n 且A列满秩时,容易证明0一定是 A A H AA^H 的一个特征值,而一定不是 A H A A^HA 的一个特征值。

相似变换与相似对角化

  • 相似矩阵及其性质
    • 定义:设A、B均为n阶方阵,若存在可逆矩阵P使得 P 1 A P = B P^{-1}AP=B ,则称A和B相似;如果P是一个酋矩阵,则称A和B酋相似
    • 若n阶方阵A和B相似,则有以下结论:
      • r ( A ) = r ( B ) r(A)=r(B)
      • d e t ( A ) = d e t ( B ) det(A)=det(B)
      • t r ( A ) = t r ( B ) tr(A)=tr(B)
      • A和B的特征值相同
      • A和B的同一特征值的代数重数相同
      • A和B的同一特征值的几何重数相同
        第4、5条的证明:
        d e t ( λ I B ) = d e t ( λ I P 1 A P ) = d e t ( P 1 ( λ I A ) P ) = d e t ( P 1 ) d e t ( λ I A ) d e t ( P ) = d e t ( λ I A ) det(\lambda{I}-B)=det(\lambda{I}-P^{-1}AP)=det(P^{-1}(\lambda{I}-A)P)\\=det(P^{-1})det(\lambda{I}-A)det(P)=det(\lambda{I}-A) 即A和B的特征多项式相同,从而得证。
        第6条的证明:
        r ( λ I B ) = r ( λ I P 1 A P ) = r ( P 1 ( λ I A ) P ) = r ( λ I A ) r(\lambda{I}-B)=r(\lambda{I}-P^{-1}AP)=r(P^{-1}(\lambda{I}-A)P)=r(\lambda{I}-A) ( λ I A ) x = 0 (\lambda{I}-A)x=0 ( λ I B ) x = 0 (\lambda{I}-B)x=0 的基础解系解向量个数相同(均为 n r ( λ I A ) n-r(\lambda{I}-A) ),得证。
    • Sylvester定理(结论其实不重要,重点看证明过程)
      Sylvester定理
      【注】因为 C 1 C_1 C 2 C_2 相似,故它们的特征值相同,且同一特征值的代数重数相等、几何重数相等。由此可知,它们的同一个非零特征值的代数重数相等、几何重数相等。注意到 C 1 C_1 的非零特征值就是 B A BA 的非零特征值, C 2 C_2 的非零特征值就是 A B AB 的非零特征值,故 B A BA A B AB 的同一个非零特征值的代数重数相等、几何重数相等。
  • 相似对角化及其条件
    • 定义:若方阵A相似于一个对角矩阵,则称A可对角化
    • 定理:n阶方阵A可对角化的充要条件为A有n个线性无关的特征向量
      充要条件
      【注】定理的证明过程说明,可逆矩阵P的列向量组是A的n个线性无关的特征向量;P的列向量组的排列顺序和对角矩阵对角元(特征值)的排列顺序是相对应的。
    • 定理:方阵A可对角化的充要条件为A的每个特征值的几何重数等于代数重数

零矩阵的判定方法

  • r ( A ) = 0 r(A)=0 ,则 A = O A=O
  • 若存在列满秩矩阵B,使得 B A = O BA=O ,则 A = O A=O
    证明:由 r ( A ) = r ( B A ) = 0 r(A)=r(BA)=0 立即可得。
  • 若存在行满秩矩阵B,使得 A B = O AB=O ,则 A = O A=O
    证明:由 r ( A ) = r ( A B ) = 0 r(A)=r(AB)=0 立即可得。
  • 若对任意 x C n , x 0 x\in{C^n},x\neq0 ,有 A m × n x = 0 A_{m\times{n}}x=0 ,则 A = O A=O (注意,将条件改为 x R n x\in{R^n} 也成立,即使A是个复矩阵)
    证明:
    任取一复的(或实的)行满秩矩阵 B n × k B_{n\times{k}} ,对B的任意一个列向量x,都有 A x = 0 Ax=0 ,故 A B = O AB=O ,故 A = O A=O
  • 若对任意行向量x, x T C n , x 0 x^T\in{C^n},x\neq0 ,有 x A n × m = 0 T xA_{n\times{m}}=0^T ,则 A = O A=O (注意,将条件改为 x T R n x^T\in{R^n} 也成立,即使A是个复矩阵)
    证明:
    由已知,对 x T C n , A T x T = 0 \forall{x^T}\in{C^n},A^Tx^T=0 ,故 A T = O A^T=O ,故 A = O A=O
  • t r ( A H A ) = 0 tr(A^HA)=0 (或 t r ( A A H ) = 0 tr(AA^H)=0 ),则 A = O A=O ;当A是实矩阵时,若 t r ( A T A ) = 0 tr(A^TA)=0 (或 t r ( A A T ) = 0 tr(AA^T)=0 ),则 A = O A=O
    证明:
    见矩阵的范数公理。
  • r ( A B ) = r ( B ) r(AB)=r(B) ,则对任意矩阵C, A B C = O ABC=O 的充要条件是 B C = O BC=O
    证明:充分性显然。
    必要性:因为 r ( A B ) = r ( B ) r(AB)=r(B) ,故齐次线性方程组 A B x = 0 ABx=0 B x = 0 Bx=0 是同解方程组。由 A B C = O ABC=O 知C的每个列向量都是 A B x = 0 ABx=0 的解,故也都是 B x = 0 Bx=0 的解,故 B C = O BC=O
  • r ( B C ) = r ( B ) r(BC)=r(B) ,则对任意矩阵A, A B C = O ABC=O 的充要条件是 A B = O AB=O
    证明:由已知, r ( C H B H ) = r ( B H ) r(C^HB^H)=r(B^H) ,故 C H B H A H = O C^HB^HA^H=O 的充要条件是 B H A H = O B^HA^H=O ,故 A B C = O ABC=O 的充要条件是 A B = O AB=O

猜你喜欢

转载自blog.csdn.net/niu_123ming/article/details/82846096