高等代数笔记5:线性变换

线性映射的定义与性质

线性映射的定义

数学研究的主题是空间与变换,对于代数学而言,空间指的是赋予了某种运算结构的集合,变换则是空间到空间的映射。线性代数则是研究线性空间及其上的映射。但是,研究的对象不是所有的映射,而是特殊的一类映射,这类映射和线性运算紧密联系,称为线性映射。

定义5.1 V 1 , V 2 V_1,V_2 K K 的两个线性空间, f : V 1 V 2 f:V_1\to V_2 V 1 V_1 V 2 V_2 的映射,如果满足:
k 1 , k 2 K , x 1 , x 2 V 1 \forall k_1,k_2\in K,\forall x_1,x_2\in V_1 都有
f ( k 1 x 1 + k 2 x 2 ) = k 1 f ( x 1 ) + k 2 f ( x 2 ) f(k_1x_1+k_2x_2)=k_1f(x_1)+k_2f(x_2) 则称 f f V 1 V_1 V 2 V_2 (定义在 V 1 V_1 ,取值于 V 2 V_2 )的线性映射

在线性代数中,我们称这类映射为线性映射,在泛函分析中,我们称这类映射为线性算子。

定义5.2 V V K K 的线性空间, V V V V 的线性映射称为 V V 上的线性变换

线性变换就是线性空间自己到自己的线性映射,是一类特殊的线性映射。当然,线性映射的例子相当多,就前面的矩阵代数而言
y = A x y=Ax 就是就是 K n K^n K m K^m 的线性映射,平面解析几何和空间解析几何中的伸缩、旋转都是线性映射。另外, K K 也是 K K 上的线性空间, V V K K 的线性映射是一个函数,称为线性函数,在泛函分析中称为线性泛函。在有限维线性空间的情形下,要把握一个线性映射其实相当简单。设 V 1 V_1 n n 维线性空间, e 1 , , e n e_1,\cdots,e_n V 1 V_1 的一组基, V 2 V_2 m m 维线性空间, ε 1 , , ε m \varepsilon_1,\cdots,\varepsilon_m V 2 V_2 的一组基。对任意的 x V 1 x\in V_1 x x 可唯一表为
x = k 1 e 1 + + k n e n x=k_1e_1+\cdots+k_ne_n 对任意的线性映射 f : V 1 V 2 f:V_1\to V_2 ,就有
f ( x ) = k 1 f ( e 1 ) + + k n f ( e n ) f(x)=k_1f(e_1)+\cdots+k_nf(e_n) 也就是说,要把握 f f 的象,只需要把握 f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 即可。只要把握了基的象,全空间的象戳手可得,这是线性映射相对于其他映射的良好性质。对于一个映射,我们还关心映射是否是单射,又是否是满射。下面我们来给出判断线性映射是单射还是满射的条件。

线性映射的单射与线性空间的同构

定理5.1 V 1 , V 2 V_1,V_2 K K 上的线性空间, f : V 1 V 2 f:V_1\to V_2 是线性映射,则 f f 是单射的充要条件是 0 0 的原象只能是 0 0

证:
必要性是显然的,仅证充分性,如果 f 1 ( 0 ) = 0 f^{-1}(0)={0} ,则若 f ( x 1 ) = f ( x 2 ) f(x_1)=f(x_2) ,就有 f ( x 1 x 2 ) = 0 f(x_1-x_2)=0 ,可以推出
x 1 x 2 = 0 x_1-x_2=0 因此 f f 是单射

我们注意到,线性映射是否是单射,只与 0 0 的原象有关系,我们定义
ker ( f ) = { x V 1 : f ( x ) = 0 } \ker(f) = \{x\in V_1:f(x)=0\} 容易验证 ker ( f ) \ker(f) V 1 V_1 的子空间,如果 ker ( f ) = { 0 } \ker(f)=\{0\} ,那么 f f 是单射,否则不是单射。 ker ( f ) \ker(f) 又称为 f f 的核空间或零空间。我们知道,把握 f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 就可以把握线性映射的像,因此,又可以从 f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 的线性相关性和线性无关性给出判断单射的条件。

定理5.2 V 1 , V 2 V_1,V_2 K K 上的线性空间, f : V 1 V 2 f:V_1\to V_2 是线性映射, e 1 , , e n e_1,\cdots,e_n V 1 V_1 的一组基,则 f f 是单射的充分必要条件是 f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 线性无关

证:
充分性,如果 f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 线性无关,对任意的 x = x 1 e 1 + + x n e n x=x_1e_1+\cdots+x_ne_n ,若满足 f ( x ) = 0 f(x)=0 ,则
x 1 f ( e 1 ) + x 2 f ( e 2 ) + + x n f ( e n ) = 0 x_1f(e_1)+x_2f(e_2)+\cdots+x_nf(e_n)=0 f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 线性无关,可以推出 x 1 = x 2 = = x n = 0 x_1=x_2=\cdots=x_n=0 x = 0 x=0 ,因此, f f 是单射
必要性,如果 f f 是单射,而 f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 线性相关,存在不全为0的 k 1 , , k n k_1,\cdots,k_n ,使得
k 1 f ( e 1 ) + + k n f ( e n ) = f ( k 1 e 1 + + k n e n ) = 0 k_1f(e_1)+\cdots+k_nf(e_n)=f(k_1e_1+\cdots+k_ne_n)=0 x = k 1 e 1 + + k n e n x=k_1e_1+\cdots+k_ne_n x 0 x\neq 0 ker ( f ) { 0 } \ker(f)\neq \{0\} f f 不是单射,矛盾,因此, f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 线性无关

如果线性映射 f f 即是单射,又是满射,那么 f f 的逆映射存在。并且,容易验证: f 1 f^{-1} 也是线性映射。设 V 1 V_1 的一组基为 e 1 , , e n e_1,\cdots,e_n ,由于 f f 是单射,这样,就可以得出结论: f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) 线性无关,但 f f 又是满射,任意 y V 2 y\in V_2 都可以找到原象,从而可以得出结论: f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) V 2 V_2 的一组基, f f 在两组基之间搭起一个桥梁,这样,我们可以视 V 1 , V 2 V_1,V_2 为同一个线性空间,只不过,在 V 1 V_1 上,基表现为 e 1 , , e n e_1,\cdots,e_n ,在 V 2 V_2 上,基表现 f ( e 1 ) , , f ( e n ) f(e_1),\cdots,f(e_n) ,两个线性空间除了元素的形式不同外,没有其他本质的差别,就称 V 1 , V 2 V_1,V_2 同构。

定义5.3 V 1 , V 2 V_1,V_2 K K 上的两个线性空间,如果存在 V 1 V_1 V 2 V_2 的线性映射 f f f f 既是单射,又是满射,则称 f f V 1 V_1 V 2 V_2 的同构映射, V 1 V_1 V 2 V_2 同构

通过前面论述又不难有以下结论:

命题5.1 V 1 , V 2 V_1,V_2 K K 上的两个有限维线性空间, V 1 , V 2 V_1,V_2 同构的充分必要条件为 dim ( V 1 ) = dim ( V 2 ) \dim(V_1)=\dim(V_2)

证:
必要性前面已经证明,仅证充分性:
dim ( V 1 ) = dim ( V 2 ) \dim(V_1)=\dim(V_2) ,要证明 V 1 , V 2 V_1,V_2 同构,就要构造 V 1 V_1 V 2 V_2 的一个同构映射,设 e 1 , , e n e_1,\cdots,e_n V 1 V_1 的一组基, ε 1 , , ε n \varepsilon_1,\cdots,\varepsilon_n V 2 V_2 的一组基,构造映射 f : V 1 V 2 f:V_1\to V_2
f ( k 1 e 1 + + k n e n ) = k 1 ε 1 + + k n ε n f(k_1e_1+\cdots+k_ne_n)=k_1\varepsilon_1+\cdots+k_n\varepsilon_n f ( e i ) = ε i , i = 1 , , n f(e_i)=\varepsilon_i,i=1,\cdots,n ,并且 f f 是线性映射,并且由构造容易知道 f f 既是单射,又是满射。

于是,任意 K K 上的 n n 维线性空间,都与 K n K^n 同构,从某种意义上来看,虽然抽象的线性空间十分抽象,不好把握,但是,其实质就是 n n 维向量空间。

线性映射的运算的空间

线性映射也可以作为集合的元素构成线性空间。我们记 V 1 V 2 V_1\to V_2 的全体线性映射为 M ( V 1 , V 2 ) M(V_1,V_2) ,记 V V 上的线性变换为 M ( V ) M(V) f 1 , f 2 M ( V 1 , V 2 ) f_1,f_2\in M(V_1,V_2) ,定义 f 1 + f 2 : V 1 V 2 f_1+f_2:V_1\to V_2 ,对任意的 x V 1 x\in V_1
( f 1 + f 2 ) ( x ) = f 1 ( x ) + f 2 ( x ) (f_1+f_2)(x)=f_1(x)+f_2(x) 对任意的 k K k\in K ,定义 k f : V 1 V 2 kf:V_1\to V_2 ,对任意的 x V 1 x\in V_1
( k f ) ( x ) = k f ( x ) (kf)(x)=kf(x) 只需要验证其满足线性空间的八条运算性质即可:
(1) ( f 1 + f 2 ) ( x ) = f 1 ( x ) + f 2 ( x ) = f 2 ( x ) + f 1 ( x ) = ( f 2 + f 1 ) ( x ) , x V 1 (f_1+f_2)(x)=f_1(x)+f_2(x)=f_2(x)+f_1(x)=(f_2+f_1)(x),\forall x\in V_1
(2) ( f 1 + f 2 + f 3 ) ( x ) = f 1 ( x ) + f 2 ( x ) + f 3 ( x ) = f 1 ( x ) + ( f 2 ( x ) + f 3 ( x ) ) = ( f 1 + ( f 2 + f 3 ) ) ( x ) (f_1+f_2+f_3)(x)=f_1(x)+f_2(x)+f_3(x)=f_1(x)+(f_2(x)+f_3(x))=(f_1+(f_2+f_3))(x)
(3) 0 : V 1 V 2 0:V_1\to V_2 定义成任意元素都映射为0, 0 + f = f 0+f=f
(4) f M ( V 1 , V 2 ) , f = ( 1 ) . f \forall f \in M(V_1,V_2),-f = (-1).f
其他四条验证是类似的, M ( V 1 , V 2 ) M(V_1,V_2) 构成一个线性空间,自然地, M ( V ) M(V) 也是一个线性空间。

M ( V ) M(V) 有着一般线性空间没有的运算就是运算的复合,就是运算的乘法。 f 1 , f 2 M ( V ) \forall f_1,f_2\in M(V) f 1 f 2 f_1f_2 定义为 x V \forall x \in V ( f 1 f 2 ) ( x ) = f 1 ( f 2 ( x ) ) (f_1f_2)(x)=f_1(f_2(x)) ,容易验证 f 1 f 2 f_1f_2 还是 V V 上的线性变换,这样, M ( V ) M(V) 上可以定义出多项式。这里我们不再做详细的论述。

线性映射与矩阵

下面我们讨论线性映射和矩阵的关系。假设 f f V 1 V_1 V 2 V_2 的线性映射,其中, V 1 V_1 V 2 V_2 都是 K K 上的有限维线性空间, dim ( V 1 ) = n \dim(V_1)=n dim ( V 2 ) = m \dim(V_2)=m ,设 e 1 , , e n e_1,\cdots,e_n V 1 V_1 的一组基, b 1 , , b m b_1,\cdots,b_m V 2 V_2 的一组基。则
{ f ( e 1 ) = a 11 b 1 + + a 1 m b m f ( e 2 ) = a 21 b 1 + + a 2 m b m f ( e n ) = a n 1 b 1 + + a n m b m \begin{cases} f(e_1)=a_{11}b_1+\cdots+a_{1m}b_m\\ f(e_2)=a_{21}b_1+\cdots+a_{2m}b_m\\ \cdots\\ f(e_n)=a_{n1}b_1+\cdots+a_{nm}b_m \end{cases} 可以看到,以上方程式就类似于线性方程组,我们也写成形式矩阵乘法的形式:
f ( e 1 , , e n ) = ( b 1 , , b m ) A f(e_1,\cdots,e_n)=(b_1,\cdots,b_m)A 其中矩阵
A = [ a 11 a 21 a n 1 a 12 a 22 a n 2 a 1 m a 2 m a n m ] A=\left[ \begin{matrix} a_{11}&a_{21}&\cdots&a_{n1}\\ a_{12}&a_{22}&\cdots&a_{n2}\\ \cdots\\ a_{1m}&a_{2m}&\cdots&a_{nm} \end{matrix}\right] 当然也可以写成转置的形式,这里不再赘述。 A A 就称为 f f 在基 e 1 , , e n e_1,\cdots,e_n b 1 , , b m b_1,\cdots,b_m 下的矩阵。如果 f f V V 上的线性变换, dim ( V ) = n < \dim(V)=n<\infty ,任取 e 1 , , e n e_1,\cdots,e_n V V 的一组基,则
{ f ( e 1 ) = a 11 e 1 + a 12 e 2 + + a 1 n e n f ( e 2 ) = a 21 e 1 + a 22 e 2 + + a 2 n e n f ( e n ) = a n 1 e 1 + a n 2 e 2 + + a n n e n \begin{cases} f(e_1)=a_{11}e_1+a_{12}e_2+\cdots+a_{1n}e_n\\ f(e_2)=a_{21}e_1+a_{22}e_2+\cdots+a_{2n}e_n\\ \cdots\\ f(e_n)=a_{n1}e_1+a_{n2}e_2+\cdots+a_{nn}e_n \end{cases} 写成形式矩阵的形式即为
f ( e 1 , , e n ) = ( e 1 , , e n ) A f(e_1,\cdots,e_n)=(e_1,\cdots,e_n)A
其中
A = [ a 11 a 21 a n 1 a 12 a 22 a n 2 a 1 n a 2 n a n n ] A=\left[\begin{matrix} a_{11}&a_{21}&\cdots&a_{n1}\\ a_{12}&a_{22}&\cdots&a_{n2}\\ \cdots\\ a_{1n}&a_{2n}&\cdots&a_{nn} \end{matrix}\right] A A 就称为线性变换 f f e 1 , , e n e_1,\cdots,e_n 下的矩阵。对线性映射,我们需要两组基确定一个矩阵,但对线性变换,只需要一组基就可以确定一个矩阵。对线性映射 f : V 1 V 2 f:V_1\to V_2 ,对于确定的两组基,就可以确定一个唯一的矩阵,反过来,给定两组基,给定一个矩阵,可以构造出一个线性映射,对于线性变换亦是如此,这就说明,线性映射空间 M ( V 1 , V 2 ) M(V_1,V_2) 和相应的矩阵空间是一一对应的,并且还是线性同构的,容易验证: α 1 f 1 + α 2 f 2 \alpha_1f_1+\alpha_2f_2 在两组基下的矩阵等于各自在这两组基下矩阵的线性组合,说明 M ( V 1 , V 2 ) M(V_1,V_2) 到矩阵空间的这一一对一映射还是线性映射。为了说明这点,我们简单验证一点性质即可
f , g f,g V 1 V_1 V 2 V_2 的线性映射, e 1 , , e n e_1,\cdots,e_n V 1 V_1 的一组基, ε 1 , , ε m \varepsilon_1,\cdots,\varepsilon_m V 2 V_2 的一组基, f f e 1 , , e n e_1,\cdots,e_n ε 1 , , ε m \varepsilon_1,\cdots,\varepsilon_m 的矩阵是 A A ,而 g g 在两组基下的矩阵是 B B ,则 α f + β g \alpha f+\beta g 在这两组基下的矩阵为 α A + β B \alpha A+\beta B
假设 A = ( a i j ) , B = ( b i j ) A=(a_{ij}),B=(b_{ij}) ,则
f ( e j ) = i = 1 m a i j ε i j = 1 , , n f(e_j)=\sum_{i=1}^m{a_{ij}\varepsilon_i}\quad j=1,\cdots,n 同样地
g ( e j ) = i = 1 m b i j ε i j = 1 , , n g(e_j)=\sum_{i=1}^m{b_{ij}\varepsilon_i}\quad j=1,\cdots,n 于是,就有
( α f + β g ) ( e j ) = i = 1 m ( α a i j + β b i j ) ε i j = 1 , , n (\alpha f+\beta g)(e_j)= \sum_{i=1}^m{(\alpha a_{ij}+\beta b_{ij})\varepsilon_i}\quad j=1,\cdots,n 这就验证了 α f + β g \alpha f+\beta g 在两组基下的矩阵为 α A + β B \alpha A+\beta B 。同样地, M ( V ) M(V) M n ( K ) M_n(K) 是线性同构的。据此,我们可以提出如下的观点,在线性代数领域:
矩阵是线性映射的矩阵

矩阵和线性映射的关系可以总结为:
(1)矩阵是线性映射的矩阵,是线性映射的具体表现
(2)矩阵为线性映射的相关计算提供了手段
不仅如此,还容易验证,线性映射复合的矩阵就等于矩阵的乘法。这样,我们就把抽象的线性空间上的线性映射和具体的矩阵联系在了一起。矩阵运算都有了相应的意义。

接下来的一个问题是:对于同一个线性变换 f M ( V ) f\in M(V) ,其中, dim ( V ) = n \dim(V)=n ,选择不同的基,线性变换的在不同基下的矩阵有何关系呢?在引出线性映射的矩阵时,我们给出了一种形式矩阵的运算。我们先给出形式矩阵运算的一个基本性质。
e 1 , , e n e_1,\cdots,e_n V V 的一个向量组, A A 是一个 n n 阶矩阵, B B 也是一个 n n 阶矩阵,则
[ ( e 1 , , e n ) A ] B = ( e 1 , , e n ) ( A B ) [(e_1,\cdots,e_n)A]B=(e_1,\cdots,e_n)(AB) 其中 A A n × m n\times m 矩阵, B B m × k m\times k 矩阵,只需要作简单的验证即可。设 A = ( a i j ) , B = ( b i j ) A=(a_{ij}),B=(b_{ij}) ,则\
( β 1 , , β m ) = ( e 1 , , e n ) A (\beta_1,\cdots,\beta_m)=(e_1,\cdots,e_n)A ,则
β i = j = 1 n a i j e j i = 1 , , m \beta_i=\sum_{j=1}^n{a_{ij}e_j}\quad i=1,\cdots,m 再设 ( γ 1 , , γ k ) = ( β 1 , , β m ) B (\gamma_1,\cdots,\gamma_k)=(\beta_1,\cdots,\beta_m)B ,于是
γ i = s = 1 m b s i β s = s = 1 m b s i ( j = 1 n a j s e j ) = j = 1 n s = 1 m ( a j s b s i ) e j \gamma_i=\sum_{s=1}^m{b_{si}\beta_s}= \sum_{s=1}^mb_{si}(\sum_{j=1}^na_{js}e_j) =\sum_{j=1}^n\sum_{s=1}^m{(a_{js}b_{si})e_j} 其中 i = 1 , , k i=1,\cdots,k ,这就验证了
( γ 1 , , γ k ) = ( e 1 , , e n ) ( A B ) (\gamma_1,\cdots,\gamma_k)=(e_1,\cdots,e_n)(AB) 假设线性变换 f f 在基 e 1 , , e n e_1,\cdots,e_n 下的矩阵为 A A ,就有
( f ( e 1 ) , , f ( e n ) ) = ( e 1 , , e n ) A (f(e_1),\cdots,f(e_n))=(e_1,\cdots,e_n)A 再假设 β 1 , , β n \beta_1,\cdots,\beta_n V V 的另一组基,设
( β 1 , , β n ) P = ( e 1 , , e n ) (\beta_1,\cdots,\beta_n)P=(e_1,\cdots,e_n) 同时
( β 1 , , β n ) = ( e 1 , , e n ) Q (\beta_1,\cdots,\beta_n)=(e_1,\cdots,e_n)Q 于是
( e 1 , , e n ) ( P Q ) = ( e 1 , , e n ) (e_1,\cdots,e_n)(PQ)=(e_1,\cdots,e_n) 由于 e 1 , , e n e_1,\cdots,e_n V V 的一组基,并且坐标具有唯一性,就有
Q P = I n QP=I_n 因此 P P 可逆,并且有
f ( e 1 , , e n ) = f ( β 1 , , β n ) P = ( e 1 , , e n ) A = ( β 1 , , β n ) ( P A ) f(e_1,\cdots,e_n)=f(\beta_1,\cdots,\beta_n)P =(e_1,\cdots,e_n)A=(\beta_1,\cdots,\beta_n)(PA) 两边同右乘 P 1 P^{-1} ,就有
f ( β 1 , , β n ) = ( β 1 , , β n ) ( P A P 1 ) f(\beta_1,\cdots,\beta_n)=(\beta_1,\cdots,\beta_n)(PAP^{-1}) 实际上, P P ( β 1 , , β n ) (\beta_1,\cdots,\beta_n) ( e 1 , , e n ) (e_1,\cdots,e_n) 的过渡矩阵,或称基变换矩阵, P 1 P^{-1} 是\ ( e 1 , , e n ) (e_1,\cdots,e_n) ( β 1 , , β n ) (\beta_1,\cdots,\beta_n) 的过渡矩阵。 f f β 1 , , β n \beta_1,\cdots,\beta_n 下的矩阵为
B = P A P 1 B=PAP^{-1} 下面我们定义 n n 阶方阵的相似关系:

定义5.4 A , B A,B 是数域 K K 下的 n n 阶方阵,如果存在 n n 阶可逆方阵 P P ,使得 B = P A P 1 B=PAP^{-1} 则称 A A B B 是相似矩阵

由上面的论述,同一线性变换在不同基下的矩阵是相似关系。并且容易验证:相似关系满足自反性,对称性和传递性,是一个等价关系,这样,我们就可以利用相似关系将 n n 阶矩阵划分成若干个等价类。在同一等价类内,不同矩阵对应不同的一组基,自然地,我们就像寻找等价类内一组"最好"的基,使得 f f 在这组基下的矩阵"最简单",最好简单到对角矩阵。这就是特征值和特征向量要研究的问题。

线性变换的特征值与特征向量

特征值问题的引入

前面我们讲过,线性变换在不同基下的矩阵是相似的关系,这就启发我们去寻找一组"最好"的基,使线性变换在这组基下的矩阵"最简单",最简单的矩阵莫过于对角矩阵。即
f ( e 1 , , e n ) = ( e 1 , , e n ) D f(e_1,\cdots,e_n)=(e_1,\cdots,e_n)D ( e 1 , , e n ) (e_1,\cdots,e_n) V V 的一组基, D = d i a g ( λ 1 , , λ n ) D=diag(\lambda_1,\cdots,\lambda_n) 。于是
f ( e i ) = λ i e i i = 1 , , n f(e_i)=\lambda_i e_i \quad i=1,\cdots,n 线性变换 f f 只是将 e i e_i 进行了伸缩变换,对任意的 x = a 1 e 1 + + a n e n x=a_1e_1+\cdots+a_ne_n ,于是
f ( x ) = i = 1 n a i λ i e i f(x)=\sum_{i=1}^n{a_i\lambda_i e_i} 我们发现,在这组基下,线性变换变得"异常简单"。接下来线性代数的中心问题,就是寻找一组基,矩阵"最简单",本章讲述矩阵是对角阵的情形,在最后两章,我们讲述不能对角化的情况下,最简单的矩阵,即"约当标准型"。

定义5.5 V V K K 上的 n n 维线性空间, f f V V 上的线性变换,如果存在 λ K \lambda\in K 及非零向量 e V e\in V ,满足:
f ( e ) = λ e f(e)=\lambda e 则称 λ \lambda f f 的特征值, e e λ \lambda 对应的特征向量

如果有 n n 个线性无关的特征向量,那么自然就可以对角化,否则就不能对角化。那么,怎么寻找 n n 个线性无关的特征向量呢?我们先任取一组基 ( e 1 , , e n ) (e_1,\cdots,e_n) ,设 f f 在这组基下的矩阵为 A = ( a i j ) A=(a_{ij}) ,设 x = x 1 e 1 + + x n e n x=x_1e_1+\cdots+x_ne_n λ \lambda 的特征向量。则
f ( x ) = ( e 1 , , e n ) A ( x 1 , , x n ) T = ( e 1 , , e n ) λ ( x 1 , , x n ) T f(x) =(e_1,\cdots,e_n)A(x_1,\cdots,x_n)^T=(e_1,\cdots,e_n)\lambda(x_1,\cdots,x_n)^T 于是得到方程组
A x = λ x Ax=\lambda x 这里的 x x n n 维列向量 ( x 1 , , x n ) T (x_1,\cdots,x_n)^T ,这个方程组由非零解等价于行列式
det ( A λ I n ) = 0 \det(A-\lambda I_n)=0 而这个行列式是关于 λ \lambda n n 次多项式,并且,并且,如果 B B A A 相似,存在可逆矩阵 P P ,使得 B = P A P 1 B=PAP^{-1} ,由行列式的性质,就有
det ( B I n ) = det ( P ( A λ I n ) P 1 ) = det ( A λ I n ) \det(B-I_n)=\det(P(A-\lambda I_n)P^{-1})=\det(A-\lambda I_n) 可见特征多项式和基的选取无关,因而,特征多项式既可以称为是线性变换的特征多项式,又可以称为是矩阵的特征多项式。特征值既可以称为是线性变换的特征值,又可以称为是矩阵的特征值。并且方程组 ( A λ I n ) x = 0 (A-\lambda I_n)x=0 求解出来的 n n 维向量是特征向量对应的坐标,这样我们就得到了特征向量和特征值的计算方法。下面我们引入特征空间的概念,对于 λ K \lambda\in K ,称
V λ = { x : f ( x ) = λ x } V_{\lambda}=\{x:f(x)=\lambda x\} λ \lambda 对应的特征空间,容易验证特征空间是子空间,如果 λ \lambda 不是特征值,特征空间是零空间,如果是特征值,特征空间非零,就有重数,称为 λ \lambda 的几何重数。

可对角化的充要条件

什么情况下 f f 可对角化呢,很显然

定理5.4 f f K K n n 维线性空间 V V 上的线性变换, f f 可对角化的充要条件是存在 n n 个线性无关的特征向量。

假设线性变换的特征多项式为 h ( λ ) h(\lambda) ,由于 h h n n 次多项式,由代数基本定理, h h n n 个复根。特征值与否当然要看数域,在复数域上一定有 n n 个特征值(含重根),更小的数域则不一定。实线性空间上的线性变换的就不一定有 n n 个特征值。

命题5.2 f f K K n n 维线性空间 V V 上的线性变换, e 1 , , e s e_1,\cdots,e_s f f 对应不同特征值的特征向量,则 e 1 , , e s e_1,\cdots,e_s 线性无关

证:
e 1 , , e s e_1,\cdots,e_s 对应的特征值为 λ 1 , , λ s \lambda_1,\cdots,\lambda_s 。设 x 1 e 1 + + x s e s = 0 x_1e_1+\cdots+x_se_s=0 两边用 f f 作用
x 1 λ 1 e 1 + + x s λ s e s = 0 x_1\lambda_1e_1+\cdots+x_s\lambda_se_s=0 用数学归纳法对 s s 进行归纳, s = 1 s=1 时,结论显然成立。
假设 s = k s=k 时结论成立, s = k + 1 s=k+1 时,第一个向量等式两边乘以 λ 1 \lambda_1 ,两个向量等式相减,就可以证得结论。
由数学归纳法,结论成立。

推论5.1 f f K K n n 维线性空间 V V 上的线性变换, e 1 , , e s e_1,\cdots,e_s s s 个不同的数 λ 1 , , λ s \lambda_1,\cdots,\lambda_s 特征空间中的向量,如果
e 1 + e 2 + + e s = 0 e_1+e_2+\cdots+e_s=0 e 1 = = e s = 0 e_1=\cdots=e_s=0

证:
如果 e 1 , , e s e_1,\cdots,e_s 不全为0,那么,至少有两个向量不为0。
不妨设至少 e 1 , e 2 e_1,e_2 全不为0,两边用 f f 作用,有
λ 1 e 1 + + λ s e s = 0 \lambda_1e_1+\cdots+\lambda_se_s=0 λ 1 , λ 2 \lambda_1,\lambda_2 不全为0,与 e 1 , , e s e_1,\cdots,e_s 中非零向量线性无关矛盾。

命题5.3 f f K K n n 维线性空间 V V 上的线性变换, λ 1 , , λ s \lambda_1,\cdots,\lambda_s f f s s 个全部不同的特征值,则 f f 可对角化的充要条件是各特征值几何重数的和为 n n

证:
λ i ( i = 1 , , s ) \lambda_i(i=1,\cdots,s) 特征子空间的一组基 e i j , j = 1 , , n i e_{ij},j=1,\cdots,n_i ,令
i = 1 s j = 1 n i k i j e i j = 0 \sum_{i=1}^s\sum_{j=1}^{n_i}{k_{ij}e_{ij}}=0 与上面的推论,有
j = 1 n i k i j e i j = 0 , i = 1 , , s \sum_{j=1}^{n_i}{k_{ij}e_{ij}}=0,i=1,\cdots,s 于是 k i j = 0 , i = 1 , , s , j = 1 , , n i k_{ij}=0,i=1,\cdots,s,j=1,\cdots,n_i ,于是 f f 可对角化

我们已经指出,全部特征值由特征多项式 det ( A λ I n ) = 0 \det(A-\lambda I_n)=0 计算得到。特征根在多项式中的重数称为代数重数。

命题5.4 f f K K n n 维线性空间 V V 上的线性变换, λ 0 \lambda_0 f f 的特征值,则其几何重数不超过其代数重数

证:
λ 0 \lambda_0 的特征空间的几何重数为 r r ,设其中一组基为 e 1 , , e r e_1,\cdots,e_r ,将其扩张为 V V 的一组基 e 1 , , e n e_1,\cdots,e_n ,则 f f 在这组基下的矩阵为
[ λ 0 I r A 0 B ] \left[\begin{matrix} \lambda_0 I_r&A\\ 0&B\\ \end{matrix}\right] 于是,由分块矩阵行列式计算性质, f f 的特征多项式为
( λ 0 λ ) r det ( B λ I n r ) = 0 (\lambda_0-\lambda)^r\det(B-\lambda I_{n-r})=0 λ 0 \lambda_0 还可能是 det ( B λ I n r ) = 0 \det(B-\lambda I_{n-r})=0 的根

这说明了, f f 可对角化,要满足两点:
(1) f f 的特征多项式的根都在数域 K K
(2) f f 的所有特征值的代数重数都等于几何重数
同时,每个特征值的特征空间的维度至少为1,因此,就有如下的命题:

命题5.5 f f K K n n 维线性空间 V V 上的线性变换,如果 f f n n 个不同的特征值,则 f f 可对角化

发布了19 篇原创文章 · 获赞 0 · 访问量 740

猜你喜欢

转载自blog.csdn.net/weixin_43868339/article/details/104608557
今日推荐