矩阵理论基础知识(1)--特征值与特征向量

版权声明:本文为博主原创文章,转载请标明出处。 https://blog.csdn.net/u011826404/article/details/56839690

之所以想起来总结这部分的知识,也是由于目前学习的机器学习算法中,矩阵论/矩阵分析呈刷屏似的出现,而之前本科阶段的高等代数中,总是只知道有这么个东西,也初略知道怎么计算,但不知道其中的真正含义,因此这两天决定将这块知识汇总下,知其然也知其所以然。

首先介绍几个基本的概念:

  • 向量组线性无关:向量组中的任何一个向量都不能被其它向量线性表出。即当且仅当k1=k2…=kr=0时,k1α1+k2α2+…+krαr=0成立。
  • 维度:如果线性空间V中最多只能有n个线性无关的向量,则称线性空间V是n维的。
  • :在n维线性空间V中,n个线性无关向量称为V的一组基,V中任何的向量都可以由这组基来表出,即:a=a1e1+a2e2+…+anen,这时这组基前面的系数就成为该向量的坐标(a1,a2,…an)。讲到这里,就与我们之前接触的东西很相似了,事实上我们最常用的二维空间即建立在(1,0),(0,1)这组基上,三维空间建立在(1,0,0),(0,1,0),(0,0,1)这组基上。

(1)基变换与坐标变换

这里写图片描述
这里写图片描述

(2)线性变换的矩阵

  • 对空间中任意向量进行线性变化后,对每个基向量也作同样的变换,则相对的坐标不发生变化。
    这里写图片描述
  • 在给定一组基的情况下,矩阵与线性变换一一对应,可以将线性变换看做原始向量与其对应的矩阵相乘,实际上矩阵就是一种线性变换
  • 线性变换在不同基下的矩阵是相似的,即B=X^-1AX,记作A~B(X为两组基之间的过渡矩阵)。
    1. A(e1,e2,…en)=(e1,e2,…en)A
    2. A(e1’,e2’,…en’)=(e1’,e2’,…en’)B
    3. (e1’,e2’,…en’) =(e1,e2,…en)X
    4. 故有:A(e1’,e2’,…en’)=A[ (e1,e2,…en)X ]=(e1,e2,…en)AX=
      (e1’,e2’,…en’)B=(e1,e2,…en)X B
    5. ==>B=X^-1AX (即A与B相似)

(3)特征值与特征向量

这里写图片描述

通过上面的解释,这时用线性变换的思想来理解特征值与特征向量就容易了许多。由于矩阵相当于一个线性变换, 矩阵A与向量相乘,本质上对向量进行一次线性转换(旋转或拉伸),而该转换的效果为一个常数乘以向量(即只进行了拉伸)。当我们求特征值与特征向量的时候,就是为了求矩阵A能使哪些向量(特征向量)线性变换后只发生拉伸,不发生旋转。而拉伸的程度,自然就是特征值λ了。因此可以总结出以下几点:

  • 特征向量:即那些通过矩阵A的线性变换后只发生拉伸而不改变方向的向量。
  • 特征值:即所对应特征向量的拉伸程度。
  • 一个特征向量对应一个特征值,但一个特征值可以对应多个特征向量。

(4)特征向量和特征值的几何意义

从定义来理解特征向量的话,就是经过一个矩阵变换后,空间沿着特征向量的方向上相当于只发生了缩放,比如我们考虑下面的矩阵:

这里写图片描述

求这个变换的特征向量和特征值,分别是:

这里写图片描述

用一个形象的例子来说明一下几何意义,我们考虑下面笑脸图案:

这里写图片描述

为方便演示笑脸图案在(0,0)和(1,1)围起来的单位正方形里,同时也用两个箭头标出来了特征向量的方向。经过[1.5 0.5 ; 0.5 1.0]的变换,也就是用这个图案中的每个点的坐标和这个矩阵做乘法,得到下面图案:

这里写图片描述

可以看到就是沿着两个正交的,特征向量的方向进行了缩放。这就是特征向量的一般的几何理解,这个理解我们也可以分解一下,从旋转和沿轴缩放的角度理解,分成三步:

第一步:把特征向量所指的方向分别转到横轴和纵轴

这里写图片描述

这一步相当于用U的转置,也就是U^T进行了变换。

第二步:然后把特征值作为缩放倍数,构造一个缩放矩阵[1.81 0 ; 0 0.69],矩阵分别沿着横轴和纵轴进行缩放:

这里写图片描述

第三步:很自然地,接下来只要把这个图案转回去,也就是直接乘U就可以了

这里写图片描述

所以,从旋转和缩放的角度,一个矩阵变换就是,旋转–>沿坐标轴缩放–>转回来,的三步操作,表达如下:

这里写图片描述

T可以看作一个线性变换在原始基下的矩阵,∑看作其在由特征向量组成的基下的矩阵,U为正交矩阵,因此实际上过渡矩阵为X=U^-1=U^T,因此它们为相似矩阵。

多提一句,这里给的是个(半)正定矩阵的例子,对于非正定的矩阵,也是能分解为,旋转–>沿坐标轴缩放–>旋转,的三步的,只不过最后一步和第一步的两个旋转不是转回去的关系了,表达如下:

这里写图片描述

这个就是SVD分解。

猜你喜欢

转载自blog.csdn.net/u011826404/article/details/56839690