机器学习之线性代数基础一矩阵乘法、秩、特征值、特征向量的几何意义

写篇文章把自己对矩阵的理解记录一下，有不对的地方欢迎指正。为简单、直观、可视化起见，我们只以简单的二维和三维空间为例。高维空间也是同样的道理，只是不能可视化，只能通过数学公式来证明。

1. 矩阵乘法

矩阵乘法来源于线性方程组的求解，为了方便起见，从二维说起。
通常，我们在提到坐标第一反应就是直角坐标系中的横纵坐标轴所对应的单位向量，向量 $x$ 表示成如下形式会更明显，

[\begin{matrix} x_{1} \\ x_{2} \end{matrix}] = x_{1} [\begin{matrix} 1 \\ 0 \end{matrix}] + x_{2} [\begin{matrix} 0 \\ 1 \end{matrix}]

$\left[ \begin{matrix} x_1\\ x_2 \end{matrix} \right] = x_1\left[ \begin{matrix} 1\\ 0 \end{matrix} \right] +x_2\left[ \begin{matrix} 0\\ 1 \end{matrix} \right]$ 那么矩阵与向量相乘会发生什么呢，下面是一个简单二维方阵与一个二维向量相乘，

\begin{matrix} (1) & A x = [\begin{matrix} a_{1} & b_{1} \\ a_{2} & b_{2} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] \end{matrix}

$Ax=\left[ \begin{matrix} a_1& b_1 \\ a_2& b_2 \end{matrix} \right] \left[ \begin{matrix} x_1\\ x_2 \end{matrix} \right] \tag{1}$ 对式（1）进行简单的变换，可以写成另外一种形式，

\begin{matrix} (2) & A x = x_{1} [\begin{matrix} a_{1} \\ a_{2} \end{matrix}] + x_{2} [\begin{matrix} b_{1} \\ b_{2} \end{matrix}] \end{matrix}

$Ax=x_1\left[ \begin{matrix} a_1 \\ a_2 \end{matrix} \right]+x_2\left[ \begin{matrix} b_1 \\ b_2 \end{matrix} \right] \tag{2}$ 式（2）所表达的几何含义，就是 矩阵乘法对坐标系进行了变换，变换之后的空间（不一定仍然是二维空间）由矩阵的列向量张成。
矩阵和向量相乘的意义我们理解了之后，那么矩阵乘矩阵的意义就一目了然了，因为做乘数的矩阵本身只是由多个向量组成而已。

2. 矩阵的秩

在上一部分中，有提到变换之后的空间不一定仍然是二维空间，是因为矩阵的列向量有可能是线性相关的。矩阵的列向量只有在线性无关的情况下，也就是列满秩的情况下，才能作为新坐标系的基底向量。

2.1 方阵的秩

当矩阵 $A$ 的列向量线性无关的时候，其列向量就仍可以张成一个二维空间。我们可以认为是矩阵对向量进行里旋转和拉伸操作。
下面来看一下列向量线性相关的情况，我们假设

A = [\begin{matrix} a_{1} & 2 a_{1} \\ a_{2} & 2 a_{2} \end{matrix}]

$A=\left[ \begin{matrix} a_1& 2a_1 \\ a_2& 2a_2 \end{matrix} \right]$ 那么

A x = x_{1} [\begin{matrix} a_{1} \\ a_{2} \end{matrix}] + x_{2} [\begin{matrix} 2 a_{1} \\ 2 a_{2} \end{matrix}] = (x_{1} + 2 x_{2}) [\begin{matrix} a_{1} \\ a_{2} \end{matrix}]

$Ax = x_1\left[ \begin{matrix} a_1 \\ a_2 \end{matrix} \right]+x_2\left[ \begin{matrix} 2a_1 \\ 2a_2 \end{matrix} \right] = (x_1+2x_2)\left[ \begin{matrix} a_1 \\ a_2 \end{matrix} \right]$
显然，无论向量

x

$x$ 的坐标是多少，经过不满秩矩阵（奇异矩阵）

A

$A$ 变换之后的结果将被限制到

A

$A$ 的列向量所在的一维空间。 对于方阵来说，矩阵 $A$ 的秩小于向量 $x$ 的维度时，相乘之后，向量将会被降维。

2.2 非方阵的秩

对于矩阵的秩有一个定理：一个 $m*n$ 的矩阵，它的秩小于等于 $min(m,n)$ 。既然是定理，肯定是对的咯（这不废话嚒），其中缘由，让我们细细道来。

$m>n时, 以m=3, n=2为例$ 。此时矩阵可以看做是由两个三维向量张成。对这句话化简一下，就是两个向量张成。也就是说，甭管是几维的列向量，它仍然是一个二维空间。所以其秩最大也就是2，较小的那个维度。由于列满秩，这时候矩阵乘法对向量的操作仍然是旋转和拉伸，只不过是在三维空间的旋转和拉伸
$m<n时, 以m=2, n=3为例$ 。此时矩阵可以看做是三个二维向量张成。两个线性无关的二维向量的就足以张成整个二维空间，那么三个二维向量必然是冗余的。所以矩阵必然是列不满秩的，其秩最大也就是2，仍然是较小的那个维度。此时，矩阵乘法对向量进行的是仍然是降维的操作，由三维空间限制到二维空间。

总结一下，矩阵可以对向量进行旋转、拉伸、降维，但是注意没有升维这种风骚的操作。至于为什么吗，你想一下，一个3*3的矩阵与一个二维向量怎么做乘法？？？所以，不满秩的矩阵（降维）是没有逆矩阵的。

3. 矩阵的特征值和特征向量

由上面的叙述我么已经熟悉了矩阵乘法这种风骚的操作在本质上是对坐标系的一种变换，或者说是向量的一种运动，那么向量运动的方向到底是那个方向呢，特征值和特征向量就与此息息相关。
根据特征向量的定义 $Av=\lambda v$ 可知，矩阵对特征向量进行变换之后，特征向量的方向是不改变的，即线性不变性。特征向量所在的一维空间也被称为特征空间。
首先回顾一下特征值的基础知识
我们假设二维矩阵 $A$ 存在两个特征向量 $u=\left[ \begin{matrix} u_1 \\ u_2 \end{matrix} \right], v=\left[ \begin{matrix} v_1 \\ v_2 \end{matrix} \right]$ ，它们的特征值分别为 $\lambda_1,\lambda_2$ ，不失一般性，我们可以假设 $\lambda_1>\lambda_2$ 。我们令 $\Lambda= \left[ \begin{matrix} \lambda_1 & 0\\ 0&\lambda_2 \end{matrix} \right], P=\left[ \begin{matrix} u_1 & v_1\\ u_2&v_2 \end{matrix} \right]$ 那么可以有如下表示

A P = P Λ

$AP = P \Lambda$ 当

u, v

$u,v$ 线性无关时，

P

$P$ 时可逆的，那么

A

$A$ 可以写成如下形式

\begin{matrix} (3) & A = P Λ P^{- 1} \end{matrix}

$A=P\Lambda P^{-1} \tag{3}$ 下面我们来特征值和特征向量的几何意义。
式（3）中，如果

Λ = I

$\Lambda=I$ ，那么

A = I

$A=I$ ，矩阵

A

$A$ 将不会对向量产生变换，即基底仍是

[0, 1]^{T}, [1, 0]^{T}

$[0,1]^T,[1,0]^T$ 。我们可以 将 $P^{-1}$ 理解为反变换，

P

$P$ 理解为正变换。
现在将式（3）写成如下形式

A = [λ_{1} u, λ_{2} v] P^{- 1} = P^{^{'}} P

$A=[\lambda_1 u,\lambda_2 v]P^{-1}=P^{'}P$ 可以看到，与

Λ = I

$\Lambda=I$ 的情况相比，

P^{- 1}

$P^{-1}$ 所产生的反变换并没有改变，有区别的是正变换。 $P^{'}$ 和 $P$ 的区别也是 $A$ 产生的实质变换。显然， 变换的方向是由特征向量决定的，并且由于

λ_{1} > λ_{2}

$\lambda_1>\lambda_2$ ，所以 变换方向主要是由

u

$u$ ，即 较大特征值所对应的特征向量决定的。