线性代数篇

主线为花书第二章-线性代数，但其上面一些表述属实费解，于是参考B站3Blue1Brown线性代数和B站同济子豪兄的视频讲解。

先放一句3B1B的话共勉，伙计们不要被数学公式吓到，慢慢钻研，慢慢推肯定能学懂。线性代数这一部分相信一般理工科的同志们肯定都学过，这里主要是稍微看看回忆下。

标量、向量、矩阵和张量

标量(scalar)：一个单独的数，用斜体表示，通常被赋予小写的变量名称。$ s \in et R$

向量(vector)：物理中的向量有长度和方向决定，长度和方向不变可以随意移动，它们表示的是同一个向量。计算机中的向量更多的是对数据的抽象，可以根据面积和价格定义一个房子 $\begin{bmatrix}100m^2\\700000￥\end{bmatrix}$ 一列数。

通过次序中的索引，我们可以确定每个单独的数。用粗体的小写变量名称，比如

$ \begin{equation}
x=\begin{bmatrix} x_1 \
x_2 \
\dots \ x_n
\end{bmatrix}.
\end{equation}$

线性代数中的向量可以理解为一个空间中的箭头，这个箭头起点落在原点。如果空间中有许多的向量，可以点表示一个向量，即向量头的坐标。

向量的加法：可以理解为在坐标中两个向量的移动。对于二维向量来说，例如：

$\begin{bmatrix} 1 \\ 2 \end{bmatrix} + \begin{bmatrix} 3 \\ -1 \end{bmatrix} = \begin{bmatrix} 4 \\ 1\end{bmatrix}$

数字和向量相乘：可以理解为向量的缩放。

$2\begin{bmatrix} 3 \\ 1 \end{bmatrix}=\begin{bmatrix} 6 \\ 2 \end{bmatrix}$

矩阵(matrix)：一个二维数组，其中的每一个元素被两个索引（而非一个）所确定。粗体的大写变量名称，比如
$\begin{equation}A= \begin{bmatrix} A_{1,1} & A_{1,2}\\ A_{2,1} & A_{2,2}\\ \end{bmatrix} \end{equation}$

张量(tensor)：一个数组（一般超过两维的）中的元素分布在若干维坐标的规则网格中.
张量 $A$ 中坐标为 $(i, j, k)$ 的元素记作 $A _{i,j,k}$ 。

直观理解：

向量与矩阵的操作

转置（transpose）：是以对角线为轴的镜像
$\begin{equation} (A^\top)_{i,j}= A_{j,i}. \end{equation}$

矩阵相加：只要矩阵的形状一样，我们可以把两个矩阵相加。
两个矩阵相加是指对应位置的元素相加，比如$ C=A+B $，其中$ C_{i,j}= A_{i,j}+B_{i,j}$。

标量与矩阵相乘或相加：将其与矩阵的每个元素相乘或相加，比如 $\cdot B + c$ ，其中 $D_{i,j} = a\cdot B_{i,j} + c$

广播(broadcasting):在深度学习中，我们也使用一些不那么常规的符号。允许矩阵和向量相加，产生一个新矩阵：
$C = A + b$ 其中 $C_{i, j} = A_{i, j} + b_{j}$ ，即向量 $b$ 和矩阵 $A$ 的每一行相加。

## 例
import numpy as np
M = np.arange(9).reshape(3, 3)
C = np.arange(3).reshape(3, 1)
print("M:")
print(M)
print("C:")
print(C)
print("M+C:")
print(M+C)
---------------------------------------
M:
[[0 1 2]
 [3 4 5]
 [6 7 8]]
C:
[[0]
 [1]
 [2]]
M+C:
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]]

矩阵乘积(matrix product)：设两个矩阵 $A_{mn}$ 和 $B_{kp}$ 的乘积是 $C$ ，为了使乘法可被定义，必须满足 $n = k$ . $C = A B$ 的形状是 $m$ x $p$ .具体地，该乘法操作定义为
$\begin{equation} C_{i,j}=\sum_k A_{i,k} B_{k,j} \end{equation}$

元素对应乘积(element-wise product)或Hadamard乘积(Hadamard product)是两个矩阵对应元素的乘积，记为 $\odot B$

点积(dot-product)：两个相同维数的向量 $x$ 和 $y$ 可看作矩阵乘积 $x^Ty$ ，即对应元素相乘相加，是一个标量。

我们可以把矩阵乘积 $C = A B$ 中计算 $C_{i,j}$ 的步骤看作是 $A$ 的第 $i$ 行和 $B$ 的第 $j$ 列之间的点积。

性质

$A (B + C) = A B + A C$ (分配律)
$A (BC) = (A B) C$ (结合律)
$\ne BA$ (一般情况下不满足交换律)
$AB)^T = B^TA^T$
$x^Ty = (x^Ty)^T = y^Tx$

线性方程组:
如以下线性方程组
$\begin{matrix} A_{1,1}x_1+A_{1,2}x_2+\cdots A_{1,n}x_n = b_1\\ A_{2,1}x_1+A_{2,2}x_2+\cdots A_{2,n}x_n = b_2\\ \cdots\\ A_{m,1}x_1+A_{m,2}x_2+\cdots A_{m,n}x_n = b_m. \end{matrix}$
其中 $\in ℝ^{mxn}$ 和 $\in ℝ^{m}$ 都是已知的， $\in ℝ^{n}$ 是要求解的未知向量。以上等式可以写为： $A x = b$

单位矩阵和逆矩阵

单位矩阵(identity matrix)：任意向量和单位矩阵相乘，都不会改变。我们将保持n维向量不变的单位矩阵记作 $I_n \in R^{n\times n}$ （很多教材用 $E$ 表示单位阵），单位矩阵的所有沿主对角线的元素都是1，而其他位置的所有元素都是0.
$\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ \end{bmatrix}$

逆矩阵:记作 $A^{-1}$ ，其定义的矩阵满足如下条件：
$A^{-1}A=I_n$
可以用以下步骤求解方程组：

$\begin{matrix} Ax = b \\ A^{-1}Ax = A^{-1}b \\ I_nx = A^{-1}b \\ x = A^{-1}b \end{matrix}$
如果逆矩阵存在，那么上式肯定对于每一个向量 $b$ 恰好存在一个解。逆矩阵可能也不存在

然而，逆矩阵 $A^{-1}$ 主要是作为理论工具使用的，并不会在大多数软件应用程序中实际使用。这是因为逆矩阵 $A^{-1}$ 在数字计算机上只能表现出有限的精度，有效使用向量 $b$ 的算法通常可以得到更精确的 $x$ 。

线性相关

在我们一般教科书上线性相关定义为： $Font metrics not found for font: .$ 线性相关⇔至少有一个向量可以用其余向量线性表示。

对二维向量而言，两个数乘向量称为两个向量的线性组合 $a\vec v+ b\vec w$ 。
两个不共线的向量通过不同的线性组合可以得到二维平面中的所有向量。
再看线性相关定义，这样就可以直观理解了。

当然两个共线的向量通过线程组合只能得到一个直线的所有向量。

如果两个向量都是零向量那么它只能在原点。

放到三维，而如果三个任意数分别乘三个不在一个平面上的三维向量则可以表示三维空间中的所有向量。
即这三个三维向量进行线性组合就可以得到这个三维空间的任意向量。
当然如果有两个向量共面,两个任意数分别乘这两个三维向量，会得到过这两个向量与原点的一个平面。即这三个向量的线性组合只能得到一个面上的所有向量。

张成空间

定义：向量及的的全部线性组合（Linear Combination, ）构成的向量空间称为“张成(Span)的空间”。

一般来说两个向量张成空间可以是直线、平面。
三个向量张成空间可以是平面、空间。

如果多个向量，并且可以移除其中一个而不减小张成空间，那么它们是线性相关的，也可以说一个向量可以表示为其他向量的线性组合 $\vec u = a \vec v + b\vec w$ 。
如果所有的向量都给张成的空间增加了新的维度，它们就成为线性无关的 $\vec u \neq a \vec v + b\vec w$ 。

基

向量空间的一组基是张成该空间的一个线性无关向量集。

标量、向量、矩阵和张量

向量与矩阵的操作

单位矩阵和逆矩阵

线性相关

张成空间

基

线性空间

猜你喜欢