《深度学习》 第2章 线性代数
标量、向量、矩阵和张量
矩阵和向量相乘
单位矩阵和逆矩阵
线性相关和生成子空间
范数
衡量向量的大小用范数,
LP范数定义如下:
∣∣x∣∣p=(i∑∣xi∣p)p1
其中
p∈R,p≥1
Frobenius范数:
∣∣A∣∣F=i,j∑Ai,j2
特殊类型的矩阵和向量
特征分解
Av=λv
A=Vdiag(λ)V−1
奇异值分解
A=UDVT
Moore-Penrose伪逆
A+=VD+UT
伪逆得到的
x使得
∣∣x∣∣2或
∣∣Ax−y∣∣2最小
迹运算
Tr(A)=i∑Ai,i
∣∣A∣∣F=Tr(AAT)
Tr(ABC)=Tr(CAB)=Tr(BCA)
行列式
det(A)可以衡量矩阵参与矩阵乘法后空间变化多少
实例:主成分分析
奇异值分解正是对线性变换这三种效应的一个析构。
A=μΣσT ,
μ和
σ是两组正交单位向量,
Σ是对角阵,表示奇异值,它表示我们找到了
μ和
σ这样两组基,
A矩阵的作用是将一个向量从
σ这组正交基向量的空间旋转到
μ这组正交基向量空间,并对每个方向进行了一定的缩放,缩放因子就是各个奇异值。如果
σ维度比
μ大,则表示还进行了投影。可以说奇异值分解将一个矩阵原本混合在一起的三种作用效果,分解出来了。
而特征值分解其实是对旋转缩放两种效应的归并。(有投影效应的矩阵不是方阵,没有特征值)特征值,特征向量由
Ax=λx得到,它表示如果一个向量
v处于
A的特征向量方向,那么
Av对
v的线性变换作用只是一个缩放。也就是说,求特征向量和特征值的过程,我们找到了这样一组基,在这组基下,矩阵的作用效果仅仅是存粹的缩放。对于实对称矩阵,特征向量正交,我们可以将特征向量式子写成
A=xλxT,这样就和奇异值分解类似了,就是
A矩阵将一个向量从
x这组基的空间旋转到
x这组基的空间,并在每个方向进行了缩放,由于前后都是
x,就是没有旋转或者理解为旋转了0度。
矩阵的奇异值与特征值有什么相似之处与区别之处? - 赵文和的回答 - 知乎