《深度学习》 第2章 线性代数

《深度学习》 第2章 线性代数

标量、向量、矩阵和张量

矩阵和向量相乘

单位矩阵和逆矩阵

线性相关和生成子空间

范数

衡量向量的大小用范数, L P L^P 范数定义如下:
x p = ( i x i p ) 1 p ||x||_p = \left(\sum_i|x_i|^p\right)^{\frac{1}{p}}
其中 p R , p 1 p\in \mathbb{R},p \ge 1

Frobenius范数:
A F = i , j A i , j 2 ||A||_F = \sqrt{\sum_{i,j}A_{i,j}^{2}}

特殊类型的矩阵和向量

特征分解

A v = λ v Av = \lambda v
A = V d i a g ( λ ) V 1 A = Vdiag(\lambda)V^{-1}

奇异值分解

A = U D V T A = UDV^T

Moore-Penrose伪逆

A + = V D + U T A^+ = VD^+U^T
伪逆得到的 x x 使得 x 2 ||x||_2 A x y 2 ||Ax-y||_2 最小

迹运算

T r ( A ) = i A i , i Tr(A) = \sum_iA_{i,i}
A F = T r ( A A T ) ||A||_F = \sqrt{Tr(AA^T)}
T r ( A B C ) = T r ( C A B ) = T r ( B C A ) Tr(ABC) = Tr(CAB) = Tr(BCA)

行列式

d e t ( A ) det(A) 可以衡量矩阵参与矩阵乘法后空间变化多少

实例:主成分分析

奇异值分解正是对线性变换这三种效应的一个析构。
A = μ Σ σ T A=\mu \Sigma \sigma ^{T} μ \mu σ \sigma 是两组正交单位向量, Σ \Sigma 是对角阵,表示奇异值,它表示我们找到了 μ \mu σ \sigma 这样两组基, A A 矩阵的作用是将一个向量从 σ \sigma 这组正交基向量的空间旋转到 μ \mu 这组正交基向量空间,并对每个方向进行了一定的缩放,缩放因子就是各个奇异值。如果 σ \sigma 维度比 μ \mu 大,则表示还进行了投影。可以说奇异值分解将一个矩阵原本混合在一起的三种作用效果,分解出来了。

而特征值分解其实是对旋转缩放两种效应的归并。(有投影效应的矩阵不是方阵,没有特征值)特征值,特征向量由 A x = λ x Ax=\lambda x 得到,它表示如果一个向量 v v 处于 A A 的特征向量方向,那么 A v Av v v 的线性变换作用只是一个缩放。也就是说,求特征向量和特征值的过程,我们找到了这样一组基,在这组基下,矩阵的作用效果仅仅是存粹的缩放。对于实对称矩阵,特征向量正交,我们可以将特征向量式子写成 A = x λ x T A=x\lambda x^{T} ,这样就和奇异值分解类似了,就是 A A 矩阵将一个向量从 x x 这组基的空间旋转到 x x 这组基的空间,并在每个方向进行了缩放,由于前后都是 x x ,就是没有旋转或者理解为旋转了0度。

矩阵的奇异值与特征值有什么相似之处与区别之处? - 赵文和的回答 - 知乎

猜你喜欢

转载自blog.csdn.net/Tifa_Best/article/details/83348740