机器学习中的数学——特征向量、矩阵对角化

@

  1. 线性代数
    向量,向量空间;矩阵, 线性变换;
    特征值, 特征向量;奇异值, 奇异值分解
  2. 概率论与统计
    随机事件;条件概率, 全概率,贝叶斯概率;
    统计量, 常见分布; 基本原理
  3. 最优化理论
    极限, 导数;线性逼近, 泰勒展开;
    凸函数, jensen不等式;最小二乘法; 梯度, 梯度下降

矩阵和线性变换

方阵能描述任意线性变换, 线性变换保留了直线和平行线, 但原点没用移动.
\[ \pmb v = \begin{bmatrix} x\\ y\\ z\\ \end{bmatrix} =\begin{bmatrix} x\\ 0\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ y\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ 0\\ z\\ \end{bmatrix}\]
\[ \pmb v =\begin{bmatrix} x\\ y\\ z\\ \end{bmatrix}=x\times \begin{bmatrix} 1\\ 0\\ 0\\ \end{bmatrix}+y\times \begin{bmatrix} 0\\ 1\\ 0\\ \end{bmatrix}+z\times \begin{bmatrix} 0\\ 0\\ 1\\ \end{bmatrix} \]
向量的每一个坐标都表明了平行于相应坐标轴的有向位移.
如果把矩阵的行解释为坐标系的基向量,那么乘以该矩阵就相当于执行了一次坐标转换,如果\(aM=b\),我们就可以说,\(M将a\)转换\(b\)
从这点看,术语“转换”和“乘法”是等价的。
坦率地说,矩阵并不神秘,它只是用一种紧凑的方式来表达坐标转换所需的数学运算。进一步,用线性代数操作矩阵,是一种进行简单转换或导出更复杂转换的简便方法.
我们可以不依赖于坐标系而沿任意方向进行缩放,设\(\vec{n}\)为平行于缩放方向的单位向量,k为缩放因子,缩放沿穿过原点并平行于\(\vec{n}\)的直线(2D中)或平面(3D中)进行。

\(\vec{v} = \vec{v}_{||}+\vec{v}_{⊥}\)
\(\vec{v}_{||}=(\vec{v}\cdot \vec{n})\vec{n}\)
\(\vec{v}_{⊥}=\vec{v}-\vec{v}_{||}=\vec{v}-(\vec{v}\cdot \vec{n})\vec{n}\)

\(\vec{v}^{'}=\vec{v}_{||}^{'}+\vec{v}_{⊥}^{'}\)
\(\vec{v}_{⊥}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}\)
\(\vec{v}_{||}^{'}=k\cdot\vec{v}_{||}=k\cdot(\vec{v}\cdot\vec{n})\vec{n}\)
\(\vec{v}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}+k\cdot(\vec{v}\cdot\vec{n})\vec{n}=\vec{v}+(k-1)(\vec{n}\cdot\vec{v})\vec{n}\)
(待补充)

特征值与特征向量

定义:$A \(n阶方阵, 对于\)\lambda\(, 存在非零向量\)\vec v\(, 使得\)\pmb A\vec v=\lambda\vec v\(,则:\)\lambda$就叫特征值, \(\vec v\)就叫对应\(\lambda\)的特征向量
特征值可以为0, 特征向量不能为0

\(\pmb A\vec x =\lambda \vec x ~~~~ x\not= 0\)

\((\pmb A-\lambda \pmb E)\vec x = 0\)

\(|\pmb A-\lambda\pmb E|=0\)
其中\(\lambda\)\(x\)为我们需要求得值

  • \(\pmb Ax\)代表向量的线性变换,\(\lambda x\)代表向量拉伸变换
  • 特征向量的含义就在于使得哪些向量只发生拉伸变换
  • 而特征值用于衡量相应的拉伸系数
  • 特征值就是运动的速度, 特征向量就是运动的方向

注:只有方阵才能计算特征值和特征向量

*
例:
\[\pmb A=\begin{bmatrix} 4&0\\ 3&-5\\ \end{bmatrix}\]
求特征值:**
\(|\pmb A-\lambda \pmb E|\)
$
=\begin{bmatrix}
4-\lambda&0\
3&-5-\lambda
\end{bmatrix}
$
\(=(4-\lambda)(-5-\lambda)=0\)
得:\(\lambda_{1}=-5, \lambda_{2}=4\)
针对特征值\(\lambda_{1}=-5\), 计算特征向量 \(\pmb X_{1}\)
\(\begin{bmatrix} 9&0\\ 3&0\\ \end{bmatrix}\cdot \vec x=0~~~\pmb X_{1}=\begin{bmatrix}0\\1\\\end{bmatrix}\)
针对特征值\(\lambda_{2}=4\), 计算特征向量\(\pmb X_{2}\)
\(\begin{bmatrix}0&0\\3&-9\\\end{bmatrix}\cdot\vec x=0~~~\pmb X_{2}=\begin{bmatrix}3\\1\\\end{bmatrix}\)

例:
\[\pmb A=\begin{bmatrix}4&-2\\3&-1\\\end{bmatrix}\]
求特征值:
\(|\pmb A-\lambda \vec x|=\begin{bmatrix}4-\lambda&-2\\3&-1-\lambda\end{bmatrix}=(4-\lambda)(-1-\lambda)+6=0\)
得:\(\lambda_{1}=1, \lambda_{2}=2\)
针对特征值\(\lambda_{1}=1\), 计算特征向量\(\pmb X_{1}\)
\(\begin{bmatrix}3&-2\\3&-2\end{bmatrix}\cdot\vec x=0~~~\pmb X_{1}=\begin{bmatrix}2\\3\\\end{bmatrix}\)
针对特征值\(\lambda_{2}=2\), 计算特征向量\(\pmb X_{2}\)
\(\begin{bmatrix}2&-2\\3&-3\\\end{bmatrix}\cdot \vec x=0~~~\pmb X_{2}=\begin{bmatrix}1\\1\\\end{bmatrix}\)
另一种计算方式,首先将\(\vec x\)表示成特征向量\(\begin{bmatrix}1\\1\\\end{bmatrix}\)\(\begin{bmatrix}2\\3\\\end{bmatrix}\)的线性组合,即:
\[\vec x=\begin{bmatrix}1\\2\\\end{bmatrix}=-1\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}\]
然后,将特征值与对应系数(特征值)相乘, 得到:
\[\vec y = -1\cdot2\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}=\begin{bmatrix}0\\1\\\end{bmatrix}\]
这与\(\vec y=\pmb A\vec x=\begin{bmatrix}0\\1\\\end{bmatrix}\)相同,表示\(\pmb A\)对向量\(\vec x\)的线性变换相当于\(\pmb A\)的特征值和特征向量与\(\vec x\)的线性组合, 可以说在线性变换时, 矩阵的特征值和特征向量可以代表矩阵.
矩阵所充当的映射, 实际上就是对特征向量的缩放, 每个特征向量的缩放程度就是特征值.
\(\vec x\)向量表示特征向量的线性组合(相当于以特征向量为基),得到相应的特征向量的权重.然后,每个权重与特征值相乘, 就是这个映射最本质的缩放操作.
***

特征值求法

奇异方阵

相似矩阵

定义:若\(\pmb A\)\(\pmb B\)均为n阶方阵, 若存在一个可逆矩阵\(\pmb P\), 使\(\pmb P^{-1}\cdot A \cdot \pmb P=B\), 则称\(\pmb A\)\(\pmb B\)相似

对角化


定义及证明
定义:假设一个\(n\times n\)阶的方阵\(\pmb A\),有 \(n\)个线性无关的特征向量\(v_1, v_2,\cdots, v_n\), 所有的特征向量组成特征向量矩阵\(\pmb S\), 则有\(\pmb S^{-1}\pmb A\pmb S=\Lambda\), 其中\(\Lambda\)为由\(\pmb S\)对应的特征值组成的对角矩阵, 即:
\[\pmb S^{-1}\pmb A\pmb S=\Lambda=\begin{bmatrix} \lambda_1\\ &\ddots\\ &&\lambda_n \end{bmatrix}\]
证明:
\(\pmb A\pmb S=\pmb A\begin{bmatrix}v_1&v_2&v_3&\cdots&v_n\end{bmatrix}=\begin{bmatrix}\lambda_1v_1&\lambda_2v_2&\lambda_3v_3&\cdots&\lambda_nv_n\end{bmatrix}=\pmb S\begin{bmatrix}\lambda_1\\&\ddots\\&&\lambda_n\end{bmatrix}=\pmb S\pmb{\Lambda}\)

\(\pmb S^{-1}\pmb A\pmb S=\pmb S^{-1}\pmb S\pmb{\Lambda}=\pmb{\Lambda}\)

\(\pmb A=\pmb S\pmb {\Lambda}\pmb S^{-1}\)(矩阵对角化)
***
例:
\[\pmb A=\begin{bmatrix} -3&2\\-10&6\\\end{bmatrix}\]
对角化\(\pmb A\).

解:
\(\pmb A-\lambda\pmb E=\begin{bmatrix}-3-\lambda&2\\-10&6-\lambda\end{bmatrix}\)

\((-3-\lambda)(6-\lambda)+20=0\)

\(\lambda_1=1, ~~~\lambda_2=2\)

对应\(\lambda_1\)的特征向量\(v_1\):

\(\begin{bmatrix}-4&2\\-10&5\end{bmatrix}\cdot v_1=0, ~~~v_1=\begin{bmatrix}1\\2\end{bmatrix}\)

对应\(\lambda_2\)的特征向量\(v_2\):

\(\begin{bmatrix}-5&2\\-10&4\end{bmatrix}\cdot v_2=0, ~~~v_2=\begin{bmatrix}2\\5\end{bmatrix}\)

\(\pmb P=\begin{bmatrix}\vec v_1&\vec v_2\end{bmatrix}=\begin{bmatrix}1&2\\2&5\\\end{bmatrix}\)

\(\pmb P^{-1}=\begin{bmatrix}5&-2\\-3&1\end{bmatrix}\)(二阶时, 主对角线对换, 负对角线变号/det( P ))


猜你喜欢

转载自www.cnblogs.com/zxingwork/p/12488857.html