MIT 线性代数导论 第十六讲:投影矩阵和最小二乘

本讲的主要内容:

  • 简单回顾前一讲中的投影矩阵的概念
  • 结合例子具体说明最小二乘
  • 证明 A T A A^{T}A 是可逆的

回顾

上一讲的最重要的知识点如下:

  • p = A x p= Ax
  • P = A ( A T A ) 1 A T P=A(A^{T}A)^{-1}A^{T}
  • A T A x = A T b A^{T}Ax=A^{T}b

首先定义 p p 是向量投影在向量空间 A A 的分向量, P P 称为投影矩阵,作用是将某个向量投影到一个向量空间中,例如: P b Pb 表示将 b b 投影到 A A 的列空间里,这里有几种特殊情况:

  • b b C ( A ) C(A) 里,则 P b = b Pb=b
  • b b 正交于 C ( A ) C(A) ,则 P b = 0 Pb=0
    这些是上一讲的知识,在本讲中主要是如何应用到最小二乘法中。

应用:最小二乘法

继续使用上一讲最后的例子,首先要对两张图有概念:

这张图中,两个正交的向量空间 C ( A ) C(A) N ( A T ) N(A^{T}) ,其中有一个向量 b b 不属于这两个空间,现在对这个向量向两个空间投影,分别得到 p p e e .

这也就是之前的例子了,有三个数据点(1,1),(2,2),(3,2),我们想要拟合出一条直线使得三个点到直线的距离最小,也就是最优,其中数据点投影到直线为 p p ,距离向量是 e e

接下来开始,
假设对这些数据点进行拟合的曲线为 y = C + D t y = C + Dt ,其中根据原来的数据点的关系 A x = b Ax=b ,可以写成:
( 1 1 1 2 1 3 ) ( C D ) = ( 1 2 3 ) \begin{pmatrix} 1 &1 \\ 1 &2 \\ 1 &3 \end{pmatrix}\begin{pmatrix} C\\ D \end{pmatrix}=\begin{pmatrix} 1\\ 2\\ 3 \end{pmatrix}
要明确,这个时候方程是无解(因为数据点并不在直线上)我们的目标就是,最小化数据点到直线的距离,也就是: A x b 2 = e 2 \left \| Ax-b \right \|^{2} = \left \| e \right \|^{2} ,这个式子也等价于:
A x b 2 = e 2 e 1 2 + e 2 2 + e 3 2 ( C + D 1 ) 2 + ( C + 2 D 2 ) 2 + ( C + 3 D 2 ) 2 \left \| Ax-b \right \|^{2} = \left \| e \right \|^{2}\Leftrightarrow e_{1}^{2} + e_{2}^{2} + e_{3}^{2}\Leftrightarrow (C+D-1)^{2} + (C+2D-2)^{2}+(C+3D-2)^{2}
(其中第二个是相当于第二个图中距离向量的关系,第三个则是将(1,1)等数据点代入得到)

我们的目的是解出 C C D D 以及投影后的向量 P P ,根据由之前的讲到的关于最小二乘的方程(也就是投影):
A T A x ^ = A T b A^{T}A\hat{x} = A^{T}b
代入三个数据点得到:
( 3 6 6 14 ) ( C D ) = ( 5 11 ) \begin{pmatrix} 3 &6 \\ 6 &14 \end{pmatrix} \begin{pmatrix} C\\ D \end{pmatrix}= \begin{pmatrix} 5\\ 11 \end{pmatrix}
接下来消元解方程得到: C = 1 / 2 C=1/2 D = 2 / 3 D=2/3 表示求得的最优方程是: y = 2 / 3 + 1 / 2 t y=2/3 + 1/2t
得到了这个方程,那我们就可以得到所有的量了,
首先将三个数据点代入最优方程,可得到投影 P = ( 7 / 6 5 / 3 13 / 6 ) P=\begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix} 根据 P P b b 可以计算出误差 e = ( 1 / 6 2 / 6 1 / 6 ) e=\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix} 它们之间的关系有:
b = p + e , ( 1 2 2 ) = ( 7 / 6 5 / 3 13 / 6 ) + ( 1 / 6 2 / 6 1 / 6 ) b = p+e,即:\begin{pmatrix} 1\\ 2\\ 2 \end{pmatrix}= \begin{pmatrix} 7/6\\ 5/3\\ 13/6 \end{pmatrix}+\begin{pmatrix} 1/6\\ -2/6\\ 1/6 \end{pmatrix}
这一部分的推导过程真的好难表示啊。。但是还是那样,只要写一写过程,就会很容易理解了。

证明 A T A A^{T}A 可逆

如果命题成立,则看这个方程: A T A x = 0 A^{T}Ax=0 ,显然是只有零解的(可逆也就是满秩,所以没有自由向量,只有零解)
首先将方程两侧都乘 X T X^{T} :
x T A T A x = 0 x^{T}A^{T}Ax=0
根据转置的规则,等价于:
( A x ) T ( A x ) = 0 (Ax)^{T}(Ax)=0
这种形式是与向量长度的形式是一致的,注意这个地方是向量( A x = b Ax=b b b 是列向量),所以可以继续得出下面的结论
A x = 0 Ax=0
因为 A A 是列向量无关的,所以:
x = 0 x=0
得证。

标准正交向量

这里提及了一点接下来的内容,如果我们得到一组相互垂直的单位向量,比如:三维坐标的(1,0,0),(0,1,0)和(0,0,1),或者二维平面中的 ( s i n θ , c o s θ ) (-sin\theta,cos\theta) ( c o s θ , s i n θ ) (cos\theta,sin\theta) 。都称为 标准正交向量

这一部分的内容比较乱,很容易把人绕晕,多推导几遍就好了。

以上~

猜你喜欢

转载自blog.csdn.net/sinat_34328764/article/details/83056100