【线性代数04】投影矩阵P和标准正交矩阵Q

继续MIT笔记的内容，前面讨论了AX=b的解情况，我着重画了一些解空间的图形。后来我们将这些子空间分为四个部分，即 $A$ 的列空间、行空间和零空间，以及 $A^T$ 的零空间 ，这四个空间的关系见课本的figure4.2，其实由上次的最后一个例子，我们就能发现这样的一种垂直关系。应该指出，垂直关系是一种很不错的关系，本次主要介绍投影矩阵P和标准正交矩阵Q。

“Follow the rules”

老爷子在讲正交向量和正交子空间时，问道零向量是否与任意向量均正交，他给出了这样一个建议“The one thing about math is you’re supposed to follow the rules.” 这个建议的味道在于，凡事难以决定乃至不可思议时，你应该回归定义，倘若定义中允许它发生，而它也发生了，那它就是合理的，你也该去正视它。所以，零向量是否与任意向量均正交，答案是“sure”。那么来看正交（或言之为空间关系中的垂直）的定义：

若内积空间中两向量的内积为0，则它们正交。

在这里插入图片描述

举figure4.2来说，已知零空间的定义为

零空间是在线性映射（即矩阵）的背景下出现的，指像为零的原像空间，即 { $x ∣ A x = 0$ } 。

可见零空间的定义中恰好就内嵌了正交的定义。于是看 $A X = 0$ ， $A$ 通过 $X$ 表征的零空间与 $A$ 表征的行空间做内积为0，也就是 $A$ 的零空间与 $A$ 的行空间垂直，即figure4.2的左边部分；再看 $A^TY=0$ ， $A^T$ 通过 $Y$ 表征的零空间与 $A^T$ 的行空间（由于转置，也即 $A$ 的列空间）垂直，展示为figure4.2的右边部分。

投影矩阵P

什么是投影矩阵？我们结合figure4.6说明这个概念。

在这里插入图片描述

从向量入手

先看左边部分，这是一个将向量 $\vec{b}$ 投影到 $\vec{a}$ 上的问题，结合正交的定义，我们有
$\vec{e} \cdot \vec{a} = 0 \Rightarrow (\vec{b}-\vec{p}) \cdot \vec{a} = 0 \Rightarrow \vec{b} \cdot \vec{a} - \vec{p} \cdot \vec{a} = 0 \Rightarrow \vec{p} \cdot \vec{a} = \vec{b} \cdot \vec{a}$
两边同时右乘 $\vec{a}$ ，注意向量乘法不满足结合律，矩阵乘法才满足，但矩阵乘法不满足交换律，向量乘法满足。于是就有
$\vec{p} |a|^2 = \vec{b} \cdot \vec{a} \cdot \vec{a} \Rightarrow \vec{p} = \frac{\vec{b} \cdot \vec{a}}{|a|^2}\vec{a}= \frac{\vec{a} \cdot \vec{b} }{|a|^2}\vec{a}$
我们用矩阵形式表示上述向量式， $a^Ta$ 表示对 $\vec{a}$ 所表示列向量的模值平方，且注意到 $a^Tb$ 也为一数，就有：
$\frac{a^Tb}{a^Ta}a= a\frac{a^Tb}{a^Ta}=\frac{a a^T}{a^Ta}b$
投影矩阵于是起到这样一个作用，找出了向量 $\vec{b}$ 在向量 $\vec{a}$ 上的分量，也就是 $Pb=a\hat{x}$ 。对于左边部分，投影矩阵即
$\frac{a a^T}{a^Ta}$

再看矩阵

但看这个过程，我们很容易发现， $a^Ta$ 和 $a^Tb$ 均为数这个条件是苛刻的，针对的是一维的列矩阵；对于一般性的矩阵，这两个的结果都是矩阵而非一个数。于是我们继续来看右边部分，将 b 投影到一个用二维列向量表示的平面上。尽管方程变复杂了，但得到方程仍旧是一样的，即用平面中的一组基底与 $\vec{e}$ 作内积后结果为0。那么对于 $A$ 而言，其两个基底所在的平面即其列空间，若将e视作一个列向量，即解方程：
$A^Te=0$
我们从投影矩阵P的角度去产生e：
$b-p=b-Pb=b-A\hat{x}$
反代后，就有:
$A^T(b-A\hat{x})=A^Tb-A^TA\hat{x}=0 \Rightarrow A^T A\hat{x} = A^Tb \Rightarrow \hat{x} = (A^TA)^{-1}A^Tb \Rightarrow p = A\hat{x} = A(A^TA)^{-1}A^Tb$
最后推得投影矩阵P
$P = A(A^TA)^{-1}A^T$
但这种推导，显然基于一个假设，即 “If A has independent columns, then $A^TA$ is invertible.” 或言之，对于A而言，存在左逆矩阵。

最小二乘法

一个有趣的关于投影矩阵的用法是导出最小二乘法，其常用于线性回归，我们既可以用一般性的梯度下降法交给计算机迭代导数求解，也可以直接从矩阵出发求解。我们不如来看一个一般性的例子：
$\begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \\ a_{31} & a_{32} \\ . & .\\. & .\\ . &.\end{bmatrix} \begin{bmatrix} C \\ D \end{bmatrix} = \begin{bmatrix} b_1 \\ b_2 \\ b_3 \\ . \\ . \\ . \end{bmatrix} =b$
$A x = b$ 对于数据点个数（方程数）远大于拟合的参数个数（2个未知数）时，显然要么有解要么就无解。按照最小二乘的想法，面对无解的情况时，我们应求下列函数的最小值，即
$min \ \ (a_{11}C+a_{12}D-b_1)^2+(a_{21}C+a_{22}D-b_2)^2+(a_{31}C+a_{32}D-b_3)^2+...$
我们对C和D分别求偏导(已略去系数2)，就有
$a_{11} (a_{11}C+a_{12}D-b_1)+a_{21}(a_{21}C+a_{22}D-b_2)+a_{31}(a_{31}C+a_{32}D-b_3)+... = 0 \\ a_{12} (a_{11}C+a_{12}D-b_1)+a_{22}(a_{21}C+a_{22}D-b_2)+a_{32}(a_{31}C+a_{32}D-b_3)+... = 0 \\$
我们将两个式子相加，不难发现，C的系数即是 $\sum a_{i1}^2+a_{i1}a_{i2}$ ，D的系数即是 $\sum a_{i2}^2+a_{i1}a_{i2}$ , 而 $b_i$ 前的系数相当于 $a_{i1}+a_{i2}$ 。于是我们可以写出这个方程
$A^TA \begin{bmatrix} C \\ D \end{bmatrix} = A^Tb$
于是A的左逆存在时，就有：
$\begin{bmatrix} C \\ D \end{bmatrix} =(A^TA)^{-1}A^Tb$
那么问题来了，如何从P导出这个式子呢？我们知道，当P存在时，我们就能将不在A列空间中的b投影到A所在的列空间中，这就能形成有解的保证。也就是说：
$\hat{x} \Rightarrow A(A^TA)^{-1}A^Tb = A\hat{x}$
于是我们就有
$\hat{x} = (A^TA)^{-1}A^Tb$
从这种角度去看，最小二乘法的实质就是让向量投影到平面上所产生的误差和 $\sum e_i$ （向量和）最小 。我们可以用matlab验证其正确性，即 先用ployfit函数求解，再用矩阵验证。

% 用matlab自带的ployfit函数拟合曲线

x=[9,13,15,17,18.6,20,23,29,31.7,35];
y=[-8,-6.45,-5.1,-4,-3,-1.95,-1.5,-0.4,0.2,-0.75];
coefficient=polyfit(x,y,1);  %用一次函数拟合曲线，想用几次函数拟合，就把n设成那个数
y1=polyval(coefficient,x);
plot(x,y,'o',x,y1,'-');
legend('散点',['拟合曲线y=',num2str(coefficient(1)),'*x',num2str(coefficient(2))]);

% 验证
c = ones(1,length(x)); % 常数列
A = [c;x]'; % 矩阵A
est = inv(A'*A)*A'*y'; % 估计值
text(15,-6,['常数项系数=',num2str(est(1)),'  一次项系数=',num2str(est(2))]);

在这里插入图片描述

标准正交矩阵

性质

所谓标准，即组成矩阵的向量组中每个向量模值为1，所谓正交，即向量组中的任意两个向量的内积为0，即一开始就提醒的““Follow the rules””。规定这样一个特殊的矩阵必然有一些优良的性质，由于任意两个向量的内积为0，我们很容易明白其都是线性无关的。根据标准正交矩阵的定义，我们很容易推得下式：
$QQ^T = I$
因为Q的各列只是与自己是相关的，且模为1，与其余各列都是无关的，内积均为0，所以结果将是一个单位阵。进一步对于方阵而言，我们知道由于各列线性无关，逆必然存在，而逆的定义似乎也就是这里 $Q^T$ 所在的位置，于是，就有
$Q^{-1}=Q^{T}$
标准正交方阵的逆就是其转置，这份礼物让人足够开心。

过程

我们来展示将矩阵标准正交化的方法，即Gram-Schmidt正交化，该步骤分为两步，第一步是正交化，第二步是标准化。理解正交化的原理同样可借助于我们投影矩阵P的那个图，即我们现在不求p二是求正交的e。

借助figure4.6，我们知道e应该是这么求的：
$b-Pb=b-a(a^Ta)^{-1}a^Tb = b-\frac{ a^T b}{a^Ta}a$
类似的，如果是对于一个平面而言，则应该是减去前面已正交化的两个基底，即：
$c-P_1c-P_2 c=c-\frac{ a^T c}{a^Ta}a -\frac{ B^T c}{B^TB}B$

可以验证 $a^TB=0，a^TC=0，B^Ta=0， B^TC=0$ ，这说明我们这种正交化方法的正确性。

根据图示我们着重来看列3正交化的过程，由前文已知，c减去的两项实际是c在a和B上的投影，如果我们先将这个投影相加，那么结果就是蓝色平面中的红色对角线ON，相当于要说明：
$\Rightarrow MN \perp 平面OPNQ ？$
请添加图片描述
实际上，这个结论是显然的：
$\perp PM，OP \perp PN(OQ) \Rightarrow OP \perp MN \\ OQ \perp QM，OQ \perp QN(OP) \Rightarrow OQ \perp MN \\ MN \perp OP , MN \perp OP \Rightarrow MN \perp 平面OPNQ \\$
由此可合理外推，对于超平面而言，第n个向量应减去已正交化的n-1个基底。当然，这种基于空间垂直出发的视角对于矩阵来说显得繁琐，同矩阵的 $A = L U$ 变换一样，矩阵的标准正交化也对应着一个矩阵R，即 $A = Q R$ 。我们容易看出这个R是一个上三角矩阵（验证矩阵Q的标准正交性质），以三维空间为例
$\begin{bmatrix} a & b &c \end{bmatrix}= \begin{bmatrix} q_1 & q_2 & q_3 \end{bmatrix}\begin{bmatrix} q_1^Ta & q_1^Tb & q_1^Tc \\ 0 & q_2^Tb & q_2^Tc \\ 0 & 0 &q_3^Tc \end{bmatrix}$
由A (=a) 、B、C推得 $q_1$ 、 $q_2$ 、 $q_3$ 的过程还差一步，即标准化，只需将已正交化的向量除以其模即可：
$_1 = \frac{A}{|A|} \ \ \ q _2 = \frac{B}{|B|} \ \ \ q _3 = \frac{C}{|C|}$

例子

用一个例子作为结束：
$\begin{bmatrix} 1 &3 & 1 \\ 2 & 2 &2 \\ 3 & 1 & 1 \end{bmatrix} =\begin{bmatrix} a_1 & a_2 & a_3 \end{bmatrix}$

先来看个空间直观一下：

% 画向量图
quiver3(0,0,0,1,2,3,'m'); hold on; quiver3(0,0,0,3,2,1,'black'); % 基底
hold on;  quiver3(0,0,0,1,2,1,'r');  % 列3
V1 = [1;2;3]; V2 = [3;2;1];

% 求法向量
Vn = cross(V1,V2);
Vn = Vn/norm(Vn);

% 画单位法向量
hold on;quiver3(0,0,0,Vn(1),Vn(2),Vn(3),'g');
% 画平面
syms x1;syms x2;syms x3;
plane = -(x1*Vn(1)+x2*Vn(2))/Vn(3);
hold on;
fmesh(plane);
% 标注
legend('列1','列2','列3','单位法向量','列1和列2所在平面');

在这里插入图片描述
首先进行正交化，即
$a_1= \begin{bmatrix} 1 \\2 \\ 3 \end{bmatrix} \\ B = a_2 - \frac{ A^T a_2}{A^TA}A =\begin{bmatrix} 3 \\2 \\ 1 \end{bmatrix}-\frac{10}{14}\begin{bmatrix} 1 \\2 \\ 3 \end{bmatrix}=\begin{bmatrix} 16/7\\ 4/7 \\ -8/7 \end{bmatrix} \\ C = a_3-\frac{ A^T a_3}{A^TA}A-\frac{ B^T a_3}{B^TB}B=\begin{bmatrix} 1 \\2 \\ 1 \end{bmatrix}-\frac{8}{14}\begin{bmatrix} 1 \\2 \\ 3 \end{bmatrix} -\frac{112}{336}\begin{bmatrix} 16/7\\ 4/7 \\ -8/7 \end{bmatrix} = \begin{bmatrix}-1/3 \\ 2/3 \\-1/3\end{bmatrix}$
然后进行标准化，即
$_1 = \frac{A}{|A|} = \begin{bmatrix} 1 \\2 \\ 3 \end{bmatrix}/ \sqrt{14} =\begin{bmatrix} 0.2673 \\ 0.5345 \\ 0.8018 \end{bmatrix} \\ q _2 = \frac{B}{|B|} = \begin{bmatrix} 16/7\\ 4/7 \\ -8/7 \end{bmatrix} / \sqrt{336/49} = \begin{bmatrix} 0.8729 \\ 0.2182 \\ -0.4362 \end{bmatrix}\\ q _3 = \frac{C}{|C|} = \begin{bmatrix}-1/3 \\ 2/3 \\-1/3\end{bmatrix}/\sqrt{6/9}=\begin{bmatrix} -0.4082 \\ 0.8165 \\ -0.4082\end{bmatrix}$

上述施密特正交化方法的编程实现见下，matlab中也可自带的orth函数可直接求一组标准正交基，可以验证结果的正确性。

a = [1,3,1;2,2,2;3,1,1];

%% 施密特正交化方法
[m,n] = size(a);
if(m<n)
    error('行小于列，无法计算，请转置后重新输入');
end
b=zeros(m,n);
%正交化
b(:,1)=a(:,1);
for i=2:n
    for j=1:i-1
        b(:,i)=b(:,i)-dot(a(:,i),b(:,j))/dot(b(:,j),b(:,j))*b(:,j);
    end
    b(:,i)=b(:,i)+a(:,i);
end

%单位化
for k=1:n
    b(:,k)=b(:,k)/norm(b(:,k));
end

%% 直接用orth方法
result = orth(a);
b
result

b =

    0.2673    0.8729   -0.4082
    0.5345    0.2182    0.8165
    0.8018   -0.4364   -0.4082


result =

   -0.5494   -0.7071   -0.4451
   -0.6295   -0.0000    0.7770
   -0.5494    0.7071   -0.4451