ppt
video

Lecture 9: Linear Regression 线性回归

9.1 Linear Regression Problem 线性回归问题

考虑一个问题，银行按照每个顾客的个人情况，赋予不同的信用额度。我们可不可以通过机器学习，学到一个赋予信用额度的比较好的方式呢？
信用额度是一个实数，所以输出 $y \in R$ ，属于回归问题。
这里介绍最简单的一种，即线性回归:
901

对 $x$ 的每一个维度特征 $x_i$ 赋予一个权重 $w_i$ 表示重要程度，再求和，得到 $y$ ，这是线性回归的基本思想。

得到的 $h(x)$ 类似于我们之前学到的感知器算法，但是没有添加符号 $sign$ 这个步骤。

902

线性回归的几何表示如上图，寻找最优的 $h(x)$ 实际上是寻找最优的线或者超平面。

903

线性回归算法中，我们普遍使用“squared error”的错误度量方式。

9.2 Linear Regression Algorithm 线性回归算法

上面一小节，关于线性回归的演算法公式，我们已经介绍清楚了。
接下来，我们需要考虑的问题是，如何计算 $E_{in}$ 的最小值。
在推导之前，我们先来复习一下向量和矩阵的一些相关运算。

向量、矩阵运算

向量的内积

$\vec{a} \cdot \vec{b} = |\vec{a}| \cdot |\vec{b}| \cdot cos(\vec{a},\vec{b})$
$\vec{b} \cdot \vec{a} = |\vec{b}| \cdot |\vec{a}| \cdot cos(\vec{b},\vec{a})$
所以， $\vec{a} \cdot \vec{b} = \vec{b} \cdot \vec{a}$ ，向量的内积符合交换律。

矩阵的行列式计算

只有方针才有行列式值。
二阶行列式计算如下：
$| D | = d e t (A) = d e t (| \begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix} |) = a_{11} a_{22} - a_{21} a_{12}$ $|D| = det(A) = det(\begin{vmatrix} a_{11}&a_{12}\\ a_{21}&a_{22} \end{vmatrix}) = a_{11}a_{22} - a_{21}a_{12}$
奇排列：逆序数为奇数的排列
偶排列：逆序数为偶数的排列
例如： $123$ 共有 $3*2*1=6$ 种排列方式，其中 $132$ 逆序数为1，为奇排列； $231$ 逆序数为2，为偶排列。
三阶行列式计算如下：
$| D | = d e t (A) = d e t (| \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix} |) = a_{11} a_{22} a_{33} + a_{12} a_{23} a_{31} + a_{13} a_{21} a_{12} - a_{11} a_{23} a_{31} - a_{13} a_{22} a_{31} - a_{12} a_{21} a_{33}$ $|D| = det(A) = det(\begin{vmatrix} a_{11}&a_{12}&a_{13}\\ a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33} \end{vmatrix}) \\ = a_{11}a_{22}a_{33}+a_{12}a_{23}a_{31}+a_{13}a_{21}a_{12} - a_{11}a_{23}a_{31} - a_{13}a_{22}a_{31} - a_{12}a_{21}a_{33}$
可以看出偶排列前面符号为正号，奇排列前面符号为负号。
所以，三阶行列式可写成
$| D | = \sum_{p_{1} p_{2} p_{3}} (- 1)^{τ (p 1 p 2 p 3)} a_{1 p 1} a_{2 p 2} a_{3 p 3}$ $|D| = \sum_{p_{1}p_{2}p_{3}} {(-1)^{\tau(p1p2p3)}a_{1p1}a_{2p2}a_{3p3}}$
其中， $\tau(p1p2p3)$ 代表排列的逆序数， $p1p2p3$ 代表所有排列。
扩展到 $n$ 阶行列式，

$| D | = \sum_{p_{1} p_{2} . . . p_{n}} (- 1)^{τ (p 1 p 2... p n)} a_{1 p 1} a_{2 p 2} . . . a_{n p n}$ $|D| = \sum_{p_{1}p_{2}...p_{n}} {(-1)^{\tau(p1p2...pn)}a_{1p1}a_{2p2}...a_{npn}}$
一共有 $n!$ 项
计算是这样计算的，但是行列式的本质是什么呢？可以看知乎这篇回答：
https://www.zhihu.com/question/36966326
我看了之后也不太懂，但有个结论说：行列式是线性变换的伸缩因子.。
$det(A) > 1$ ，这个矩阵在线性变换中有放大作用
$det(A)=1$ ，面积不变
$0<det(A)<1$ ，面积减小
$det(A) = 0$ ，图形降维，矩阵不可逆
$det(A)<0$ ，转…无法理解暂时，待填坑。

希望之后能理解吧，现在是真的理解不了。

矩阵的转置

将原矩阵的行与列交换后得到的矩阵叫做转置矩阵。
直观地看，它是将矩阵 $A$ 的所有元素绕着一条从第1行第1列元素出发的右下方45度射线做镜面翻转，即得到 $A$ 的转置。
相关性质： $(A \pm B)^{T} = A^{T} \pm B^{T}$
$(A * B)^{T} = B^{T} * A^{T}$
$(A^T)^T = A$
$(KA)^T = K*A^T$

矩阵的奇异性

奇异矩阵的英文叫做singular matrix，意思为异常的矩阵。
实际上他就是非可逆矩阵，不满秩矩阵，行列式为0的矩阵。

减小 $E_{in}$

第一步是将 $E_{in}(w)$ 改造成矩阵形式。
904

$w^Tx_n = x_n^Tw$ 成立的原因：
- 首先 $A^TB$ 一般情况下式不等于 $B^TA$ 的，推导如下：
  由矩阵转置定理 $(AB)^T = B^TA^T$ ，得
  $(A^TB)^T = B^T(A^T)^T = B^TA$
  即 $(A^TB)^T = B^TA$ ，
  如果此时增加条件 $A^TB = B^TA$ ，即 $(A^TB)^T = A^TB$ ，
  就是说 $A^TB$ 是以左上-右下45度对角线镜面对称的方阵。
  即只有矩阵 $M$ 是45度镜面对称时，其转置等于它本身。
- 假设输入 $x$ 有 $d$ 维特征， $w = \begin{vmatrix} w_{0}\\ w_{1}\\w_2\\...\\w_d \end{vmatrix}$ 是列向量，一个 $(d+1)*1$ 的矩阵， $x_n = \begin{vmatrix} x_{n0}\\x_{n1}\\...\\x_{nd}\end{vmatrix}$ 是列向量，也是一个 $(d+1)*1$ 的矩阵。 $w^Tx_n$ 就是 $[1*(d+1)]* [1*(d+1)]$ 也就是维度为 $1*1$ 的矩阵，即一个实数，它必然是镜面对称的。所以 $w^Tx_n = x_n^Tw$ 成立。
将平方求和改造成向量模的平方：
- 假设我们有个向量 $\vec{v} = \{v_1,v_2,v_3\}$ ， $|\vec{v}|^2 = {v_1}^2 + {v_2}^2+{v_3}^2$
- 同理 $\sum_{n = 1}^{N} (x_{n}^{T} w - y_{n})^{2} = {| \begin{matrix} x_{1}^{T} w - y_{1} \\ x_{2}^{T} w - y_{2} \\ . . . \\ x_{N}^{T} w - y_{N} \end{matrix} |}^{2}$ $\sum_{n=1}^N(x_n^Tw-y_n)^2 = \begin{vmatrix} x_1^Tw-y_1\\ x_2^Tw-y_2\\...\\x_N^Tw-y_N\end{vmatrix}^2$
矩阵的线性变换
- 根据矩阵的加减法，加减的线性变换是显而易见的。即令 $Y = | \begin{matrix} y_{1} \\ y_{2} \\ . . . \\ y_{N} \end{matrix} |$ $Y = \begin{vmatrix} y_1\\y_2\\...\\y_N\end{vmatrix}$
- 根据矩阵的乘法，将 $x_n^Tw$ 的 $w$ 项拆出来，即新的 $X = \begin{vmatrix} x_1^T\\x_2^T\\...\\x_N^T\end{vmatrix}$ ,行列数为 $[N*(d+1)]$

最终， $E_{in}(w)$ 的矩阵形式为

E_{i n} (w) = \frac{1}{N} | | X w - Y | |^{2}

$E_{in}(w) = \frac{1}{N}||Xw-Y||^2$

第二步，探索 $E_{in}(w)$ 的图像走势，寻找使其最小的 $w$
905

我们把这个 $E_{in}(w)$ 看成以 $w$ 为自变量的二次函数，这个函数是连续的，可微分的，凸函数。这样的函数肯定存在极值点，这个极值点的的梯度为0。
林教授解释梯度很形象，他说当一个球到达凸函数的谷底，它往哪个方向都滚不动，梯度定义如上图，对函数的每个方向(变量)作偏微分。哪里都滚不动，我们就说各个方向的偏微分即梯度为0。

所以我们的任务是找到使得函数梯度为0的 $w$ 向量。

906

拆平方，扩写 $E_{in}(w)$

E_{i n} (w) = \frac{1}{N} | | X w - Y | |^{2} = \frac{1}{N} | | (X w - Y)^{T} (X w - Y) | |

$E_{in}(w) = \frac{1}{N}||Xw-Y||^2 = \frac{1}{N} ||(Xw-Y)^T(Xw-Y)||$
注意到这里使用了矩阵乘法的一些技巧，

E_{i n}

$E_{in}$ 肯定是个值，但是

X w - Y

$Xw-Y$ 是个

(d + 1) * 1

$(d+1)*1$ 的矩阵，所以求标量平方值需要使用转置。

(X w - Y)^{T} (X w - Y) = ((X w)^{T} - Y^{T}) (X w - Y) = (w^{T} X^{T} - Y^{T}) (X w - Y) = w^{T} X^{T} X w - w^{T} X^{T} Y - Y^{T} X w + Y Y^{T}

$(Xw-Y)^T(Xw-Y) = ((Xw)^T-Y^T)(Xw-Y)\\ = (w^TX^T-Y^T)(Xw-Y)\\ =w^TX^TXw - w^TX^TY - Y^TXw+YY^T$

之前再证明 $w^Tx_n = x_n^Tw$ 成立时，提到，当矩阵 $M$ 是45度镜面对称时，其转置等于它本身。这里 $Y^T(Xw)$ 结果是 $1*1$ 的矩阵，镜面对称，所以，

(Y^{T} (X w))^{T} = (X w)^{T} (Y^{T})^{T} = w^{T} X^{T} Y

$(Y^T(Xw))^T = (Xw)^T(Y^T)^T = w^TX^TY$
这样，上面的因式分解式的中间两项可写成

w^{T} X^{T} X w - 2 w^{T} X^{T} Y + Y Y^{T}

$w^TX^TXw - 2 w^TX^TY +YY^T$
保留自变量

w

$w$ ，令因变量

A = X^{T} X, b = X^{T} Y, c = Y Y^{T}

$A = X^TX,\ b=X^TY,\ c=YY^T$

E_{i n} (w)

$E_{in}(w)$ 可写为：

E_{i n} (w) = \frac{1}{N} (w^{T} A w - 2 w^{T} b + c)

$E_{in}(w) = \frac{1}{N}(w^TAw-2w^Tb+c)$

看上图，当 $w$ 只有一维时， $E_{in}(w)$ 简化成简单的二次式。
类推，当 $w$ 有多维时，

▽ E_{i n} (w) = \frac{1}{N} (2 A w - 2 b)

$\triangledown E_{in}(w) = \frac{1}{N}(2Aw-2b)$

我们需要要求梯度为0时的 $w$ 就非常简单了：

A w - b = 0 => A w = b => (A)^{- 1} A w = A^{- 1} b

$Aw-b=0 => Aw = b =>(A)^{-1}Aw = A^{-1}b$
即，当

A

$A$ 可逆时

w = A^{- 1} b = X^{T} X X^{T} Y

$w = A^{-1}b\\ =X^TXX^TY$
我们把

X^{X} X^{T}

$X^XX^T$ 叫做

X

$X$ 的伪逆矩阵,

X^{∔}

$X^\dotplus$ 。

907

虽然由于 $N \ggg g$ ， $X^TX$ 在大多数情况都是可逆的；但也不排除存在奇异矩阵 $X^TX$ ，这样的话就会有很多组解，但是其中一组解仍是 $X^\dotplus Y$ ，这里 $X^\dotplus$ 可能会有很多种定义方式。

我们在实践中，只需要调用软件程序中已经定义好的 $\dotplus$ 即可。

908

Fun Time说当我们已经得到了 $w_{LIN}$ ，可以做预测了，我们预测的 $\hat y$ 会长什么样呢？
答案是：只需要将算好的 $w$ 代入即可。

【林轩田】机器学习基石（九）——线性回归

Lecture 9: Linear Regression 线性回归

9.1 Linear Regression Problem 线性回归问题