7.1 Introduction

线性回归（Linear Regression）是统计学和机器学习中的主力军（work horse），当用核函数等做基函数扩充（basis function expansion）时，又可以模拟非线性关系。除了回归问题，如果用伯努利或者多努利分布代替高斯分布，那么就可以用来做分类问题（classification），下一章会讲。

7.2 Model specification 模型的确定

先来回顾第一章的 1.4.5 小节推导线性回归的内容。假设我们想用所有特征的线性组合来预测回归问题，可以写成下面的形式，

y (x) = w T x + ϵ = \sum j = 1 D w j x j + ϵ

$y(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + \epsilon = \sum_{j=1}^D w_j x_j + \epsilon$ 其中

wTx $\mathbf{w}^T \mathbf{x}$ 表示输入向量

x $\mathbf{x}$ 和权重向量

w $\mathbf{w}$ 的内积，

ϵ $\epsilon$ 表示 残差（residual error），即真实值和预测值之间的误差。一般我们会假设残差是服从高斯分布的，表示为

ϵ∼N(μ,σ2) $\epsilon \sim \mathcal{N}(\mu, \sigma^2)$ 。

为了更清楚的表示线性回归和高斯分布之间的关系（吐槽：感觉其实书里还是没讲清楚），我们可以重写线性模型的形式，

p (y | x, θ) = N (y | μ (x), σ 2 (x))

$p(y|\mathbf{x}, \boldsymbol\theta) = \mathcal{N}(y|\mu(\mathbf{x}), \sigma^2(\mathbf{x}))$ 假如我们考虑最简单的情况，令

μ(x)=wTx,σ2(x)=σ2 $\mu(\mathbf{x}) = \mathbf{w}^T \mathbf{x}, \sigma^2(\mathbf{x}) = \sigma^2$ ，就会得到

p (y | x, θ) = N (y | w T x, σ 2)

$p(y|\mathbf{x}, \boldsymbol{\theta}) = \mathcal{N}(y|\mathbf{w}^T\mathbf{x}, \sigma^2)$ 这个就是线性回归的形式。

为了让模型有拟合 $x,y$ 之间非线性关系的能力，可以用一个基函数扩充（basic function expansion） $\phi(\mathbf{x})$ 来代替 $\mathbf{x}$ ，得到

p (y | x, θ) = N (y | w T ϕ (x), σ 2)

$p(y|\mathbf{x}, \boldsymbol{\theta}) = \mathcal{N}(y|\mathbf{w}^T\phi(\mathbf{x}), \sigma^2)$ 一种很简单的例子是多项式基函数（polynomial basic function），

ϕ (x) = [1, x, x 2, \dots, x d]

$\phi(\mathbf{x}) = [1, x, x^2, \cdots , x^d]$

7.3 MLE (or least squares) 最大似然估计（最小二乘法）

线性回归里的参数是 $\boldsymbol\theta = (\mathbf{w}, \sigma)$ ，可以考虑用最大似然估计来求解，

θ^≜ arg max θ log p (D | θ)

$\hat{\boldsymbol\theta} \triangleq \arg\max_\theta \log p(\mathcal{D} | \boldsymbol\theta)$ 若样本中所有的数据都是独立同分布的（iid，independent and identically distributed），那么可以构造似然函数，

ℓ (θ) ≜ log p (D | θ) = \sum i = 1 N log p (y i | x i, θ)

$\ell(\boldsymbol\theta) \triangleq \log p(\mathcal{D} | \boldsymbol\theta) = \sum_{i=1}^N \log p(y_i | \mathbf{x}_i, \boldsymbol\theta)$ 也有别的构造方式，如考虑最大化似然函数，也等价于最小化负对数似然函数（ NLL, negative log likelihood），

NLL (θ) ≜ - \sum i = 1 N log p (y i | x i, θ)

$\text{NLL}(\boldsymbol\theta) \triangleq - \sum_{i=1}^N \log p(y_i | \mathbf{x}_i, \boldsymbol\theta)$

回忆一下高斯分布的公式，

N (x | μ, σ 2) ≜ 1 2 π σ 2 - - - - \sqrt e - 1 2 σ 2 (x - μ) 2

$\mathcal{N}(x|\mu,\sigma^2) \triangleq \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x-\mu)^2}$ 代入似然函数得，

ℓ (θ) = \sum i = 1 N log ⎡ ⎣ (1 2 π σ 2) 1 2 exp (- 1 2 σ 2 (y i - w T x i) 2) ⎤ ⎦ = - 1 2 σ 2 RSS (w) - N 2 log (2 π σ 2)

$\begin{align*} \ell(\boldsymbol\theta) & = \sum_{i=1}^N \log \left [ \left( \frac1{2\pi\sigma^2} \right)^\frac12 \exp \left( - \frac1{2\sigma^2}(y_i - \mathbf{w}^T\mathbf{x}_i)^2 \right ) \right ] \\ & = -\frac1{2\sigma^2} \text{RSS}(\mathbf{w}) - \frac{N}{2} \log (2 \pi \sigma^2) \end{align*}$ 其中

RSS≜∑Ni=1(yi−wTxi)2 $\text{RSS} \triangleq \sum_{i=1}^N (y_i - \mathbf{w}^T\mathbf{x}_i)^2$ 表示 残差平方和（residual sum of squares），当然还有一个更重要的名字，叫做 均值方差（MSE, mean squared error），可以写成残差

ℓ2 $\ell_2$ 范数的形式，

RSS (W) = ∥ ϵ ∥ 22 = \sum i = 1 N ϵ 2 i

$\text{RSS}(\mathbf{W}) = \| \epsilon \|^2_2 = \sum_{i=1}^N \epsilon_i^2$ 其中

ϵi=(yi−wTxi) $\epsilon_i = (y_i - \mathbf{w}^T\mathbf{x}_i)$ 表示残差。可以看出，

最大化线性回归的似然函数，就等价于最小化均值方差 RSS，即等价于最小二乘法。

7.3.1 Derivation of the MLE 最大似然估计推导

线性回归中的参数为权重向量 $\mathbf{w}$ ，可以直接通过矩阵的运算直接求解，下面推导一下。

首先考虑把要最小化的目标函数写成更容易微分的形式，

NLL (w) = 1 2 (y - X w) T (y - X w) = 1 2 w T (X T X) w - w T (X T y)

$\text{NLL}(\mathbf{w}) = \frac12 (\mathbf{y} - \mathbf{Xw})^T(\mathbf{y} - \mathbf{Xw}) = \frac12 \mathbf{w}^T(\mathbf{X}^T\mathbf{X})\mathbf{w} - \mathbf{w}^T(\mathbf{X}^T\mathbf{y})$ 对于这个公式的理解，首先我觉得应该是

RSS $\text{RSS}$ 而非

NLL $\text{NLL}$ ，其实应该是求导，而非直接等于，这样后面某些项才能转换和舍去，书里太不严谨了。

化简成这种形式以后，后面的两项

X T X = \sum i = 1 N x i x T i = \sum i = 1 N ⎛ ⎝ ⎜ ⎜ ⎜ x 2 i, 1 x i, 1 x i, D \dots ⋱ \dots x i, 1 x i, D x 2 i, 1 ⎞ ⎠ ⎟ ⎟ ⎟, X T y = \sum i = 1 N x i y i

$\mathbf{X}^T\mathbf{X} = \sum_{i=1}^{N}\mathbf{x}_i \mathbf{x}_i^T = \sum_{i=1}^N \begin{pmatrix} x_{i,1}^2 & \cdots & x_{i,1}x_{i,D} \\ & \ddots \\ x_{i,1}x_{i,D} & \cdots & x_{i,1}^2 \end{pmatrix},\quad \mathbf{X}^T \mathbf{y} = \sum_{i=1}^N \mathbf{x}_i y_i$ 其中

(xi)D×1 $(\mathbf{x}_i)_{D \times 1}$ 是列向量，表示第

i $i$ 个样本，矩阵

(XT)D×N=(x1,⋯,xN) $(\mathbf{X}^T)_{D \times N} = (\mathbf{x}_1,\cdots,\mathbf{x}_N)$ 是所有的样本，即训练集的矩阵表示。注意

N $N$ 是样本个数，

D $D$ 是每个样本的特征维度。

(y)N×1 $(\mathbf{y})_{N \times 1}$ 是列向量，表示样本的标签（label）。

利用矩阵求导的法则，且 $\mathbf{X}^T\mathbf{X}$ 为对称矩阵，有

g (w) = X T X w - X T y

$\mathbf{g}(\mathbf{w}) = \mathbf{X}^T\mathbf{X}\mathbf{w} - \mathbf{X}^T \mathbf{y}$ 令导数为零，可以推导出

XTXw=XTy $\mathbf{X}^T\mathbf{X}\mathbf{w} = \mathbf{X}^T \mathbf{y}$ 那么最后要求的解就是

w^OLS = (X T X) - 1 X T y

$\hat{\mathbf{w}}_{\text{OLS}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \mathbf{y}$ 其中

OLS $\text{OLS}$ 表示 Ordinary least squares or OLS，指的就是原始的线性回归，即原始的最小二乘法。

7.3.2 Geometric interpretation 几何解释

考虑如果样本数量大于特征的维度，即 $N > D$ ，那么矩阵 $\mathbf{X}$ 定义了维度 $D$ 的一个线性子空间，第 $j$ 列用 $\hat{\mathbf{x}_j} \in \mathbb{R}^N$ 表示，所以 $\mathbf{X} = (\hat{\mathbf{x}_1},\cdots,\hat{\mathbf{x}_D})$ 。而我们想要找一个 $\hat{\mathbf{y}} \in \mathbb{R}^N$ 在此线性子空间中（lies in this linear subspace）而且尽可能地和 $\mathbf{y}$ 相近，即

argminy^∈span({x1^,⋯,xD^})∥y−y^∥2

$\arg\min_{\hat{\mathbf{y}} \in \text{span}(\{\hat{\mathbf{x}_1},\cdots,\hat{\mathbf{x}_D}\})} \| \mathbf{y} - \hat{\mathbf{y}} \|_2$ 因为

y^∈span(X) $\hat{\mathbf{y}} \in \text{span}(\mathbf{X})$ ，所以一定存在列向量

w=(w1,⋯,wD)T $\mathbf{w} = (w_1,\cdots,w_D)^T$ ，即权重向量，使得

y^= w 1 x 1^+ \dots + w D x D^= X w

$\hat{\mathbf{y}} = w_1 \hat{\mathbf{x}_1} + \cdots + w_D \hat{\mathbf{x}_D} = \mathbf{X}\mathbf{w}$ 为了最小化残差

y−y^ $\mathbf{y} - \hat{\mathbf{y}}$ ，需要令残差向量正交于

X $\mathbf{X}$ 的每一列。即，对

j=1:D $j = 1:D$ ，

x^j (y - y^) = 0 \Rightarrow X T (y - X w) = 0 \Rightarrow w = (X T X) - 1 X T y

$\hat{\mathbf{x}}_j(\mathbf{y} - \hat{\mathbf{y}}) = 0 \Rightarrow \mathbf{X}^T(\mathbf{y} - \mathbf{Xw}) = \mathbf{0} \Rightarrow \mathbf{w} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$ 因此

y $\mathbf{y}$ 的投影就是

y^= X w^= X (X T X) - 1 X T y

$\hat{\mathbf{y}} = \mathbf{X}\hat{\mathbf{w}} = \mathbf{X} (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T\mathbf{y}$ 其实就等价于把

y $\mathbf{y}$ 正交投影于

X $\mathbf{X}$ 的列空间，投影矩阵

P≜X(XTX)−1XT $\mathbf{P} \triangleq \mathbf{X} (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T$ 又叫做帽子矩阵（hat matrix），因为只是给

y $\mathbf{y}$ 戴上了一个帽子。

7.3.3 Convexity 凸性

在讨论最小二乘法的时候，可以看到 $\text{NLL}$ 函数是像碗一样的形状，且有唯一的最小值，描述这种性质的属于叫做凸性。

设集合 $\mathcal{S}$ 为凸集的充要条件是，对任意 $\theta, \theta' \in \mathcal{S}$ ，有

λ θ + (1 - λ) θ' \in S, \forall λ \in [0, 1]

$\lambda \theta + (1-\lambda)\theta' \in \mathcal{S},\quad \forall \lambda \in [0, 1]$ 从几何形状上来看，就是连接任意两点的直线，仍在在该集合形状内。从函数的角度来看，一个函数是 凸函数（convex function） 的定义是，此函数上面所有点（epigraph）构成一个凸集。等价地，也可以用下面的函数定义，即对函数

f(x) $f(\mathbf{x})$ 的定义域上任意两点

x1,x2 $\mathbf{x}_1, \mathbf{x}_2$ ，恒有

f (λ x 1 + (1 - λ) x 2) \leq λ f (x 1) + (1 - λ) f (x 2)

$f(\lambda \mathbf{x}_1 + (1-\lambda)\mathbf{x}_2) \le \lambda f(\mathbf{x}_1) + (1-\lambda) f(\mathbf{x}_2)$ 当上述不等式是严格的（strict，就是不取等号），那么此函数也是严格的凸函数。

当函数 $-f(\mathbf{x})$ 是凸函数时，那么原函数 $f(\mathbf{x})$ 就是 凹函数（concave function），两种函数的定义和性质正好都是相反的，但是都存在全局最值点，像碗（bowl）一样的形状。

由于严格的凸函数只有一个全局最优解，其二阶导数一定是正数，那么推广来看，一个多元可微函数为严格凸函数的充要条件是其海森矩阵为正定矩阵。

补充：海森矩阵（Hessian Matrix）是二阶偏导数矩阵，定义为 $H_{jk} = \frac{\partial f^2(\theta)}{\partial \theta_j \partial \theta_k}$ ，其正定的充要条件为任意非零向量 $\mathbf{v}$ 都有 $\mathbf{v}^T\mathbf{Hv} > 0$ 成立。

7.4 Robust linear regression *

在线性回归中，残差服从高斯分布，那么最大化似然函数就等价于最小化残差平方和。然而这种模型对于 outliers 数据拟合地不好，因此我们需要更鲁棒性（robustness）的模型。一个代替高斯分布，能很好处理重尾（heavy tail）的分布式拉普拉斯分布（Laplace Distribution）.

p (y | x, w, b) = Lap (y | w T x, b) \propto exp (- 1 b | y - w T x |)

$p(y|\mathbf{x}, \mathbf{w}, b) = \text{Lap}(y|\mathbf{w}^T \mathbf{x}, b) \propto \text{exp}(-\frac1b |y - \mathbf{w}^T\mathbf{x}|)$ 可以发现从最小化

ℓ2 $\ell_2$ 范数（norm）变成了最小化

ℓ1 $\ell_1$ 范数。

假如固定 $b$ ，残差 $r_i \triangleq y)i - \mathbf{w}^T \mathbf{x}$ ，那么 $\text{NLL}$ 可以写做

ℓ (w) = \sum i | r i (w) |

$\ell(\mathbf{w}) = \sum_i |r_i(\mathbf{w})|$ 因为这是一个非线性的目标函数，所以很难优化，可以用 split variable trick，把目标函数转化成线性函数，加上线性约束。这是一个 线性规划（linear program） 问题。

也可以选用 Huber loss function，

L H (r, δ) = {r 2 / 2 δ | r | - δ 2 / 2 if | r | \leq δ if | r | > δ

$L_H(r, \delta) = \left \{ \begin{matrix} r^2 / 2 & \text{if } |r| \le \delta \\ \delta |r| - \delta^2 / 2 & \text{if } |r| > \delta \end{matrix}\right.$ 当误差较小时，等价于

ℓ2 $\ell_2$ 范数，误差较大时，等价于

ℓ1 $\ell_1$ 范数，但是此函数处处可微，因此梯度更平滑，可以用牛顿法等计算而非线性规划。

7.5 Ridge regression 岭回归

单单用线性回归，很容易过拟合，所以岭回归（Ridge regression）试图在高斯分布前面再加上一个高斯先验，用最大后验估计来代替最大似然估计。当然，频率学派可以用正则化来解释先验，因此岭回归在这两个学派中都有很好的解释，应用也很广泛。

7.5.1 Basic idea 基本思路

书里给了个例子，发现大的权重 $\mathbf{w}$ 会导致拟合出的曲线很都用（wiggly），因为我们可以通过一个高斯先验来鼓励获得小的参数，

p (w) = \prod j N (w j | 0, τ 2)

$p(\mathbf{w}) = \prod_j \mathcal{N}(w_j | 0, \tau^2)$ 其中

1/τ2 $1 / \tau^2$ 控制了先验的力度（strength），和后面的权重衰减参数

λ $\lambda$ 意思应该差不多吧！对应的最大后验估计变成了，

arg max w [\sum i = 1 N log N (y i | w 0 + w T x i, σ 2) + \sum i = 1 D log N (w j | 0, τ 2)]

$\arg\max_\mathbf{w} \left[ \sum_{i=1}^N \log \mathcal{N}(y_i|w_0 + \mathbf{w}^T\mathbf{x}_i, \sigma^2) + \sum_{i=1}^D\log\mathcal{N}(w_j|0, \tau^2) \right]$ 很容易证明（你倒是证明给我看啊？！）出，上式等价于下面的代价函数

J (w) = 1 N \sum i = 1 N (y i - (w 0 + w T x i)) 2 + λ ∥ w ∥ 22

$J(\mathbf{w}) = \frac1N \sum_{i=1}^N (y_i - (w_0 + \mathbf{w}^T \mathbf{x}_i))^2 + \lambda \| \mathbf{w} \|^2_2$ 其中

λ≜σ2/τ2≥0,∥w∥22=∑jw2j=wTw $\lambda \triangleq \sigma^2 / \tau^2 \ge 0, \quad \| \mathbf{w} \|_2^2 = \sum_j w_j^2 = \mathbf{w}^T \mathbf{w}$ ，前者叫权重衰减参数，后者是

ℓ2 $\ell_2$ 范数的平方。上面损失函数的前一项是 MSE/NLL，后一项是复杂度惩罚（complexity penalty），或者叫做

ℓ2 $\ell_2$ 正则项（regulrization）。

类似的，最小化代价函数可以得到

w^r i d g e = (λ I D + X T X) - 1 X T y

$\hat{\mathbf{w}}_{ridge} = (\lambda \mathbf{I}_D + \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$ 易知，当

λ=0 $\lambda = 0$ 时，

w^ridge=w^OLS $\hat{\mathbf{w}}_{ridge} = \hat{\mathbf{w}}_{\text{OLS}}$

此外，这里总结一下范数的一些见解。首先，范数可以是向量范数，也可以是矩阵范数。这里这讨论向量范数，其本质上是衡量向量之间距离的一种数学工具。若有向量 $\mathbf{x} = (x_1, x_2,\cdots,x_n)$ ，那么常见的范数有

ℓ0 norm≜∥x∥0
- 求解向量中绝对值不为零的元素的个数
- 可以让参数 稀疏化
ℓ1 norm≜∥x∥1=∑ni=1|xi|
- 向量各元素绝对值之和，Lasso 套索
- 也鼓励参数稀疏化，但是比 $\ell_0$ 范数更容易实现，因此用的更多
ℓ2 norm≜∥x∥2=∑ni=1x2i
- 做模型复杂度的惩罚项，权重衰减，惩罚大的权重。
- 岭回归（ridge regression）里有用到。

7.5.2 Numerically stable computation *

岭回归不仅有抑制过拟合的作用，而且在矩阵求逆的时候， $(\lambda \mathbf{I}_D + \mathbf{X}^T \mathbf{X})^{-1}$ 会比 $(\mathbf{X}^T\mathbf{X})^{-1}$ 得到的结果更稳定。后者其实是一个病态的矩阵（ill-condition），就是说，矩阵元素的微小改动（比如从0.9变成0.8999），都会造成结果的很大偏差。而岭回归实际上是丢失了无偏性，但是换来了矩阵求逆时的稳定性。在对角线元素加上一个 $\lambda$ 会使得矩阵不会偏向于奇异矩阵，特征值也会变得很大。

7.5.3 Connection with PCA *

OLS 和 ridge regression 都是属于 shrinkage method。主成分回归（PCR Principle Components Regression）指的是先用主成分分析降维，然后再用岭回归做回归。

7.5.4 Regularization effects of big data

数据越多越好，越不容易过拟合。

7.6 Bayesian linear regression 贝叶斯线性回归

MLaPP Chapter 7 Linear Regression 线性回归

7.1 Introduction

7.2 Model specification 模型的确定

7.3 MLE (or least squares) 最大似然估计（最小二乘法）

7.3.1 Derivation of the MLE 最大似然估计推导

7.3.2 Geometric interpretation 几何解释

7.3.3 Convexity 凸性

7.4 Robust linear regression *

7.5 Ridge regression 岭回归

7.5.1 Basic idea 基本思路

7.5.2 Numerically stable computation *

7.5.3 Connection with PCA *

7.5.4 Regularization effects of big data

7.6 Bayesian linear regression 贝叶斯线性回归

7.6.1 Computing the posterior 计算后验

7.6.2 Computing the posterior predictive

7.6.3 Bayesian inference when $\sigma^2$ is unknown *

7.6.3.1 Conjugate prior 共轭先验

7.6.3.2 Uninformative prior

7.6.3.3 An example where Bayesian and frequentist inference coincide *

7.6.4 EB for linear regression (evidence procedure)

猜你喜欢

MLaPP Chapter 7 Linear Regression 线性回归

7.1 Introduction

7.2 Model specification 模型的确定

7.3 MLE (or least squares) 最大似然估计（最小二乘法）

7.3.1 Derivation of the MLE 最大似然估计推导

7.3.2 Geometric interpretation 几何解释

7.3.3 Convexity 凸性

7.4 Robust linear regression *

7.5 Ridge regression 岭回归

7.5.1 Basic idea 基本思路

7.5.2 Numerically stable computation *

7.5.3 Connection with PCA *

7.5.4 Regularization effects of big data

7.6 Bayesian linear regression 贝叶斯线性回归

7.6.1 Computing the posterior 计算后验

7.6.2 Computing the posterior predictive

7.6.3 Bayesian inference when σ2 \sigma^2 is unknown *

7.6.3.1 Conjugate prior 共轭先验

7.6.3.2 Uninformative prior

7.6.3.3 An example where Bayesian and frequentist inference coincide *

7.6.4 EB for linear regression (evidence procedure)

猜你喜欢

7.6.3 Bayesian inference when $\sigma^2$ is unknown *