普通最小二乘-OLS原理简介

最小二乘法是做拟合问题的一个常用的方法，最小二乘法的来源是怎样的呢？下面我们一起来探究一下，参考资料—–Andrew Ng 机器学习课程。

回顾一下线性回归问题的优化目标

$\theta^* = argmin_{\theta} \frac{1}{2}\sum_{i = 1}^n (\theta^Tx_i - y_i)^2 = {argmin}_{\theta} \frac{1}{2}||X\theta - y||^2$ .

注意到偏移项被吸入到了 $\theta$ 中。
就直观地理解而言，我们当然希望预测值与真实值之间的误差尽可能小。接下来我们从极大似然估计的方法，来推导出OLS的优化目标。

一般认为：在线性回归问题中，真实值与预测值之间的误差服从 $\mathcal{N}(0, \sigma^2)$ 。

因此令 $y_i = \theta^Tx_i + \epsilon_i$ 。那么有 $\epsilon$ ~ $\mathcal{N}(0, \sigma^2)$ ，

显然地，对于只有一个样本 $(x_1, y_1)$ 的训练集，我们有

$P(y|x; \theta) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(\theta^Tx_1 - y_1)^2}{2\sigma^2}}$ 。

对于有n个训练样本的数据集 $(x_1, y_1), \dots, (x_n, y_n)$ ，由高中概率学可知

$P(y|x; \theta) = \prod_{i = 1}^n \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(\theta^Tx_i - y_i)^2}{2\sigma^2}}$ 。

极大似然估计的思想就是，找出一个参数 $\theta$ ，使得训练集样本出现“这种”结果的可能性达到最大。“这种”的含义即训练样本与其对应的观测。也就是说，我们需要极大化 $P(y|x; \theta)$ 。因为在训练集中， $x$ 和 $y$ 都是给定的， $P(y|x; \theta)$ 可以被看成是关于 $\theta$ 的函数 $L(\theta)$ 。

我们把 $L(\theta)$ 称为 $P(y|x; \theta)$ 的似然函数。极大化似然函数的过程就是极大似然估计(Maximum Likelihood Estimation)。相应的最优解 $\theta$ 即是最优参数，因此

$\theta^* = {argmax}_{\theta} L(\theta) = P(y|x; \theta)$ 。

极大化上述问题等价于极大化对数似然：

$\theta^* = {argmax}_{\theta} log\text{ }L(\theta) = {argmax}_{\theta} \sum_{i = 1}^n (-log (\sqrt{2\pi} \sigma) - \frac{(\theta^Tx_i - y_i)^2}{2\sigma^2}) = {argmin}_{\theta} \frac{1}{2} \sum_{i = 1}^n (\theta^Tx_i - y_i)^2$ 。

这也就得到了OLS的形式。

求解OLS的方法有多种：
1. 直接给出解析解：令 $J(\theta) = \frac{1}{2}\sum_{i = 1}^n (\theta^Tx_i - y_i)^2$ ，令 $\frac{\partial}{\partial \theta} J(\theta) = 0$ 可得 $\theta^* = (X^TX)^{-1}X^Ty$ ，然而现实情况下 $(X^TX)^{-1}$ 往往不满秩，所以 $\theta^*$ 有多组解。这时往往有学习器的归纳偏好决定最优 $\theta$ 。
2. 梯度下降法： $\theta^{(j+1)} = \theta^{(j)} - \alpha \nabla_\theta J(\theta^{(j)})$
3. 随机梯度下降：一次选取一个样本进行梯度下降，需要比梯度下降更多的迭代次数。

普通最小二乘-OLS原理简介

猜你喜欢