线性回归（最小二乘法）

定义：线性回归在假设特证满足线性关系，根据给定的训练数据训练一个模型，并用此模型进行预测。

举例：我们假设一个线性方程 $y=2x+1$ , x变量为商品的大小， $y$ 代表为销售量；当月份 $x =5$ 时，我们就能根据线性模型预测出销量为 $y =11$ ；对于上面的简单的例子来说，我们可以粗略把 $y=2x+1$ 看到回归的模型

然而更一般的情况是， $x$ 不止一个，也就是说特征不会只有一个，而是许多个，可以吧￥x￥看做向量， $x =(x^1,x^2,\ldots,x^n)$

这仍然是一个线性的关系 $y=w^1x^1+w^1x^1+\cdots+w^nx^n$ ，写成向量形式就是 $y=w^Tx+b$ ，其中， $w$ 和 $x$ 都是向量。

我们有许多样本，已知每个样本的特征和label 。问给出一个新的样本，已知特征，预测label。

我们需要从这些已知的数据中学习到线性模型的权重就是向量 $w=(w^1,\ldots,w^n)$ 和 $b$ 。

模型推导过程：

形式化表示就是

\begin{aligned} (1) & h_{θ} (x) & = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} \\ (2) & h_{θ} (x) & = \sum_{i = 0}^{n} θ_{i} x_{i} = θ^{T} x \end{aligned}

$\begin{align} h_{\theta}(x)&=\theta_0+\theta_1x_1+\theta_2x_2\\ h_{\theta}(x)&=\sum_{i=0}^n \theta_ix_i=\theta^Tx \end{align}$

模型假定好后，我们把训练数据代入上面的设定模型中，可以通过模型预测一个样本最终值；

y^{(i)} = θ^{T} x^{(i)} + ϵ^{(i)}

$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$ ，上式为：训练样本的真实值=训练模型预测值+真实值和预测值差。

然后样本真实值 $y$ 和模型训练预测的值之间是有误差 $ε$ ,再假设训练样本的数据量很大的时候,根据中心极限定律可以得到 $\sum\epsilon$ 满足 $(\mu,\delta^2)$ 高斯分布的；由于方程有截距项，故使用可以 $\mu=0$ ; 故满足 $(0,\delta^2)$ 的高斯分布；

y^{(i)} = θ^{T} x^{(i)} + ϵ^{(i)}

$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$
如前所述，

ϵ

$\epsilon$ 满足高斯分布，其概率分布如下：

p (ϵ^{(i)}) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(ϵ^{(i)})^{2}}{2 σ^{2}})

$p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})$

把 $\epsilon=y-\theta x$ 代入得：

p (y^{(i)} | x (i); θ) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}})

$p(y^{(i)}|x{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$

如上面可知，对于每一个样本 $x$ ,代入到 $p(y|x;\theta)$ ，都会得到一个 $y$ 的概率；又因为设定样本是独立同分布的；对其求最大似然函数(为什么要求最大似然函数，为了估计参数也就是权重 $\theta$ )：

\begin{aligned} (3) & L (θ) & = \prod_{i = 1}^{m} p (y^{(i)} | x^{(i)}; θ) \\ (4) & = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}}) \end{aligned}

$\begin{align} L(\theta)&=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\ &=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \end{align}$
对其化简如下：

\begin{aligned} (5) & l (θ) & = \log L (θ) \\ (6) & = \log \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}}) \\ (7) & = \sum_{i = 1}^{m} \log \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}}) \\ (8) & = m \log \frac{1}{\sqrt{2 π} σ} - \frac{1}{σ^{2}} \frac{1}{2} \sum_{i = 1}^{m} (y^{(i)} - θ^{T} x^{(i)})^{2} \end{aligned}

$\begin{align} l(\theta)&=\log L(\theta)\\ &=\log \prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{( y^{(i)}- \theta^T x^{(i)})^2} {2\sigma^2})\\ &=\sum_{i=1}^m \log \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{( y^{(i)}- \theta^T x^{(i)})^2} {2\sigma^2})\\ &=m \log \frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{\sigma^2} \frac{1}{2} \sum_{i=1}^m (y^{(i)}- \theta^T x^{(i)})^2 \end{align}$
对上式就最小值就相当于求下式最小值(因为参数是

θ

$\theta$ ):

J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

$J(\theta) = \frac{1}{2} \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})^2$
以上就得到了回归的损失函数最小二乘法的公式，对于好多介绍一般对线性回归的线性损失函数就直接给出了上面的公式二乘法。‘

==下面我们就对做了阶段性的总结==：线性回归，根据大数定律和中心极限定律假定样本无穷大的时候，其真实值和预测值的误差 $ε$ 的加和服从 $\mu=0$ ,方差为 $\sigma^2$ 的高斯分布且独立同分布，然后把 $\epsilon = y - \theta x$ 代入公式，即 $y-\theta x$ 也满足这个高斯分布，就可以化简得到线性回归的损失函数；

==现在问题变成了==求 $\arg \min J(\theta)$ 。

使用随机梯度下降法 $\theta \leftarrow \theta - \eta \cdot \nabla_{\theta} J(\theta)$ ，也可以写成 $\theta = \theta - \alpha \cdot \frac{\partial J(\theta)}{\partial \theta}$ 。其中， $\alpha$ 是学习率 / 步长。对==每个== $\theta$ 进行梯度求解：

\begin{aligned} (9) & \frac{\partial}{\partial θ_{j}} J (θ) & = \frac{\partial}{\partial θ_{j}} \frac{1}{2} (h_{θ} (x) - y)^{2} \\ (10) & = 2 \cdot \frac{1}{2} (h_{θ} (x) - y) \cdot \frac{\partial}{\partial θ_{j}} (h_{θ} (x) - y) \\ (11) & = (h_{θ} (x) - y) \cdot \frac{\partial}{\partial θ_{j}} (\sum_{i = 0}^{n} θ_{i} x_{i} - y) \\ (12) & = (h_{θ} (x) - y) x_{j} \end{aligned}

$\begin{align} \frac{\partial }{\partial \theta_j} J(\theta) &= \frac{\partial }{\partial \theta_j} \frac{1}{2}(h_{\theta}(x) - y)^2\\ &=2 \cdot \frac{1}{2}(h_{\theta}(x) - y) \cdot \frac {\partial} {\partial \theta_j} (h_{\theta}(x) - y)\\ &=(h_{\theta}(x) - y) \cdot \frac {\partial} {\partial \theta_j} (\sum_{i=0}^n \theta_i x_i - y)\\ &=(h_{\theta}(x) - y)x_j \end{align}$
这样，每个

θ_{j}

$\theta_j$ 求导与其他

θ

$\theta$ 就无关了。上式是 预测值减去真实值的差乘以待更新参数对应的那个特征。

附：

岭回归是在线性回归的基础上加了惩罚项，就是相当于深度学习加了正则项

线性回归（最小二乘法）

线性回归（最小二乘法）

猜你喜欢