以极大似然估计角度推导多元线性回归损失函数

从一元线性回归开始

以一元线性回归为引：

一元线性回归的函数表达式：
$\mathrm{y}=\mathrm{wx}+\mathrm{b}+\varepsilon$
即待遇测的变量y同输入x大体呈一元线性关系，这里的epsilon表示预测结果与真实值之间存在的误差
请添加图片描述

多元线性回归

对于多元线性回归，其输入x和输出y则包含有多个变量

多元线性回归函数表达式：
(这里假设x是n维的，y是m维的):
$\begin{array}{l} \mathrm{y}_{1}=\mathrm{w}_{11} \mathrm{x}_{1}+\ldots+\mathrm{w}_{1 \mathrm{n}} \mathrm{x}_{n}+\mathrm{b}_{1}+\varepsilon_{1} \\ \mathrm{y}_{2}=\mathrm{w}_{21} \mathrm{x}_{2}+\ldots+\mathrm{w}_{2 \mathrm{n}} \mathrm{x}_{n}+\mathrm{b}_{2}+\varepsilon_{2} \\ \ldots \ldots \\ \mathrm{y}_{\mathrm{m}}=\mathrm{w}_{\mathrm{m} 1} \mathrm{x}_{\mathrm{1}}+\ldots+\mathrm{w}_{\mathrm{mn}} \mathrm{x}_{\mathrm{n}}+\mathrm{b}_{\mathrm{m}}+\varepsilon_{\mathrm{m}} \end{array}$
如果使用上述连加的表达式，写法虽然直观，但是对于计算机而言这种计算方式实则比较繁琐,在计算的过程中必定要用到循环控制流。而计算机处理循环语句的速度是要远远慢于矩阵运算的。因此多元线性回归公式一般使用矩阵表示更为简洁：
$\mathbf{Y}=\mathbf{W}^{T} \mathbf{X}+\mathbf{b}+\boldsymbol{\varepsilon}$
其中：
$W=\left[\begin{array}{l} w_{11}, \cdots, w_{1 n} \\ \vdots\quad \quad\ddots\quad \vdots \\ w_{m 1}, \cdots, w_{m n} \end{array}\right]$

$\begin{aligned} &Y=\left[y_{1}, y_{2}, \ldots, y_{m}\right]^{T} \\ &X=\left[x_{1}, x_{2}, \ldots, x_{n}\right]^{T} \\ &b=\left[b_{1}, b_{2}, \ldots, b_{n}\right]^{T} \\ &\varepsilon=\left[\varepsilon_{1}, \varepsilon_{2}, \ldots, \varepsilon_{n}\right]^{T} \end{aligned}$

在这里，我们对误差epsilon单独做一个分析，既然是误差，我们就期望其尽量达到最小，针对上式，我们可以将epsilon表示为
$\begin{aligned} &\varepsilon=Y-(W^{T} X+b) \\ &\varepsilon=Y-\hat{Y} \end{aligned}$
在这里我们为了使epsilon的形式简洁，经常使用一个小trick，在W矩阵的第一列添加一列w0项，在X向量的第一行添加一个1项，这样w0和1相乘的结果就同样也可表示偏置项b：
$\begin{aligned} &W=\left[\begin{array}{l} w_{10}, w_{11}, \cdots, w_{1 n} \\ \vdots_{}\quad\quad\quad \ddots_{}\quad\quad\vdots_{} \\ w_{m 0}, w_{m 1}, \cdots, w_{m n} \end{array}\right]\\ &X=\left[1, x_{1}, x_{2}, \ldots, x_{n}\right]^{T} \end{aligned}$
将改变后的W矩阵称为theta,整个式子消除了b将更为简洁：
$\varepsilon=Y-\theta^{T} X$

误差项的概率密度函数

然后我们假定所有样本的误差都是独立的，有上下的震荡，我们可以将误差当做随机变量，足够多的随机变量叠加之后形成的分布，根据中心极限定理，它服从正态分布，即高斯分布。均值和方差为某个定值
(这是众多机器学习算法的重要假设！！)。

方差我们先不管，均值我们总有办法让它去等于零 0 的，为什么? 因为在公式中具有b截距项，因此所有误差就可以认为是服从均值为 0，方差为某定值的高斯分布。基于此，误差项epsilon就可通过条件概率表示为：
$f\left(\varepsilon_{i} \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(\varepsilon_{i}-0\right)^{2}}{2 \sigma^{2}}}$
以上的公式表明，误差epsilon在均值为0，方差为sigma^2的前提下服从右边的正态分布。

此时我们不得不再提一下多元线性回归的初心，那就是估计参数W和b使得预测结果相较于真实值的误差epsilon达到最小，而现在我们有了误差项的概率密度函数，因此我们只需要找到一个方法，求得每一项的最小epsilon并使得所有的误差项加起来能够达到最小，然后求取这个最小epsilon对应的参数W和b，这个方法是否存在呢？

不着急，我们再来推敲下上面这个条件概率，这个正态分布不难理解，那就是当误差为0时，这个密度函数具有最大值，而误差为0，不就是我们想要的理想情况吗？

好，那问题就又转化为，求取参数W和b使得左边的条件概率取得最大值，现在仔细想想，在概率统计学中，有一个方法和我们所期望算法十分类似，对，就是概率统计学中的极大似然估计

误差项的极大似然函数

接下来我们把最大似然函数通过正态分布概率密度函数表达出来：
$L_{\theta}\left(\varepsilon_{1}, \ldots, \varepsilon_{m}\right)=f\left(\varepsilon_{1}, \ldots, \varepsilon_{m} \mid \mu, \sigma^{2}\right)$

$L_{\theta}\left(\varepsilon_{1}, \ldots, \varepsilon_{m}\right)=\prod_{i=1}^{\mathrm{m}} f\left(\varepsilon_{i} \mid \mu, \sigma^{2}\right)=\prod_{i=1}^{\mathrm{m}} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(\varepsilon_{i}-0\right)^{2}}{2 \sigma^{2}}}$

而epsilon又可以表示为仅包含X,Y,theta的形式:
$\varepsilon_{i}=\left|y_{i}-\hat{y_{i}}\right|=\left|y_{i}-W^{T} x_{i}\right|=\left|y_{i}-\theta^{T} x_{i}\right|$
所以有
$L_{\theta}\left(\varepsilon_{1}, \ldots, \varepsilon_{m}\right)=\prod_{i=1}^{\mathrm{m}} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(\varepsilon_{i}-0\right)^{2}}{2 \sigma^{2}}}=\prod_{i=1}^{\mathrm{m}} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(y_{1}-\theta^{T} x_{i}\right)^{2}}{2 \sigma^{2}}}$

求解极大似然函数，推得多元线性回归的损失函数

我们的问题是求取参数theta使得似然函数最大化，即求取：
$\underset{\theta}{\arg \max } L_{\theta}\left(\varepsilon_{1}, \ldots, \varepsilon_{m}\right)=\underset{\theta}{\arg \max } \prod_{i=1}^{\mathrm{m}} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(y_{i}-\theta^{T} x_{i}\right)^{2}}{2 \sigma^{2}}}$
在这里，我们再次运用求取最大似然函数的一个小trick，取对数似然函数，将连乘转化为连加：
$\underset{\theta}{\arg \max } L_{\theta}\left(\varepsilon_{1}, \ldots, \varepsilon_{m}\right)=\underset{\theta}{\arg \max } \ln \left(\prod_{i=1}^{\mathrm{m}} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(y_{1}-\theta^{T} x_{i}\right)^{2}}{2 \sigma^{2}}}\right)$
令：
$l(\theta)=\underset{\theta}{\arg \max } L(\theta)$
则(连乘转化为连加)：
$\begin{aligned} l(\theta) &=\underset{\theta}{\arg \max } \ln\left(\prod_{i=1}^{\mathrm{m}} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(y_{i}-\theta^{T} x_{i}\right)^{2}}{2 \sigma^{2}}}\right) \\ &=\underset{\theta}{\arg \max } \sum_{i=1}^{m} \ln\left(\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(y_{1}-\theta^{T} x_{i}\right)^{2}}{2 \sigma^{2}}}\right) \end{aligned}$

$=\underset{\theta}{\arg \max } \sum_{i=1}^{m}\left[ \ln\left(\frac{1}{\sqrt{2 \pi \sigma^{2}}}\right) -\frac{\left(y_{1}-\theta^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right]$

$=\underset{\theta}{\arg \max }\quad m \ln \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{2\sigma^{2}}\sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}$

$\ln \frac{1}{\sqrt{2 \pi} \sigma}和-\frac{1}{2 \sigma^{2}}是常数项，即使舍去也不影响最终结果, \\ 但是，由于舍去了负号，我们需要把max改为min$

所以，目标参数theta的函数形式可以表示为(可见极大似然估计就是最小化损失)：
$l(\theta)=\underset{\theta}{\arg \min } \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}$
若仅体现损失：
$loss=\sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}$
至此，我们就已经推导出来了多元线性回归的损失函数，是不是很熟悉，这不就是最小二乘嘛？

是的，并且这个损失函数的最终形式的物理意义也很明确，那就是使得预测值和真实值的误差的平方达到最小(接近0)，如下图

请添加图片描述

值得一提的是，最小二乘在机器学习上也称作均方根损失(MSE)，多元线性回归损失只是其中的一种特殊形式，其一般形式如下:
$MSE_{loss}=\frac{1}{n}\sum_{i=1}^{n}\left(\hat{y_i}-y_i\right)^{2}$

【机器学习算法】以最大似然估计角度理解多元线性回归损失(最小二乘法)

文章目录