均方误差究竟是怎么来的?

当我们遇到一个线性回归问题时,为什么使用最小平方和作为损失函数?
本文中,我们将从概率的角度来解释,线性回归和最小平方和的关系。
不妨假设目标值\(y^{{(}i{)}}\)与输入值\(x^{{(}i{)}}\)关系为
\[y^{(i)}=\theta^{(T)}x^{(i)}+\epsilon^{(i)}\]
其中\(\epsilon^{(i)}\)用于表示一些随机噪声或者相关的影响,并且我们假设\(\epsilon^{(i)}\)是独立同分布的,符合均值为0,方差为\(\sigma^2\)的高斯分布。
也就是说, \(\epsilon^{(i)}\) ~ \(N(0, \sigma^2)\)

\(\epsilon^{(i)}\)的概率密度为\[p(\epsilon^{(i)})=\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}\epsilon^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\]

根据我们建立的目标与输入值的关系,可以代入上述公式,即
\[p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\]

其中,\(p(y^{(i)}|x^{(i)};\theta)\)即为用参数\(\theta\)衡量的,给定\(x^{{(}i{)}}\)下,\(y^{{(}i{)}}\)的分布, 我们也可视作\(\underline{y^{{(}i{)}}|x^{{(}i{)}};\theta}\) \(\,\) ~ \(\,\) \(N(\theta^Tx^{{(}i{)}},\sigma^2)\)

如果我们将输入矩阵\(X\)定义为
\[ \left[ \begin{matrix} \underline{\quad}x^{(1)T} \underline{\quad}\\ \underline{\quad}x^{(2)T} \underline{\quad}\\ \underline{\quad}x^{(3)T} \underline{\quad}\\ \vdots\\ \underline{\quad}x^{(m)T} \underline{\quad}\\ \end{matrix} \right] \]
目标向量\(\vec{y}\)定义为
\[ \left[ \begin{matrix} y^{(1)}\\ y^{(2)}\\ y^{(3)}\\ \vdots\\ y^{(m)}\\ \end{matrix} \right] \]
那么在给定\(X\)和参数\(\theta\)时,\(\vec{y}\)的分布可以用\(p{(}\vec{y}|X{)};\theta\)来衡量

当我们将上式看成是\(\theta\)的函数时,该式即为似然函数
\[ L{(}\theta{)}=L{(}\theta;X|\vec{y}{)}=p{(}\vec{y}|X{)};\theta \]
根据我们之前\(\epsilon^{(i)}\)相互独立的假设,上式可以写成
\[ \begin{eqnarray} L{(}\theta{)}&=&\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta{)}\\ &=&\prod_{i=1}^m\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)} \end{eqnarray} \]

根据极大似然估计法,我们应该选择使得\(L{(}\theta{)}\)最大的\(\theta\),我们同样可以选择最大化\(L{(}\theta{)}\)的一个严格递增函数,比如我们可以最大化对数似然函数(方便计算),于是乎
\[ \begin{eqnarray} logL{(}\theta{)}&=&log\prod_{i=1}^m\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\\ &=&\sum_{i=1}^mlog\frac{1}{\sqrt{2{\pi}}\sigma}exp{\Bigg(}{-\frac{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2}{2\sigma^2}}{\Bigg)}\\ &=&mlog\frac{1}{\sqrt{2{\pi}}\sigma}-\frac{1}{\sigma^{2}}\cdot\frac{1}{2}\sum_{i=1}^m{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2} \end{eqnarray} \]
因此,最大化上式等价于最小化
\[ \frac{1}{2}\sum_{i=1}^m{{{(}y^{(i)}-\theta^Tx^{(i)}{)}}^2} \]
也就是我们的最小平方和损失函数。

猜你喜欢

转载自www.cnblogs.com/matthew-d/p/10851289.html