版权声明:无需授权,可任意转载。 https://blog.csdn.net/saltriver/article/details/57544704
我们在前面的《线性回归》中了解到,对于训练数据样本
(xi,yi)
,我们有如下的拟合直线:
yˆi=θ0+θ1∙xi
我们构建了一个损失函数:
C=∑i=1n(yi−yˆi)2
表示每个训练数据点
(xi,yi)
到拟合直线
yˆi=θ0+θ1∙xi
的竖直距离的平方和,通过最小化这个损失函数来求得拟合直线的最佳参数
θ
,实际上就是求损失函数C在取得最小值情况下
θ
的值。那么损失函数为什么要用平方差形式呢,而不是绝对值形式,一次方,三次方,或四次方形式?
简单的说,是因为使用平方形式的时候,使用的是“最小二乘法”的思想,这里的“二乘”指的是用平方来度量观测点与估计点的距离(远近),“最小”指的是参数值要保证各个观测点与估计点的距离的平方和达到最小。
最小二乘法以估计值与观测值的平方和作为损失函数,在误差服从正态分布的前提下,与极大似然估计的思想在本质上是相同。对于极大似然估计,可以参考下前期文章《极大似然估计》。
我们设观测输出与预估数据之间的误差为:
εi=yi−yˆi
我们通常认为
ε
服从正态分布,即:
f(εi;u,σ2)=1σ2π−−√∙exp[−(εi−u)22σ2]
我们求的参数
ε
的极大似然估计
(u,σ2)
,即是说,在某个
(u,σ2)
下,使得服从正态分布的
ε
取得现有样本
εi
的概率最大。那么根据极大似然估计函数的定义,令:
L(u,σ2)=∏i=1n12π−−√σ∙exp(−(εi−u)22σ2)
取对数似然函数:
logL(u,σ2)=−n2logσ2−n2log2π−∑i=1n(εi−u)22σ2
分别求
(u,σ2)
的偏导数,然后置0,最后求得参数
(u,σ2)
的极大似然估计为:
u=1n∑i=1nεi
σ2=1n∑i=1n(εi−u)2
我们在线性回归中要求得最佳拟合直线
yˆi=θ0+θ1∙xi
,实质上是求预估值
yˆi
与观测值
yi
之间的误差
εi
最小(最好是没有误差)的情况下
θ
的值。而前面提到过,
ε
是服从参数
(u,σ2)
的正态分布,那最好是均值
u
和方差
σ
趋近于0或越小越好。即:
u=1n∑i=1nεi=1n∑i=1n(yi−yˆi)
趋近于0或越小越好
σ2=1n∑i=1n(εi−u)2=1n∑i=1n(yi−yˆi−u)2≈1n∑i=1n(yi−yˆi)2
趋近于0或越小越好。
而这与最前面构建的平方形式损失函数本质上是等价的。