线性回归模型可以表示为:
hθ(x)=i=1∑nθiXi=θTX
其中
X是我们的数据集,
hθ(x)是估计值,
θ是我们要求的参数。
假定
y(i)是数据集中样本
x(i)的标签,则
y(i)与
hθ(x(i))之间有一个误差,我们记作ϵ,即
ϵ=y(i)−hθ(x(i))
对于线性回归模型,我们的一个基本假设是,对于各个样本点来说,ϵ是独立同分布的,这样,根据独立同分布的中心极限定理,当样本点很多时,ϵ应该服从均值为0,方差为
σ2的高斯分布。注意!这是我们进行以下推导的前提,如果在实际项目中该假设不成立,则我们的结论也不成立,整个线性回归问题的算法将会被推翻。
这样,我们有:
p(ϵ(i))=2π
σ1exp(−2σ2(ϵ(i))2)
也就是:
p(y(i)∣y(i);θ)=2π
σ1exp(−2σ2(y(i)−θTx(i))2)
由于各个样本是独立的,则它们的联合概率密度就是各自的概率密度的乘积。则似然函数
L(θ)=i=1∏mp(y(i)∣y(i);θ)=i=1∏m2π
σ1exp(−2σ2(y(i)−θTx(i))2)
取对数,得到
logL(θ)=logi=1∏m2π
σ1exp(−2σ2(y(i)−θTx(i))2)=i=1∑mlog2π
σ1exp(−2σ2(y(i)−θTx(i))2)=mlog2π
σ1−σ2121i=1∑m(y(i)−θTx(i))2
要使得上述函数取最大值,则需要
21i=1∑m(y(i)−θTx(i))2
最小。这样,我们就得到了线性回归的损失函数:
J(θ)=21i=1∑m(y(i)−θTx(i))2
通常我们将损失函数写成
J(θ)=2m1i=1∑m(y(i)−θTx(i))2
其中m是样本的数量,这样可以消除样本数量不同对于J(θ)的影响。