线性回归损失函数的推导

线性回归模型可以表示为:
h θ ( x ) = i = 1 n θ i X i = θ T X h_θ(x) =\sum_{i=1}^n{θ_iX_i} = θ^TX

其中 X X 是我们的数据集, h θ ( x ) h_θ(x) 是估计值, θ θ 是我们要求的参数。
假定 y ( i ) y^{(i)} 是数据集中样本 x ( i ) x^{(i)} 的标签,则 y ( i ) y^{(i)} h θ ( x ( i ) ) h_θ(x^{(i)}) 之间有一个误差,我们记作ϵ,即
ϵ = y ( i ) h θ ( x ( i ) ) ϵ = y^{(i)} - h_θ(x^{(i)})

对于线性回归模型,我们的一个基本假设是,对于各个样本点来说,ϵ是独立同分布的,这样,根据独立同分布的中心极限定理,当样本点很多时,ϵ应该服从均值为0,方差为 σ 2 σ^2 的高斯分布。注意!这是我们进行以下推导的前提,如果在实际项目中该假设不成立,则我们的结论也不成立,整个线性回归问题的算法将会被推翻。

这样,我们有:
p ( ϵ ( i ) ) = 1 2 π σ e x p ( ( ϵ ( i ) ) 2 2 σ 2 ) p(ϵ^{(i)}) = \frac{1}{\sqrt{2π}σ}exp\bigg(-\frac{\big(ϵ^{(i)}\big)^2}{2σ^2}\bigg)

也就是:
p ( y ( i ) y ( i ) ; θ ) = 1 2 π σ e x p ( ( y ( i ) θ T x ( i ) ) 2 2 σ 2 ) p(y^{(i)}|y^{(i)};θ) = \frac{1}{\sqrt{2π}σ}exp\bigg(-\frac{\big(y^{(i)}-θ^Tx^{(i)}\big)^2}{2σ^2}\bigg)

由于各个样本是独立的,则它们的联合概率密度就是各自的概率密度的乘积。则似然函数
L ( θ ) = i = 1 m p ( y ( i ) y ( i ) ; θ ) = i = 1 m 1 2 π σ e x p ( ( y ( i ) θ T x ( i ) ) 2 2 σ 2 ) L(θ) = \prod_{i=1}^mp(y^{(i)}|y^{(i)};θ) \newline = \prod_{i=1}^m\frac{1}{\sqrt{2π}σ}exp\bigg(-\frac{\big(y^{(i)}-θ^Tx^{(i)}\big)^2}{2σ^2}\bigg)
取对数,得到
l o g L ( θ ) = l o g i = 1 m 1 2 π σ e x p ( ( y ( i ) θ T x ( i ) ) 2 2 σ 2 ) = i = 1 m l o g 1 2 π σ e x p ( ( y ( i ) θ T x ( i ) ) 2 2 σ 2 ) = m l o g 1 2 π σ 1 σ 2 1 2 i = 1 m ( y ( i ) θ T x ( i ) ) 2 logL(θ) = log\prod_{i=1}^m\frac{1}{\sqrt{2π}σ}exp\bigg(-\frac{\big(y^{(i)}-θ^Tx^{(i)}\big)^2}{2σ^2}\bigg) \newline =\sum_{i=1}^mlog\frac{1}{\sqrt{2π}σ}exp\bigg(-\frac{\big(y^{(i)}-θ^Tx^{(i)}\big)^2}{2σ^2}\bigg) \newline = m log\frac{1}{\sqrt{2π}σ} - \frac{1}{σ^2}\frac{1}{2}\sum_{i=1}^m(y^{(i)}-θ^Tx^{(i)})^2
要使得上述函数取最大值,则需要
1 2 i = 1 m ( y ( i ) θ T x ( i ) ) 2 \frac{1}{2}\sum_{i=1}^m(y^{(i)}-θ^Tx^{(i)})^2
最小。这样,我们就得到了线性回归的损失函数:
J ( θ ) = 1 2 i = 1 m ( y ( i ) θ T x ( i ) ) 2 J(θ) = \frac{1}{2}\sum_{i=1}^m(y^{(i)}-θ^Tx^{(i)})^2
通常我们将损失函数写成
J ( θ ) = 1 2 m i = 1 m ( y ( i ) θ T x ( i ) ) 2 J(θ) = \frac{1}{2m}\sum_{i=1}^m(y^{(i)}-θ^Tx^{(i)})^2
其中m是样本的数量,这样可以消除样本数量不同对于J(θ)的影响。

猜你喜欢

转载自blog.csdn.net/ajaccio8899/article/details/82924425
今日推荐