CS229学习笔记(4)

最小二乘法的概率解释

为什么在线性回归问题中我们选择最小二乘法定义代价函数 J(θ) ?本小节将就这一问题进行讨论。

首先,我们假设对于每一个样本实例 (x(i),y(i)) ,特征变量 x 和目标值 y 的关系如下:

y(i)=θTx(i)+ϵ(i)

其中, ϵ(i) 表示误差。

让我们进一步假设误差 ϵ(i) 服从正态分布(也称为高斯分布),即 ϵ(i)N(0,σ2) 。因此,误差 ϵ 为独立同分布(Independent and Identical Distribution,IID)。

P(ϵ(i))=12πσexp((ϵ(i))22σ2)

当给定参数 θ x 时,目标值 y 也服从正态分布,即 y(i)|x(i);θN(θTx(i),σ2)

P(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)

注: x(i) θ 之间为分号,表示 θ 为已知变量。

又因为似然函数(Likelihood Function)如下:

L(θ)=L(θ;X,Y)=P(Y|X;θ)

其中, Y 表示一个长度为训练集大小的向量, X 表示维度为训练集数*特征变量数的矩阵。

将上述结论带入似然函数可得:

L(θ)=i=1mp(y(i)|x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2)

为了计算出参数 θ ,我们采用极大似然估计。为了便于计算,我们可将上式转变为最大化对数似然。

(θ)=logL(θ)=logi=1m12πσexp((y(i)θTx)22σ2)=i=1mlog12πσexp((y(i)θTx)22σ2)=mlog12πσ1σ212i=1m(y(i)θTx(i))2

因此,我们不难发现最大化对数似然,实际上在最小化 12i=1m(y(i)θTx(i))2

猜你喜欢

转载自blog.csdn.net/u013058162/article/details/79306713