普通最小二乘-OLS原理简介

最小二乘法是做拟合问题的一个常用的方法,最小二乘法的来源是怎样的呢?下面我们一起来探究一下,参考资料—–Andrew Ng 机器学习课程。

回顾一下线性回归问题的优化目标

θ = a r g m i n θ 1 2 i = 1 n ( θ T x i y i ) 2 = a r g m i n θ 1 2 | | X θ y | | 2 .

注意到偏移项被吸入到了 θ 中。
就直观地理解而言,我们当然希望预测值与真实值之间的误差尽可能小。接下来我们从极大似然估计的方法,来推导出OLS的优化目标。

一般认为:在线性回归问题中,真实值与预测值之间的误差服从 N ( 0 , σ 2 )

因此令 y i = θ T x i + ϵ i 。那么有 ϵ ~ N ( 0 , σ 2 )

显然地,对于只有一个样本 ( x 1 , y 1 ) 的训练集,我们有

P ( y | x ; θ ) = 1 2 π σ e ( θ T x 1 y 1 ) 2 2 σ 2

对于有n个训练样本的数据集 ( x 1 , y 1 ) , , ( x n , y n ) ,由高中概率学可知

P ( y | x ; θ ) = i = 1 n 1 2 π σ e ( θ T x i y i ) 2 2 σ 2

极大似然估计的思想就是,找出一个参数 θ ,使得训练集样本出现“这种”结果的可能性达到最大。“这种”的含义即训练样本与其对应的观测。也就是说,我们需要极大化 P ( y | x ; θ ) 。因为在训练集中, x y 都是给定的, P ( y | x ; θ ) 可以被看成是关于 θ 的函数 L ( θ )

我们把 L ( θ ) 称为 P ( y | x ; θ ) 似然函数。极大化似然函数的过程就是极大似然估计(Maximum Likelihood Estimation)。相应的最优解 θ 即是最优参数,因此

θ = a r g m a x θ L ( θ ) = P ( y | x ; θ )

极大化上述问题等价于极大化对数似然:

θ = a r g m a x θ l o g   L ( θ ) = a r g m a x θ i = 1 n ( l o g ( 2 π σ ) ( θ T x i y i ) 2 2 σ 2 ) = a r g m i n θ 1 2 i = 1 n ( θ T x i y i ) 2

这也就得到了OLS的形式。

求解OLS的方法有多种:
1. 直接给出解析解:令 J ( θ ) = 1 2 i = 1 n ( θ T x i y i ) 2 ,令 θ J ( θ ) = 0 可得 θ = ( X T X ) 1 X T y ,然而现实情况下 ( X T X ) 1 往往不满秩,所以 θ 有多组解。这时往往有学习器的归纳偏好决定最优 θ
2. 梯度下降法: θ ( j + 1 ) = θ ( j ) α θ J ( θ ( j ) )
3. 随机梯度下降:一次选取一个样本进行梯度下降,需要比梯度下降更多的迭代次数。

猜你喜欢

转载自blog.csdn.net/wuyanxue/article/details/80055513