最小二乘法是做拟合问题的一个常用的方法,最小二乘法的来源是怎样的呢?下面我们一起来探究一下,参考资料—–Andrew Ng 机器学习课程。
回顾一下线性回归问题的优化目标
θ∗=argminθ12∑ni=1(θTxi−yi)2=argminθ12||Xθ−y||2
.
注意到偏移项被吸入到了
θ
中。
就直观地理解而言,我们当然希望预测值与真实值之间的误差尽可能小。接下来我们从极大似然估计的方法,来推导出OLS的优化目标。
一般认为:在线性回归问题中,真实值与预测值之间的误差服从
(0,σ2)
。
因此令
yi=θTxi+ϵi
。那么有
ϵ
~
(0,σ2)
,
显然地,对于只有一个样本
(x1,y1)
的训练集,我们有
P(y|x;θ)=12π√σe−(θTx1−y1)22σ2
。
对于有n个训练样本的数据集
(x1,y1),…,(xn,yn)
,由高中概率学可知
P(y|x;θ)=∏ni=112π√σe−(θTxi−yi)22σ2
。
极大似然估计的思想就是,找出一个参数
θ
,使得训练集样本出现“这种”结果的可能性达到最大。“这种”的含义即训练样本与其对应的观测。也就是说,我们需要极大化
P(y|x;θ)
。因为在训练集中,
x
和
y
都是给定的,
P(y|x;θ)
可以被看成是关于
θ
的函数
L(θ)
。
我们把
L(θ)
称为
P(y|x;θ)
的似然函数。极大化似然函数的过程就是极大似然估计(Maximum Likelihood Estimation)。相应的最优解
θ
即是最优参数,因此
θ∗=argmaxθL(θ)=P(y|x;θ)
。
极大化上述问题等价于极大化对数似然:
θ∗=argmaxθlog L(θ)=argmaxθ∑ni=1(−log(2π‾‾‾√σ)−(θTxi−yi)22σ2)=argminθ12∑ni=1(θTxi−yi)2
。
这也就得到了OLS的形式。
求解OLS的方法有多种:
1. 直接给出解析解:令
J(θ)=12∑ni=1(θTxi−yi)2
,令
∂∂θJ(θ)=0
可得
θ∗=(XTX)−1XTy
,然而现实情况下
(XTX)−1
往往不满秩,所以
θ∗
有多组解。这时往往有学习器的归纳偏好决定最优
θ
。
2. 梯度下降法:
θ(j+1)=θ(j)−α∇θJ(θ(j))
3. 随机梯度下降:一次选取一个样本进行梯度下降,需要比梯度下降更多的迭代次数。