先看线性回归
hθ(x)=θ0x0+θ1x1+⋯+θnxn=θTx
这里的n表示该样本有n维特征。
目标函数
J(θ)=12∑i=1m(hθ(x(i))−y(i))2
这里的i表示第i个样本。
为了求目标函数最小,采用梯度下降迭代,为了方便,假设只有一个样本
∂∂θiJ(θ)=∂∂θi12(hθ(x)−y)2=(hθ(x)−y)∗∂∂θi(hθ(x)−y)=(hθ(x)−y)∗∂∂θi(θ0x0+θ1x1+⋯+θixi+⋯+θnxn−y)=(hθ(x)−y)∗xi
参数
θi
更新,
θi:=θi−α∂∂θiJ(θ)=θi−α(hθ(x)−y)∗xi
在m个样本的情况下,
θi:=θi−α1m∑j=1m(hθ(x(j))−y(j))∗x(j)i
这样的梯度下降
每次更新都需要所有样本,称为批梯度下降。当样本数量多的时候,训练慢。
随机梯度下降法:它的具体思路是在更新每一参数时都使用一个样本来进行更新,
forj=1θitom:=α(hθ(x(j))−y(j))∗x(j)i
但是随机梯度下降法不能得到最优解,只会在最优解附近徘徊。
局部加权线性回归,将目标函数添加权值修改为,
J(θ)=12∑i=1mw(i)∗(hθ(x(i))−y(i))2
其中,
w(i)=exp(−(x(i)−x)22τ2),τ是波长函数,控制权值下降速率
当
(x(i)−x)
很小的时候,
w(i)
接近1,反之接近0。也就是说,距离x越近的样本
x(i)
获得的权值越高。
解释一下为什么用误差的平方和作为目标函数,
首先,
y(i)=θTx(i)
但是由于会有误差,所以还要加上一个误差项,
y(i)=θTx(i)+ξi
根据中心极限定理,由于误差项是好多好多相互独立的因素影响的综合影响,我们有理由假设其服从高斯分布,而且均值是0,方差为某个定值
δ2
因此,概率密度函数为,
P(ξi)=12π−−√δexp(−ξ2i2δ2)
也就是,
P(y(i)|x(i);θ)=12π−−√δexp(−(y(i)−θTx(i))22δ2)
在给定一个
θ
,在
x(i)
的情况下,类别为
y(i)
的概率。
误差项又是相互独立的,那么
ξi
似然函数,
L(θ)=p(y|x;θ)=∏i=1mP(y(i)|x(i);θ)=∏i=1m12π−−√δexp(−(y(i)−θTx(i))22δ2)
对数似然,
logL(θ)=log∏i=1m12π−−√δexp(−(y(i)−θTx(i))22δ2)=mlog12π−−√δ+∑i=1m−(y(i)−θTx(i))22δ2
为了使
l(θ)
极大,也就是让
(y(i)−θTx(i))22=J(θ)
极小,这也就是损失函数。
逻辑斯蒂回归是一个分类算法,以二分类为例,
y∈{0,1}
,有了线性回归的基础,那么逻辑斯蒂回归就是要让
hθ(x)
的值在0~1闭区间。即,
hθ(x)=g(hθ(x))=1+e1−θTx
其中
g
函数称为logistic函数,或者sigmoid函数。
y取1的概率等于
hθ(x)
,取0的概率为
1−hθ(x)
,即,
p(y|x;θ)=hθ(x)y(1−hθ(x))1−y
似然函数,
L(θ)=p(y|x;θ)=∏i=1mP(y(i)|x(i);θ)=∏i=1mhθ(x(i))y(i)(1−hθ(x(i)))1−y(i)
对数似然,
l(θ)=logL(θ)=∑i=1my(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))
梯度下降法 ,参数迭代,
θi:=θi+α1m∑j=1m(y(j)−hθ(x(j)))∗x(j)i
线性回归和逻辑斯蒂回归迭代方式表面上一模一样,但是
hθ
函数并不相同。