关于Logistic回归,在《【R】基于Logistic回归的初始信用评级》做过粗略的介绍,看此文时可结合该文章,帮助理解。这里借鉴李航老师的《统计学习方法》 再补充一下。
1 logistic分布
在统计学中,研究任何对象,都应该先摸透该对象的数据服从什么样的分布。在个人看来,数据的不同分布使得数据具有不同的性质,也就需要采用不同的技术进行研究。那么,logistic回归也不例外。
设 L是连续随机变量,L服从逻辑斯谛分布是指L 具有下列分布函数和密函数:
F(l)=P(L<=l)=(1+e−(l−u)/r)1
f(l)=F′(l)=P(L<=l)=r(1+e−(l−u)/r)2e−(l−u)/r
公式中,
u为位置参数,
r>0为形状参数。
logistic分布的密度函数
f(l) 和 分布 函数
F(l)的 图形下图。分布函数是一个
logistic函数,图形是 一条S形曲
(sigmoidcurve),点
(u,21)为中心对称。
曲线值阈为
(0,1),在点
(u,21)附近变化快,离中心点越远,变化趋于平缓。
2 binomial logistic 回归
binomiallogistic 回归模型是一类二分类模型,由条件概率分布
P(Y∣L)表示,形式为参数化的逻辑斯谛分布。这里,随机变量
L取值为实数,随机 变量
Y取值为 1 或 0。通过监督学习的方法来估计模型参数。二项逻辑斯回归模型 是如下的件率布:
P(Y=1∣l)=1+exp(wl+b)exp(wl+b)
P(Y=0∣l)=1+exp(wl+b)1
这里,
l∊Rn 是 输入,
Y∊[0,1] 是 输出,
w∊Rn 和
b∊R是 参数,
w 称为 权值 向量,
b 称为 偏 置,
w⋅l 为
w 和
l 的内积。
探索
logistic回归模型的特点。一个事件的几率
(odds) 是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 p 那么该事件的几率是,该事件的对数几率
(logodds) 或
logit 函数是
logit(p)=log1−pp
对
logistic而言,由二项逻辑斯回归模型 得
logit(p)=log1−p(Y=1∣l)p(Y=1∣l)=wl.
也可以这样来解读,在
binomiallogistic 回归模型中输出
Y=1的对数几率是输入
l的线性函数。将
wl 转化为概率则有:
P(Y=1∣l)=1−exp(wl)exp(wl).
这就是
binomiallogistic 回归模型。
3 参数的估计
logistic回归模型学习时,存在的训练数据集
D=(l1,y1),(l2,y2),…,(lN,yN), 其中,
li∊Rn,
yi∊[0,1],可以应用极大似 然估计法估计模型参数
w,从而得到
logistic回归模型。设:
P(Y=1∣l)=Ψ(l),P(Y=0∣l)=1−Ψ(l)
得似然函数:
i=1∏N[Ψ(li)]yi[1−Ψ(li)]1−yi
得对数似然函数:
LG(w)=k=1∑N[yilogΨ(li)+(1−yi)log(1−Ψ(li))]
=k=1∑N[yilog1−Ψ(li)Ψ(li)+log(1−Ψ(li))]
=k=1∑N[yi(w∗li)−log(1+(w∗li))]
求解
LG(w)的极大值,得到
w的估计值
w
。这样合理的将问题转化为了以对数似然函数作为目标函数最优问题。
logistic回归学习 中通常采用的方法是 梯度下降法、拟牛顿法。
4 multiterm logistic回归
对于多项逻辑回归(
multitermlogistic),说的是当Y的输出不在只是二分类
[0,1],而是形如
[a,b,c,......,f,g,......]的多分类离散型。现在在这里不过多阐述,后期有时间会补上。