版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/darkrabbit/article/details/80294951
笔记:Logistic回归基本原理
app显示公式乱码,请使用浏览器或电脑查看。
1、Bernoulli(亮点分布,0-1分布)
成功变量X取值1,否则取值0。成功概率为
θ
,我们称X服从参数为
θ
的Bernoulli分布,记作
X~Ber(θ)
p(x)=θx(1−θ)1−x={θ,1−θ,if x=1if x=0
- 均值:
μ=θ
- 方差:
σ2=θ×(1−θ)
2、Logistic回归模型
Logistic回归模型是一个线性模型
p(y|x)μ(x)=Ber(y|μ(x))=σ(wTx)
σ(a)=11+exp(−a)=exp(a)exp(a)+1
- 亦被称为logistic函数或logit函数,将实数a变换到[0, 1]区间
3、神经科学中的Logistic回归
LOR(x)=logp(y=1|x,w)p(y=0|x,w)=log[11+exp(−wTx)×1+exp(−wTx)exp(−wTx)]=log[exp(wTx)]=wTx
-
iffLOR(x)=wTx>0
,神经元发放脉冲,即
p(y=1|x,w)>p(y=0|x,w)
4、线性决策函数
在Logistic回归中
LOR(x)LOR(x)LOR(x)=wTx>0,=wTx<0,=wTx=0:y^=1y^=0决策面
因为Logistic回归是一个线性分类器
5、极大似然估计(损失函数)
令
μi=μ(xi)
,则负
log
似然为:
J(w)=NLL(w)=−∑Ni=1log[(μi)yi×(1−μi)1−yi]=∑Ni=1−[yilog(μi)+(1−yi)log(1−μi)]
极大似然估计 等价于 最小Logistic损失
6、正则
目标函数
J(w)=∑i=1N−[yilog(μi)+(1−yi)log(1−μi)]
L2
J(w)=∑i=1N−[yilog(μi)+(1−yi)log(1−μi)]+λ||w||22
L1
J(w)=∑i=1N−[yilog(μi)+(1−yi)log(1−μi)]+λ|w|
7、优化方法
目标函数
J(w)=∑i=1N−[yilog(μi)+(1−yi)log(1−μi)]
梯度
g(w)=∂J(w)∂w=∂∂w[∑Ni=1−[yilog(μi)+(1−yi)log(1−μi)]]=∑Ni=1[−yi×1μ(xi)+(1−yi)×11−μ(xi)]∂∂wμ(xi)=∑Ni=1[−yi×1μ(xi)+(1−yi)×11−μ(xi)]μ(xi)(1−μ(xi))xi=∑Ni=1[−yi×[1−μ(xi)]+(1−yi)μ(xi)]xi=∑Ni=1[−yi+μ(xi)]xi=∑Ni=1[μ(xi)−yi]xi
二阶Hessian矩阵
H(w)=∂∂w[g(w)T]=∑Ni=1(∂∂wμi)xTi=∑Ni=1μi(1−μi)xixTi=XTdiag(μi(1−μi))XT=XTSX正定矩阵,凸优化
牛顿法迭代机制
wt+1=wy−H−1(wt)g(wt)
也称二阶梯度下降法,移动方向为:
d=−(H(wt))−1g(wT)
拟牛顿法
基本思想是:不用二阶偏导数而构造出可以近似Hessian矩阵(或Hessian矩阵的逆矩阵)的正定对称矩阵,进而再逐步优化目标函数。