参考于逻辑回归 logistics regression 公式推导
1. 线性回归
f(x)=wTx+b
消灭常数项
f(x)=wTx
2. 逻辑回归模型函数
σ(x)=1+e−x1
y=σ(f(x))=σ(wTx)=1+e−wTx1
3. 逻辑回归损失函数
Py=1=1+e−wTx1=p
P(y∣x)={p,y=11−p,y=0
等价于
P(yi∣xi)=pyi(1−p)1−yi
有N组数据
(x1,y1),(x2,y2),(x3,y3),(x4,y4)......(xN,yN),合在一起的合事件的概率
P总=P(y1∣x1)P(y2∣x2)P(y3∣x3)......P(yN∣xN)=n=1∏Npyn(1−p)1−yn
F(w)=ln(P总)=ln(n=1∏Npyn(1−p)1−yn)=n=1∑Nln(pyn(1−p)1−yn)=n=1∑N(ynln(p)+(1−yn)ln(1−p))
损失函数是当前模型的输出结果跟实际输出结果之间的差距。这里的损失函数值的等于事件发生的总概率。我们期待损失函数的值最大。
4. 最大似然估计
F(w) 正比于
P总,
F(w) 只有一个变量
w,改变
w 的值可以得到不同的
P总,当我们选取的
w∗ 刚好使
P总最大,
就求到了
w的值
w∗。
w∗=argwmaxF(w)=−argwminF(x)
5. 梯度推导
p′=p(1−p)x
(1−p)′=−p(1−p)x
ΔF(w)=n=1∑N(yn−p)xn=n=1∑N(yn−1+e−wTxn1)xn
6. 梯度下降
wt+1=wt+ηΔF(w)
η为步长,学习率。
逻辑回归的损失函数是连续凸函数,只有一个全局最优点。
梯度下降使用可所有的样本点。所有的样本都参与梯度计算。
7. 随机梯度下降
随机梯度下降选择随机选择一个样本,用于代表整体,然后乘以N
wt+1=wt+ηN(yi−1+e−wTxi1)
把
η 和 N 合并
wt+1=wt+η(yi−1+e−wTxi1)