关于Logistic Regression的一些知识点:
- 为什么损失函数不用平方误差:
L=2m1i∑m(y^−y)2
答:这样的损失函数不是凸的,梯度下降法会陷入局部最小值。
二分类问题的损失函数:
L=−m1i∑m(ylogy^+(1−y)log(1−y^))
另外,使用平方误差 + sigmoid激活函数,所得backprop梯度为:
{δL=(y^−y)⊙σ′(zL)δl=(Wl+1)Tδl+1⊙σ′(zl)
而使用交叉熵,所得backprop梯度为:
δL=y^−y
表达式里面没有了
σ′(z),一定程度上避免了反向传播梯度小,收敛速度慢的问题。