01 - LR公式推导 - 代码天地

参考于逻辑回归 logistics regression 公式推导

1. 线性回归

$f(x) = w^Tx + b$

消灭常数项

$f(x) = w^Tx$

2. 逻辑回归模型函数

$\sigma(x) = \frac{1}{1 + e^{-x}}$

$y = \sigma(f(x)) = \sigma(w^Tx) = \frac{1}{1 + e^{-w^Tx}}$

3. 逻辑回归损失函数

$P_{y=1} = \frac{1}{1 + e^{-w^Tx}} = p$

$P(y|x) = \begin{cases} p, y=1 \\ 1-p,y=0 \end{cases}$
等价于
$P(y_i|x_i) = p^{y_i}(1-p)^{1-y^i}$
有N组数据 ${(x_1,y_1), (x_2,y_2), (x_3,y_3),(x_4,y_4)......(x_N,y_N)}$ ,合在一起的合事件的概率

$P_{总}=P(y_1|x_1)P(y_2|x_2)P(y_3|x_3)......P(y_N|x_N)\\ =\prod_{n=1}^{N}p^{y_n}(1-p)^{1-y_n}$

$F(w) = ln(P_{总}) = ln(\prod_{n=1}^{N}p^{y_n}(1-p)^{1-y_n}) \\ = \sum_{n=1}^{N}ln(p^{y_n}(1-p)^{1-y_n}) \\ = \sum_{n=1}^{N}(y_nln(p)+(1-y_n)ln(1-p))$

损失函数是当前模型的输出结果跟实际输出结果之间的差距。这里的损失函数值的等于事件发生的总概率。我们期待损失函数的值最大。

4. 最大似然估计

$F(w)$ 正比于 $P_总$ ， $F(w)$ 只有一个变量 $w$ ，改变 $w$ 的值可以得到不同的 $P_总$ ，当我们选取的 $w^*$ 刚好使 $P_总$ 最大，

就求到了 $w$ 的值 $w^*$ 。
$w^* = \arg\max_{w}F(w) = -\arg\min_{w}F(x)$

5. 梯度推导

$p^{'} =p(1-p)x$

$(1-p)^{'} = -p(1-p)x$

$\Delta F(w) = \sum_{n=1}^{N}(y_n-p)x_n \\ = \sum_{n=1}^{N}(y_n-\frac{1}{1 + e^{-w^Tx_{n}}})x_n$

6. 梯度下降

$w_{t+1} = w_t + \eta\Delta F(w)$

$\eta$ 为步长，学习率。

逻辑回归的损失函数是连续凸函数，只有一个全局最优点。

梯度下降使用可所有的样本点。所有的样本都参与梯度计算。

7. 随机梯度下降

随机梯度下降选择随机选择一个样本，用于代表整体，然后乘以N
$w_{t+1} = w_t + \eta N(y_i - \frac{1}{1 + e^{-w^Tx_i}})$
把 $\eta$ 和 N 合并
$w_{t+1} = w_t + \eta (y_i - \frac{1}{1 + e^{-w^Tx_i}})$