01 - LR公式推导

参考于逻辑回归 logistics regression 公式推导

1. 线性回归

f ( x ) = w T x + b f(x) = w^Tx + b

消灭常数项

f ( x ) = w T x f(x) = w^Tx

2. 逻辑回归模型函数

σ ( x ) = 1 1 + e x \sigma(x) = \frac{1}{1 + e^{-x}}

y = σ ( f ( x ) ) = σ ( w T x ) = 1 1 + e w T x y = \sigma(f(x)) = \sigma(w^Tx) = \frac{1}{1 + e^{-w^Tx}}

3. 逻辑回归损失函数

P y = 1 = 1 1 + e w T x = p P_{y=1} = \frac{1}{1 + e^{-w^Tx}} = p

P ( y x ) = { p , y = 1 1 p , y = 0 P(y|x) = \begin{cases} p, y=1 \\ 1-p,y=0 \end{cases}
等价于
P ( y i x i ) = p y i ( 1 p ) 1 y i P(y_i|x_i) = p^{y_i}(1-p)^{1-y^i}
有N组数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , ( x 4 , y 4 ) . . . . . . ( x N , y N ) {(x_1,y_1), (x_2,y_2), (x_3,y_3),(x_4,y_4)......(x_N,y_N)} ,合在一起的合事件的概率

P = P ( y 1 x 1 ) P ( y 2 x 2 ) P ( y 3 x 3 ) . . . . . . P ( y N x N ) = n = 1 N p y n ( 1 p ) 1 y n P_{总}=P(y_1|x_1)P(y_2|x_2)P(y_3|x_3)......P(y_N|x_N)\\ =\prod_{n=1}^{N}p^{y_n}(1-p)^{1-y_n}

F ( w ) = l n ( P ) = l n ( n = 1 N p y n ( 1 p ) 1 y n ) = n = 1 N l n ( p y n ( 1 p ) 1 y n ) = n = 1 N ( y n l n ( p ) + ( 1 y n ) l n ( 1 p ) ) F(w) = ln(P_{总}) = ln(\prod_{n=1}^{N}p^{y_n}(1-p)^{1-y_n}) \\ = \sum_{n=1}^{N}ln(p^{y_n}(1-p)^{1-y_n}) \\ = \sum_{n=1}^{N}(y_nln(p)+(1-y_n)ln(1-p))

损失函数是当前模型的输出结果跟实际输出结果之间的差距。这里的损失函数值的等于事件发生的总概率。我们期待损失函数的值最大。

4. 最大似然估计

F ( w ) F(w) 正比于 P P_总 F ( w ) F(w) 只有一个变量 w w ,改变 w w 的值可以得到不同的 P P_总 ,当我们选取的 w w^* 刚好使 P P_总 最大,

就求到了 w w 的值 w w^*
w = arg max w F ( w ) = arg min w F ( x ) w^* = \arg\max_{w}F(w) = -\arg\min_{w}F(x)

5. 梯度推导

p = p ( 1 p ) x p^{'} =p(1-p)x

( 1 p ) = p ( 1 p ) x (1-p)^{'} = -p(1-p)x

Δ F ( w ) = n = 1 N ( y n p ) x n = n = 1 N ( y n 1 1 + e w T x n ) x n \Delta F(w) = \sum_{n=1}^{N}(y_n-p)x_n \\ = \sum_{n=1}^{N}(y_n-\frac{1}{1 + e^{-w^Tx_{n}}})x_n

6. 梯度下降

w t + 1 = w t + η Δ F ( w ) w_{t+1} = w_t + \eta\Delta F(w)

η \eta 为步长,学习率。

逻辑回归的损失函数是连续凸函数,只有一个全局最优点。

梯度下降使用可所有的样本点。所有的样本都参与梯度计算。

7. 随机梯度下降

随机梯度下降选择随机选择一个样本,用于代表整体,然后乘以N
w t + 1 = w t + η N ( y i 1 1 + e w T x i ) w_{t+1} = w_t + \eta N(y_i - \frac{1}{1 + e^{-w^Tx_i}})
η \eta 和 N 合并
w t + 1 = w t + η ( y i 1 1 + e w T x i ) w_{t+1} = w_t + \eta (y_i - \frac{1}{1 + e^{-w^Tx_i}})

猜你喜欢

转载自blog.csdn.net/huatangzhithree/article/details/89175928