逻辑回归(推导)

逻辑回归其实就是一个判别模型，什么意思呢？也就是给定一组数据我们将其判别它属于某一类的概率，或者判别好坏，也就是 $p(y|x)$ 对于这样的模型我们首先想到的是 $p(y|x)=w^Tx+b$ 但是我们可以清楚地看到公式并不成立： $0\leq p(y|x)\leq1$ 还有 $\sum_yp(y|x)=1$ 这两个条件并不满足，因此我们将公式转变一下：利用 $y=\dfrac{1}{1+e^x}$ 也就是 $\sigma(x)$ 也就是:

$p(y|x;w)=\sigma(w^Tx+b)=\dfrac{1}{1+e^{-(w^Tx+b)}}$

这个时候我们的目标函数就可以满足概率的形式啦

假设我们现在做一个二分类的问题那么公式可以转化为：

$p(y=1|x;w)=\dfrac{1}{1+e^{-(w^Tx+b)}}$

$p(y=0|x;w)=1-p(y=1|x;w)=1-\dfrac{1}{1+e^{-(w^Tx+b)}}=\dfrac{e^{-(w^Tx+b)}}{1+e^{-(w^Tx+b)}}$

也就是如果标签为1我们就最大化 $p(y=1|x;w)$ 然后最小化 $p(y=0|x;w)$ 因此我们将两个公式合并为：

$p(y|x;w)=p(y=1|x;w)^y\cdot[1-p(y=0|x;w)]^{1-y}$

因此给定数据集 $D\{(x_i,y_i)\},x_i\in R^d\quad y_i\in \{0,1\}$

因此我们最大化我们的目标函数是：

$w_{mle},w_{mle}=argmax_{w,b}\prod ^{n}_{i=1}p(y_i|x_i,w,b_i)=argmax_{w,b}\log(\prod ^{n}_{i=1}p(y_i|x_i,w,b_i))$

$=argmax_{w,b}\sum ^{n}_{i=1}\log p(y_i|x_i,w,b_i)=argmin_{w,b}-\sum ^{n}_{i=1}\log p(y_i|x_i,w,b_i)$

$=argmin_{w,b}-\sum ^{n}_{i=1}\log( p(y_i=1|x_i;w_i)^y_i\cdot[1-p(y_i=0|x_i;w_i)]^{1-y_i})$

$=argmin_{w,b}-\sum ^{n}_{i=1}\log p(y_i=1|x_i;w_i)^y_i+\log [1-p(y_i=0|x_i;w_i)]^{1-y_i}$

$=argmin_{w,b}-\sum ^{n}_{i=1}y_i\log \sigma(w^Tx_i+b)+(1-y_i)\log(1-\sigma(w^Tx_i+b))$

因此逻辑回归的目标函数是：

$L=argmin_{w,b}-\sum ^{n}_{i=1}y_i\log \sigma(w^Tx_i+b)+(1-y_i)\log(1-\sigma(w^Tx_i+b))$

下面我们使用梯度下降法进行对参数的不断优化：

$\dfrac{\partial L}{\partial w}=argmin_{w,b}-\sum ^{n}_{i=1}y_i\dfrac{\sigma(w^Tx_i+b)\cdot[1-\sigma(w^Tx_i+b)]}{\sigma(w^Tx_i+b)}\cdot x_i+(1-y_i)\dfrac{-\sigma(w^Tx_i+b)\cdot[1-\sigma(w^Tx_i+b)]}{\sigma(w^Tx_i+b)}\cdot x_i$

$=argmin_{w,b}-\sum ^{n}_{i=1}y_i\cdot[1-\sigma(w^Tx_i+b)]\cdot x_i+(y_i-1)\sigma(w^Tx_i+b)\cdot x_i$

$=argmin_{w,b}-\sum ^{n}_{i=1}y_i\cdot x_i-\sigma(w^Tx_i+b)\cdot x_i=argmin_{w,b}\sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)\cdot x_i$

最后计算得： $\dfrac{\partial L}{\partial w}=argmin_{w,b}\sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)\cdot x_i$

同理对b进行求导得：

$\dfrac{\partial L}{\partial b}=argmin_{w,b}\sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)$

因此采用梯度下降法：
初始化： $w^1,b^1$
循环 t=1，2，3…n:
$\quad \quad w^{t+1}=w^t-\eta \sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)\cdot x_i$

$\quad \quad b^{t+1}=b^t-\eta \sum ^{n}_{i=1}(\sigma(w^Tx_i+b)-y_i)$

但是采用这样的梯度下降法每次都计算所有 $w$ 和 $b$ 的梯度，计算量比较大因此我们采用随机梯度下降法：
循环 t=1，2，3…n:
$\quad \quad w^{t+1}=w^t-\eta(\sigma(w^Tx_i+b)-y_i)\cdot x_i$

$\quad \quad b^{t+1}=b^t-\eta (\sigma(w^Tx_i+b)-y_i)$

这样一个逻辑回归就证明完毕啦

泽少最帅

发布了18 篇原创文章 · 获赞 8 · 访问量 987

私信关注

猜你喜欢