轻松入门机器学习--逻辑回归（理论）

小文 | 公众号小文的数据之旅

上一期介绍了回归模型中最简单的线性回归模型的理论知识以及分别从最小二乘法、批量梯度下降法、随机梯度下降法和小批量梯度下降法求得线性回归的最优解，今天将介绍分类模型中最简单的逻辑回归模型。逻辑回归模型听起来像是回归模型，那么它是怎么成为分类模型的呢？

首先还是从回归模型说起，现在假设一个函数g(x)且 $g(x)\in(0,1)$ 的一个连续值 ,x有n个特征，得到： $g(x) = k_{0}+ k_{1}x_{1} + k_{2}x_{2} +...+k_{n}x_{n}， x\in R$ ；那么怎么利用g(x)来解决分类任务呢？往往我们会取一个阈值，当大于这个阈值时为正类，小于阈值时为负类。这个阈值的选取往往会取值域的中间值，也就是0.5，即：当g(x) > 0.5时为正类，当g(x) < 0.5时为负类，g(x) = 0.5时任意判断，也就构成了单位跃界函数。

单位跃界函数可以作为二分类的一个模型，但是模型并不是连续可导模型，对于求优解并不友好，于是往往会使用更为友好的sigmoid函数替代。

Sigmoid函数:

sigmoid函数有一个非常好的性质，即当z趋于正无穷时， y趋于1，当z趋于负无穷时,y趋于0，非常适合分类概率模型。它还有一个很好的导数性质， $f^{'}(x) = f(x)(1-f(x))$ ，在求解过程会用到。sigmoid函数表达式为： $y = f(z) = \frac{1}{1+e^{-z}}$ ；那么令g(x) = z,得到： $y = f(g(x)) = \frac{1}{1+e^{-g(x)}}$

$y = f(g(x)) = \frac{1}{1+e^{-g(x)}}$

$\Rightarrow lny = ln(\frac{1}{1+e^{-g(x)}} )$

$1-y =1- f(g(x)) =\frac{e^{-g(x)}}{1+e^{-g(x)}}$

$\Rightarrow ln(1-y) = ln(\frac{e^{-g(x)}}{1+e^{-g(x)}} )$

那么，

$lny - ln(1-y) = ln(\frac{1}{1+e^{-g(x)}}) - ln(\frac{e^{-g(x)}}{1+e^{-g(x)}} )$

$\Rightarrow ln(\frac{y}{1-y}) = ln \frac{(\frac{1}{1+e^{-g(x)}})}{(\frac{e^{-g(x)}}{1+e^{-g(x)}} )} = g(x)$

即

$ln(\frac{y}{1-y}) =k_{0}+ k_{1}x_{1} + k_{2}x_{2} +...+k_{n}x_{n}$

至此，逻辑回归的一般表达式已经推导出来了，那么该怎么理解这个表达式呢？

y为正类样本数量，也就是正类发生的概率；1-y为负类样本数量，也就是负类发生的概率；那么 $\frac{y}{1-y}$ 就是正负样本数量之比，也就是正负样本发生的概率比，所以正负样本发生的概率比的对数与数据集X成线性相关。

理想状态下，正负样本数量相等，也就是正负样本发生概率相等，即 $\frac{y}{1-y}=1$ ，也就是 $y = 1-y ,则 y = 0.5$ ,这跟我们一开始将g(x)的分类阈值设为0.5相符合。

根据逻辑回归的表达式，如果知道数据集X以及相对应的系数k，就可以求得正负样本发生的概率，那么怎么通过X数据集求解对应的k值呢？往往通过对损失函数求最优解就可以。

线性回归是连续的，所以可以使用模型误差的的平方和来定义损失函数。但是逻辑回归不是连续的，自然线性回归损失函数定义的经验就用不上了。不过我们可以用似然函数来推导出我们的损失函数。

设 $p(y_{i} = 1|x) = p_{i}，p(y_{i} = 0|x) = 1-p_{i}$ ，则 $p(y_{i}) = p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}$

那么似然函数就可以写成 $L(k) =\prod_{i=1}^{n}p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}$ ，然后求解L(k)的极大值就ok了。

求解过程如下：

$ln(L(k)) = \sum_{i=1}^{n}{[ln(p_{i})^{yi} + ln(1-p_{i})^{1-y_{i}}]}$

$= \sum_{i=1}^{n}{[y_{i}ln(p_{i}) + (1-y_{i})ln(1-p_{i})]}$

$\frac{\partial ln(L(k))}{\partial k} = \sum_{i=1}^{n}{(\frac{y_{i}}{p_{i}}p^{'}_{i} - \frac{1-y_{i}}{1-p_{i}}p^{'}_{i})}= \sum_{i=1}^{n}{(\frac{y_{i}}{p_{i}} - \frac{1-y_{i}}{1-p_{i}})p^{'}_{i}}$

又因为 $p(y_{i} = 1|x) = p_{i}= \frac{1}{1+e^{-g(x)}} = \frac{e^{g(x)}}{1+e^{g(x)}}$ ,

所以

$p^{'}_{i} = \frac{(e^{g(x)})^{'}(1+e^{g(x)})-(1+e^{g(x)})^{'}e^{g(x)}}{(1+e^{g(x)})^{2}}$

$= \frac{e^{g(x)}g^{'}(x)(1+e^{g(x)})-e^{g(x)}g^{'}(x)e^{g(x)}}{(1+e^{g(x)})^{2}}$

$=\frac{g^{'}(x)e^{g(x)}}{(1+e^{g(x)})^{2}}$

用sigmoid函数的一个导数性质， $f^{'}(x) = f(x)(1-f(x))$ 可以更快得到相同的结果！不信？！可以验证一下！然后把 $p^{'}_{i}$ 代入 $\frac{\partial ln(L(k))}{\partial k}$ 中，可得：

$\frac{\partial ln(L(k))}{\partial k} = \sum_{i=1}^{n}{(\frac{y_{i}}{p_{i}} - \frac{1-y_{i}}{1-p_{i}})\frac{g^{'}(x)e^{g(x)}}{(1+e^{g(x)})^{2}}}$

$=\sum_{i=1}^{n}{(\frac{y_{i}-p_{i}}{p_{i}(1-p_{i})})\frac{g^{'}(x)e^{g(x)}}{(1+e^{g(x)})^{2}}}$

$= \sum_{i=1}^{n}{(\frac{y_{i}-p_{i}}{ \frac{e^{g(x)}}{1+e^{g(x)}}(1- \frac{e^{g(x)}}{1+e^{g(x)}})})\frac{g^{'}(x)e^{g(x)}}{(1+e^{g(x)})^{2}}}$

$=\sum_{i = 1}^{n}{(y_{i}-p_{i})g^{'}(x)}$

因为要求 $ln(L(k))$ 的极大值，那么用梯度上升法求解参数k：

$k_{i} = k_{i} + \eta\frac{\partial ln(L(k))}{\partial k_{i}}$ ,其中 $\frac{\partial ln(L(k))}{\partial k_{i}} = \sum_{i = 1}^{n}{(y_{i}-p_{i})x_{i}} = \sum_{i = 1}^{n}{(y_{i}-\frac{1}{1+e^{-g(x)}})x_{i}}$

即 $k_{i} = k_{i} +\eta\sum_{i = 1}^{n}{(y_{i}-\frac{1}{1+e^{-g(x)}})x_{i}}$

至此求得最优解k。

— end —

小文的数据之旅

戳右上角「+关注」获取最新share

如果喜欢，请分享or点赞

小文的数据之旅

发布了33 篇原创文章 · 获赞 30 · 访问量 3万+

私信关注

轻松入门机器学习--逻辑回归（理论）

猜你喜欢