逻辑回归模型logistic原理详解

Hello! 小A又来咯！

之前我们详细的介绍了使用线性回归模型来进行回归学习，那如果要做分类任务该怎么办呢？

考虑二分类任务，其输出值y属于集合[0,1]。而线性回归模型z=w^T*x+b是实值。为了进行分类任务，我们需要将实值z转化成[0,1]，我们首先想到的最理想的就是单位跃阶函数，即：

但是单位跃阶函数并不连续，并不能处处求导，不利于后续计算。所以我们需要找到一个能在一定程度上近似单位跃阶函数额替代函数，连续且单调可微。而对数几率函数正是这样的一个常用替代函数。如下图所示：

对数几率函数是一种sigmod函数。所谓sigmod函数就是形似“s”的函数，它可以将z值转化为一个接近0或1的y值。因此我们可以利用此单调可微函数将分类任务与线性回归模型联系起来，将z=w^T*x+b带入对数几率函数。可得：

我们可以看到此式实际上是用线性回归模型的预测结果去逼近真实标记的对数几率，进一步化简，可得：

我们将y视为样本x作为正例的可能性，那么1-y就是反例的可能性，那么二者的比例1/(1-y)称之为几率，它反映了x作为正例的相对可能性。

下一步就是要确定式子中不确定的w和b，我们可以将其中的y视为类后验概率p(y=1|x)，即我们已经拿到了这个样例，它为正例的概率。于是上式可以重写为：

对其进行化简，则

由于是概率，所以接下来我们使用极大似然估计来求参数w和b。那么什么是极大似然估计呢？

举个例子：

假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？

我们假设白球占比为p，那么黑球占比就是1-p。由于每次我们都是拿出来记录颜色后又放回去，所以每次抽取出来的球的颜色都服从独立同分布。

根据我们的实验结果：在前面的一百次重复记录中，有七十次是白球。我们将此次事件记为P，则

P=p^70*(1-p)^30。不同的p，P的结果也不一样。当p=0.5时，P=7.8 * 10^(-31)。当p=0.7时，P=2.95* 10^(-27)。极大似然估计求解p原则就是：既然事情已经发生了，为什么不让这个出现的结果的可能性最大呢？这也就是最大似然估计的核心。所以我们将其看成p的方程，求导即可。

回到我们的式子中，使用极大似然估计来求参数w和b。