逻辑回归是一种广义的线性回归,其因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。故本文以二分类为例,详细讲解了逻辑回归的推导过程。
1 构造预测函数
逻辑回归来源于线性回归,因而它最根本的原理无非是利用一条曲线去拟合已有散点的分布,但逻辑回归的目标值为分类变量,即 {0,1}。所以需要把已有的线性回归结果,映射到[0,1]区间,于是就有了我们逻辑回归的预测函数。
其中
函数g(z)的图像如下:
利用上诉公式预测二分类问题 ,如何求出最优解?
2 构造损失函数
说到损失函数,首先想到的是预测值和实际值的平方差。但考虑到最终的优化目标为非凸函数,不利于利用梯度下降法求全局最优。故我们采用最大似然估计1的方法建立损失函数。
因构造的预测函数符合伯努利分布,其概率分布可写为:
所以所有样本的联合概率分布如下:
当前所有的样本都已经发生,因此由极大似然原理,我们认为w应使得L(w)最大为最优解。为了方便求L(w)最大值,我们对其取对数(取对数后,函数的单调性不变。但乘号符号变成了加号,有利于求导。),即
为了将其变为真正意义上的损失函数(数值越小越好),将其进行变形:
3 求解损失函数
由于损失函数为凸函数2以及为了计算的简单性,可选用梯度下降法求解,即
为学习率,控制每次迭代的步长; 为在 方向上的斜率。不断利用上诉公式更新 直至 不再减小或者减小的幅度低于预设值,则即为最优解。
以下对进行求解计算(用到了复合函数的求导法则):
其中
因此
最后,不断执行 直至 不再减小,此时的即为最优解。
[1] 最大似然估计:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
直观的说法:设甲箱中有99个白球,1个黑球;乙箱中有1个白球.99个黑球。现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的。一般说来,事件A发生的概率与某一未知参数w有关,w取值不同,则事件A发生的概率 也不同,当我们在一次试验中事件A发生了,则认为此时的P(A|w)值应是w的一切可能取值中使P(A|w)达到最大的那一个,极大似然估计法就是要选取这样的w值作为参数w的估计值,使所选取的样本在被选的总体中出现的可能性为最大。
[2] 凸函数:与凹函数相反。以下解释凹函数:无局部最小值。
非凹函数:
凹函数: