对数几率回归的出现源于我们想要使用线性回归模型来做二分类任务,因为线性回归模型产生的预测值是实数值,我们需要将它转化成0/1值,最理想的是用“单位阶跃函数”:若预测值大于零就判为正例,小于零就判为反例。
但是因为单位阶跃函数不连续,所以我们选择了对数几率函数,从图中可以看出,对数几率函数一定程度上很近似单位阶跃函数
我们通过公式 来将线性回归的实数预测值转化为0/1值(其中 是线性回归模型),函数叫联系函数(link function),在对数几率回归模型中,就是 ,它将z值转化成一个接近0或1的y值。将线性回归函数带入对数几率函数得到: ,可变式为 ,将y视为样本x作为正例的可能性,1-y是其反例的可能性,二者的比值反映的是x作为正例的相对可能性。
这种方法有很多优点:
它是直接对分类可能性进行的建模,无需事先假设数据分布,这就避免了假设分布不准确带来的问题;
它不是仅仅预测出它的类别,而是得到了它的近似概率预测,这对需要用概率来辅助决策的任务很有用;
对率函数是任意阶可导凸函数,有很好的数学性质,现有的很多数值优化算法都可直接用于求取最优解。