逻辑回归与线性回归的区别与联系

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lx_ros/article/details/81263209

逻辑回归与线性回归都属于广义线性回归模型,其区别与联系从以下几个方面比较:

  1. 分类与回归:回归模型就是预测一个连续变量(如降水量,价格等)。在分类问题中,预测属于某类的概率,可以看成回归问题。这可以说是使用回归算法的分类方法。
  2. 输出:直接使用线性回归的输出作为概率是有问题的,因为其值有可能小于0或者大于1,这是不符合实际情况的,逻辑回归的输出正是[0,1]区间。见下图,
    区间
  3. 参数估计方法

    • 线性回归中使用的是最小化平方误差损失函数,对偏离真实值越远的数据惩罚越严重。这样做会有什么问题呢?假如使用线性回归对{0,1}二分类问题做预测,则一个真值为1的样本,其预测值为50,那么将会对其产生很大的惩罚,这也和实际情况不符合,更大的预测值说明为1的可能性越大,而不应该惩罚的越严重。
    • 逻辑回归使用对数似然函数进行参数估计,使用交叉熵作为损失函数,对预测错误的惩罚是随着输出的增大,逐渐逼近一个常数,这就不存在上述问题了1
    • 也正是因为使用的参数估计的方法不同,线性回归模型更容易受到异常值(outlier)的影响,有可能需要不断变换阈值(threshold),线性回归分类的情况见下面两图:

      • 无异常值的线性回归情况:

        lineraRegression
        蓝线为求得的h(x),上图中可选阈值为0.5作为判断肿瘤是否是良性。

      • 有异常值的线性回归情况:

        outlier

        这个时候再想有好的预测效果需调整阈值为0.2,才能准确预测。

      • 使用逻辑回归的方法进行分类,就明显对异常值有较好的稳定性。如下图:
        logisticRegression
  4. 参数解释:
    • 线性回归中,独立变量的系数解释十分明了,就是保持其他变量不变时,改变单个变量因变量的改变量。
    • 逻辑回归中,自变量系数的解释就要视情况而定了,要看选用的概率分布是什么,如二项式分布,泊松分布等

refer

[1] https://stackoverflow.com/questions/12146914/what-is-the-difference-between-linear-regression-and-logistic-regression
[2] https://gerardnico.com/data_mining/simple_logistic_regression
[3] https://stats.stackexchange.com/questions/22381/why-not-approach-classification-through-regression

猜你喜欢

转载自blog.csdn.net/lx_ros/article/details/81263209
今日推荐