关于线性回归和逻辑回归一些深入的思考

转载:会飞的蜗牛 专栏

在学习完 Andrew Ng 教授的机器学习课程,和多方查阅大神的博客,本以为很简单的逻辑回归,在深思其细节的时候,很多容易让人不理解,甚至是疑惑的地方,这几天一直冥想其中的缘由。

1、 为什么是逻辑回归?
  都说线性回归用来做回归预测,逻辑回归用于做二分类,一个是解决回归问题,一个用于解决分类问题。但很多人问起逻辑回归和线性回归的区别,很多人会大喊一声(也可能是三声):逻辑回归就是对线性回归做了一个压缩,将y 的阈值从y(+,)y∈(+∞,−∞) 压缩到(0,1)(0,1) 。那么问题来了,问什么仅仅做一个简单的压缩,就将回归问题变成了分类问题?里面蕴含着本质?
  首先要从数据说起,线性回归的样本的输出,都是连续值,y(+,)。而逻辑回归中y{0,1}y∈{0,1} ,只能取0和1。对于拟合函数也有本质上的差别:

可以看出,线性回归的拟合函数,的确是对f(x)的输出变量y的拟合,而逻辑回归的拟合函数是对为1类的样本的概率的拟合。

2、那么,为什么要以1类样本的概率进行拟合呢,为什么可以这样拟合呢?
  首先,logstic 函数的本质说起。若要直接通过回归的方法去预测二分类问题, y 到底是0类还是1类,最好的函数是单位阶跃函数。然而单位阶跃函数不连续(GLM 的必要条件),而 logsitic 函数恰好接近于单位阶跃函数,且单调可微。于是希望通过该复合函数去拟合分类问题:
  

 

于是有: 

 


猜你喜欢

转载自www.cnblogs.com/fuqia/p/8973236.html