学习日志(九)：Logistic回归到底是回归还是分类？

我为什么会考虑这个问题？说来话长了，起初只是想把梯度下降实现以下，看到文中把最小二乘法和SGD比较了一下我就有点懵？它俩比什么？扯到线性回归就少不了分类，然后就说到了logistic这个不伦不类的东西…
既然要搞清楚这个问题，首先就要知道什么是分类？什么是回归？它们之间的恩怨情仇…文末的参考文献是我觉得关于这个问题回答较好的俩篇博文，觉得我总结不到位的同学可以去那里看看

总述

众所周知，机器学习有三大方法，分类概念如下：

监督学习：有标准答案的试错学习
无监督学习：根据一定假设寻找数据的内部结构
强化学习：延迟满足，根据结构调整行为

监督学习更为清晰明了的解释如下：给定算法的数据集，其中包含了正确答案。比如给定一个房价的数据集，其中每个样本都给出正确的价格，算法的目的就是给出更多未知的正确房价信息。
监督学习又分为俩类：分类问题和回归问题。首先在这里明确一点，给出一个先入为主的认知观点：分类和回归的区别不在于输入，而是输出的连续还是离散

回归

回归分析就是用来探寻变量之间的关系的过程。比如我们想知道房屋价格和房屋面积之间的关系，这里假设二者是线性关系，房屋面积是自变量X，房屋价格是因变量Y，那么二者之间的关系可以简单描述为：
Y=F(X)=AX+B+ε,ε是误差项（偏置）
在求解系数A、B和参数ε的过程就是回归。有人可能还不太理解，为什么这个过程叫回归不叫其它的名字？还是房价问题，我现在假设这个方程的正解A=1,B=1,ε=0.我开始的数据集样本空间只有100个，经过训练你得出A=1.5,B=0.8,ε=-0.4.随后我扩大了数据集样本空间有10000个样本。经过训练得出结果A=1.001,B=0.992,ε=-0.004.这个时候已经非常接近我给出的正解。假如我在给出更大的样本数，它的最终结果会无限接近正解，训练结果不断向正解靠拢的过程就是回归。一开始是错误的，最后样本变多慢慢接近正解，回到正解附近就是回归。

分类

分类也是一种回归。分类模型的目的也是为了探寻自变量和因变量之间的相互关系，只不过在分类模型中因变量是“离散的”。
举个例子，还是房价问题，刚才我们的目的是通过训练好的模型在我们给出任意房屋面积之后它都能给出相对正确的房屋价格。你要结婚了，作为男生你可能要准备房子，你想买500平的复式，通过模型计算结果需要1100w，你一听，脱口而出：‘好贵啊！’。最后你看了一眼自己的包，说还是来一套120平的吧。模型一算需要260w,你一听乐了，这个便宜，格局什么的都不错就它了。例子中你听到房屋价格1100wh和260w的时候你说的“贵”和“便宜”就是分类。而且在不知不觉中就把一个回归问题转化成了一个分类问题。转化？什么东西？往下看

Logistic回归到底是回归还是分类？

回归问题可以理解为是定量输出的问题，是一个连续变量预测；分类问题可以理解为是定性输出的问题，是一个离散变量预测。例子中模型预测的输出是1100和260俩个数字，把我们内心的衡量标准——便宜贵贱转化成具体的量（数字）输出这就是就是定量输出，即为回归；如果我们的输出经过sigmoid函数进行分类呢？sigmoid函数是激活函数的一种，可用于二分类问题，这是由它的函数性质决定的，之前见过不再赘述。如果我们把sigmoid的阈值设置为0.5，输出结果定义为“1（贵）”和“0（不贵）”这样一个类别，就是一个分类问题。这也就是Logistic回归为什么叫回归却是分类问题就是因为sigmoid函数，sigmoid 可以将数据压缩到[0, 1]之间，它经过一个重要的点(0, 0.5)。这样，将输出压缩到[0,1]之间，0.5作为阈值，大于0.5作为一类（贵），小于0.5作为另一类（不贵）。
参考文献：
1.Logistic回归明明称呼为回归但为什么是分类算法？
2.分类和回归的区别是什么？

学习日志(九)：Logistic回归到底是回归还是分类？

总述

回归

分类

Logistic回归到底是回归还是分类？

猜你喜欢