分类、回归

说明：本博文在浏览较多web资源，参考诸多书籍文献基础上总结而来，如有侵权请联系博主删除！
分类和回归属于监督学习，之所以称之为监督学习，是因为这类算法必须直到预测什么，即目标变量的分类信息。
回归问题和分类问题的本质一样，都是针对一个输入做出一个输出预测。
简单总结：    
**1输出的数据**
    分类的是离散的
    回归的是连续的，
**2通过机器学习想得到什么**
    分类是得到一个边界用来划分类别归属
    回归是最优拟合曲线，用来预测在曲线上的值
**3评价指标**
    分类中主要用正确率，精度，混淆矩阵
    回归中用决定系数R平方，SSE,拟合优度
**4损失函数**
    分类常见的是log loss ,hinge loss 
    回归是 square loss

**关于离散和连续：**

分类的是离散的：将实例数据划分到合适的分类中，是一种定性输出，也叫离散变量预测；
分类问题是用于将事物打上一个标签，通常结果为离散值。
分类通常是建立在回归之上，分类的最后一层通常要使用softmax函数进行判断其所属类别。
分类并没有逼近的概念，最终正确结果只有一个，错误的就是错误的，不会有相近的概念。
至于错误时是将Class 5分到Class 6,还是Class 7，并没有区别，都是在error counter上+1。
最常见的分类方法是逻辑回归，或者叫逻辑分类。

回归的是连续的，预测数值型数据，典型的回归例子：数据拟合曲线。
输出空间是一个度量空间，即所谓“定量”。也叫连续变量预测。
回归问题的输出空间定义了一个度量 去衡量输出值与真实值之间的“误差大小”。
回归问题通常是用来预测一个值，如预测房价、未来的天气情况等等
预测一瓶700毫升的可乐的价格（真实价格为5元）为6元时，误差为1；预测其为7元时，误差为2。
这两个预测结果是不一样的，是有度量定义来衡量这种“不一样”的。（于是有了均方误差这类误差函数）。
一个比较常见的回归算法是线性回归算法（LR）。
另外，回归分析用在神经网络上，其最上层是不需要加上softmax函数的，而是直接对前一层累加即可。
回归是对真实值的一种逼近预测。

分类模型和回归模型本质一样，分类模型是将回归模型的输出离散化。
1. Logistic Regression 和 Linear Regression：
    Linear Regression： 输出一个标量 wx+b，这个值是连续值，所以可以用来处理回归问题。
    Logistic Regression：把上面的 wx+b 通过 sigmoid函数映射到(0,1)上，并划分一个阈值，
                        大于阈值的分为一类，小于等于分为另一类，可以用来处理二分类问题。
    对于N分类问题，则是先得到N组w值不同的 wx+b，然后归一化，比如用 softmax函数，
                        最后变成N个类上的概率，可以处理多分类问题。
2. Support Vector Regression 和 Support Vector Machine:
    SVR：输出 wx+b，即某个样本点到分类面的距离，是连续值，所以是回归模型。
    SVM：把这个距离用 sign(·) 函数作用，距离为正(在超平面一侧)的样本点是一类，为负的是另一类，所以是分类模型。
3.Naive Bayes 用于分类和回归：
    1、分类：y是离散的类别，得到离散的P（y|x）,给定x,输出每个类上的概率
    2、回归：对离散的P（y|x）求期望EyP（y|x）,就得到连续值，也可以得到连续的概率密度函数P（y|x），然后对y求期望
4. 神经网络用于 分类 和 回归:
    用于回归：最后一层有m个神经元，每个神经元输出一个标量，m个神经元的输出可以看做向量 v，现全部连到一个神经元上，
             则这个神经元输出wv+b，是一个连续值，可以处理回归问题，跟上面 Linear Regression 思想一样。
    用于N分类：现在这m个神经元最后连接到 N 个神经元，就有 N 组w值不同的 wv+b，同理可以归一化（比如用 softmax ）
             变成 N个类上的概率
           （如果不用softmax,而是每个wx+b用一个sigmoid,就变成多标签问题，跟多分类的区别在于，样本可以被打上多个标签）

   ** 注意：**
logistic回归只是用到了回归算法，但是其输出的结果是决策边界，是不连续的。
很多人认为Logistic回归过程和线性回归雷同，在二分类问题中，仅仅只是多了一个“阈值判断”，所以应该是回归。
但是，Logistc回归仅仅只是过程和线性回归一样，可我们所要讨论的回归和分类，是仅仅对于输出而言的，所以是回归算法。

李航统计学习原文：
输入变量与输出变量均为连续变量的预测问题是回归问题；
输出变量为有限个离散变量的预测问题成为分类问题；
输入变量与输出变量均为变量序列的预测问题成为标注问题
猜你喜欢