分类、回归

说明:本博文在浏览较多web资源,参考诸多书籍文献基础上总结而来,如有侵权请联系博主删除!

分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须直到预测什么,即目标变量的分类信息。
回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测。
简单总结:    
**1输出的数据**
    分类的是离散的
    回归的是连续的,
**2通过机器学习想得到什么**
    分类是得到一个边界用来划分类别归属
    回归是最优拟合曲线,用来预测在曲线上的值
**3评价指标**
    分类中主要用正确率,精度,混淆矩阵
    回归中用决定系数R平方,SSE,拟合优度
**4损失函数**
    分类常见的是log loss ,hinge loss 
    回归是 square loss

**关于离散和连续:**

分类的是离散的:将实例数据划分到合适的分类中,是一种定性输出,也叫离散变量预测;
分类问题是用于将事物打上一个标签,通常结果为离散值。
分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。
分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。
至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。
最常见的分类方法是逻辑回归,或者叫逻辑分类。

回归的是连续的,预测数值型数据,典型的回归例子:数据拟合曲线。
输出空间是一个度量空间,即所谓“定量”。也叫连续变量预测。
回归问题的输出空间定义了一个度量 去衡量输出值与真实值之间的“误差大小”。
回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等
预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。
这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(于是有了均方误差这类误差函数)。
一个比较常见的回归算法是线性回归算法(LR)。
另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。
回归是对真实值的一种逼近预测。

分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。
1. Logistic Regression 和 Linear Regression:
    Linear Regression: 输出一个标量 wx+b,这个值是连续值,所以可以用来处理回归问题。
    Logistic Regression:把上面的 wx+b 通过 sigmoid函数映射到(0,1)上,并划分一个阈值,
                        大于阈值的分为一类,小于等于分为另一类,可以用来处理二分类问题。
    对于N分类问题,则是先得到N组w值不同的 wx+b,然后归一化,比如用 softmax函数,
                        最后变成N个类上的概率,可以处理多分类问题。
2. Support Vector Regression 和 Support Vector Machine:
    SVR:输出 wx+b,即某个样本点到分类面的距离,是连续值,所以是回归模型。
    SVM:把这个距离用 sign(·) 函数作用,距离为正(在超平面一侧)的样本点是一类,为负的是另一类,所以是分类模型。
3.Naive Bayes 用于分类和回归:
    1、分类:y是离散的类别,得到离散的P(y|x),给定x,输出每个类上的概率
    2、回归:对离散的P(y|x)求期望EyP(y|x),就得到连续值,也可以得到连续的概率密度函数P(y|x),然后对y求期望
4. 神经网络用于 分类 和 回归:
    用于回归:最后一层有m个神经元,每个神经元输出一个标量,m个神经元的输出可以看做向量 v,现全部连到一个神经元上,
             则这个神经元输出wv+b,是一个连续值,可以处理回归问题,跟上面 Linear Regression 思想一样。
    用于N分类:现在这m个神经元最后连接到 N 个神经元,就有 N 组w值不同的 wv+b,同理可以归一化(比如用 softmax )
             变成 N个类上的概率
           (如果不用softmax,而是每个wx+b用一个sigmoid,就变成多标签问题,跟多分类的区别在于,样本可以被打上多个标签)

   ** 注意:**
logistic回归只是用到了回归算法,但是其输出的结果是决策边界,是不连续的。
很多人认为Logistic回归过程和线性回归雷同,在二分类问题中,仅仅只是多了一个“阈值判断”,所以应该是回归。
但是,Logistc回归仅仅只是过程和线性回归一样,可我们所要讨论的回归和分类,是仅仅对于输出而言的,所以是回归算法。

李航统计学习原文:
输入变量与输出变量均为连续变量的预测问题是回归问题;
输出变量为有限个离散变量的预测问题成为分类问题;
输入变量与输出变量均为变量序列的预测问题成为标注问题

猜你喜欢

转载自my.oschina.net/u/3726752/blog/1649406
今日推荐