机器学习初步

三大」最常见机器学习任务:

  1. 回归方法

  2. 分类方法

  3. 聚类方法


分类问题和回归问题是监督学习的两大种类(无监督学习中有聚类算法)
其实回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型
分类问题是指,给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测;
回归问题是指,给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。

举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。

监督学习是指有目标变量或预测目标的机器学习方法,包括分类和回归。对于分类来说,目标变量是样本所属的类别,在样本数据中,包含每一个样本的特征,如花朵颜色、花瓣大小,也包含这个样本属于什么类别,它是向日葵还是菊花,而这个类别就是目标变量。分类就是根据样本特征对样本进行类别判定的过程。对于回归来说,回归就是为了预测,比如预测北京的房价,每一套房源是一个样本,样本数据中也包含每一个样本的特征,如房屋面积、建筑年代等,房价就是目标变量,通过拟合出房价的直线预测房价,当然预测值越接近真实值越好,这个过程就是回归。

分类算法有:

1. KNNk-近邻算法

2. DecisionTree:决策树

3. NaiveBayes:朴素贝叶斯

4. LogisticRegression:  逻辑回归

5. SVM支持向量机 

6. 深度学习:各种神经网络

回归算法有:

 1.LinearRegression线性回归

2.深度学习:(各种神经网络算法)

但是一些算法可以及用于分类问题也可以用于回归问题

1. Logistic Regression 和 Linear Regression:

  • Linear Regression: 输出一个标量 wx+b,这个值是连续值,所以可以用来处理回归问题。
  • Logistic Regression:把上面的 wx+b 通过 sigmoid函数映射到(0,1)上,并划分一个阈值,大于阈值的分为一类,小于等于分为另一类,可以用来处理二分类问题。
  • 更进一步:对于N分类问题,则是先得到N组w值不同的 wx+b,然后归一化,比如用 softmax函数,最后变成N个类上的概率,可以处理多分类问题。

2. Support Vector Regression 和 Support Vector Machine:

  • SVR:输出 wx+b,即某个样本点到分类面的距离,是连续值,所以是回归模型。

  • SVM:把这个距离用 sign(·) 函数作用,距离为正(在超平面一侧)的样本点是一类,为负的是另一类,所以是分类模型。

3. 神经网络用于 分类 和 回归:

  • 用于回归:最后一层有m个神经元,每个神经元输出一个标量,m个神经元的输出可以看做向量 v,现全部连到一个神经元上,则这个神经元输出wv+b,是一个连续值,可以处理回归问题,跟上面 Linear Regression 思想一样。

  • 用于N分类:现在这m个神经元最后连接到 N 个神经元,就有 N 组w值不同的 wv+b,同理可以归一化(比如用 softmax )变成 
    N个类上的概率。


猜你喜欢

转载自blog.csdn.net/chengchaonan/article/details/80873264