机器学习初步

三大」最常见机器学习任务：

回归方法
分类方法
聚类方法

分类问题和回归问题是监督学习的两大种类（无监督学习中有聚类算法）

其实回归问题和分类问题的本质一样，都是针对一个输入做出一个输出预测，其区别在于输出变量的类型。

分类问题是指，给定一个新的模式，根据训练集推断它所对应的类别（如：+1，-1），是一种定性输出，也叫离散变量预测；

回归问题是指，给定一个新的模式，根据训练集推断它所对应的输出值（实数）是多少，是一种定量输出，也叫连续变量预测。

举个例子：预测明天的气温是多少度，这是一个回归任务；预测明天是阴、晴还是雨，就是一个分类任务。

监督学习是指有目标变量或预测目标的机器学习方法，包括分类和回归。对于分类来说，目标变量是样本所属的类别，在样本数据中，包含每一个样本的特征，如花朵颜色、花瓣大小，也包含这个样本属于什么类别，它是向日葵还是菊花，而这个类别就是目标变量。分类就是根据样本特征对样本进行类别判定的过程。对于回归来说，回归就是为了预测，比如预测北京的房价，每一套房源是一个样本，样本数据中也包含每一个样本的特征，如房屋面积、建筑年代等，房价就是目标变量，通过拟合出房价的直线预测房价，当然预测值越接近真实值越好，这个过程就是回归。

分类算法有：

1. KNN：k-近邻算法

2. DecisionTree：决策树

3. NaiveBayes：朴素贝叶斯

4. LogisticRegression: 逻辑回归

5. SVM支持向量机

6. 深度学习：各种神经网络

回归算法有：

1.LinearRegression：线性回归

2.深度学习：(各种神经网络算法)

但是一些算法可以及用于分类问题也可以用于回归问题

1. Logistic Regression 和 Linear Regression：

Linear Regression：输出一个标量 wx+b，这个值是连续值，所以可以用来处理回归问题。
Logistic Regression：把上面的 wx+b 通过 sigmoid函数映射到(0,1)上，并划分一个阈值，大于阈值的分为一类，小于等于分为另一类，可以用来处理二分类问题。
更进一步：对于N分类问题，则是先得到N组w值不同的 wx+b，然后归一化，比如用 softmax函数，最后变成N个类上的概率，可以处理多分类问题。

2. Support Vector Regression 和 Support Vector Machine:

SVR：输出 wx+b，即某个样本点到分类面的距离，是连续值，所以是回归模型。
SVM：把这个距离用 sign(·) 函数作用，距离为正(在超平面一侧)的样本点是一类，为负的是另一类，所以是分类模型。

3. 神经网络用于分类和回归:

用于回归：最后一层有m个神经元，每个神经元输出一个标量，m个神经元的输出可以看做向量 v，现全部连到一个神经元上，则这个神经元输出wv+b，是一个连续值，可以处理回归问题，跟上面 Linear Regression 思想一样。
用于N分类：现在这m个神经元最后连接到 N 个神经元，就有 N 组w值不同的 wv+b，同理可以归一化（比如用 softmax ）变成
N个类上的概率。

猜你喜欢