sklearn中的监督学习专有名词

术业有专攻，我建议做爬虫的可以了解一些机器学习的基础，但不要用来做图像识别，

0. 特征和特征集适用环境：监督学习

拿一个西瓜举例，给你许多西瓜，然后在瓜上贴上标签分别是好瓜和坏瓜，

然后将好瓜和坏瓜一并给机器，这些瓜就相当与是训练集，然后机器开始寻找特征，渐渐的它找到了一个特征：好瓜的皮都非常翠绿，这就是特征。

然后随着瓜数量的增多，机器继续找，然后发现拍起来响响的就是好瓜，于是现在出现两种特征来归类是好瓜还是坏瓜，当前区别与之前的一个特征，现在有两个特征，所以叫做特征集。

1. 标签适用环境：监督学习

就是在起初给你许多瓜的时候，这些瓜称为训练集，然后在这些瓜上人为的贴上标签，对应好瓜和坏瓜。

2. 泛化能力适用环境：监督学习

泛化能力就是指通过训练一推西瓜，得到分类好瓜与坏瓜的特征集以后，将该特征集适用与训练集以外的数据当中。

那么究竟何为泛化能力呢，就是说给机器这么多西瓜它能用特征集识别出好瓜与坏瓜以后，给它许多南瓜，它依旧可以帮你分出什么是好南瓜，什么是坏南瓜。

这就是泛化能力。通俗的说就是达到了一通百通举一反三的能力，这就是泛化能力

比如说给机器一堆二哈，它分类出这是狗，在给机器一堆茶杯犬，它依旧能分类为狗，这就说明机器具备泛化能力

那么从中可以看出，泛化能力的产生不是训练集越大越具备泛化能力，而是训练集的不同，每次输入一批不同的训练集才能让机器产生泛化的能力。

3. 回归分类适用环境：监督学习

回归与分类的最好判断就是输出的结果，如果结果是非0即1的结果，则适用于分类算法，

如果结果是一个不定的值的话，则适用于回归算法

所以预判是好瓜还是坏瓜要用分类算法

所以预判这瓜能卖多少钱，【有许多不同的答案了】，要用回归算法。

4. 4.离散变量适用环境：监督学习

其数值只能用自然数或整数单位计算的则叫做离散变量.

通俗的来说离散变量就是指只能单个计数的，比如你的父母，只有可能是1个或是两个，不可能出现2.1个，也不可能出现2.12个。

在比如说中国的游戏，今年可能出现60个，明年可能出现100个，但是绝对不可能出现100.1个，这就是离散变量

然而离散变量与分类算法的关系就在于，离散变量中还有一个子集，叫做类别变量，

类别变量是离散的变量。

比如有关于天气的变量：晴，阴，雨。只能是其中单独一个，不存在介于两种之间的，即不能又晴又雨。

那么分类算法就和离散变量中的类别变量有关了，也就是说分类的结果要么是A，要么是B，绝不可能出现AB.

5. 5.连续变量适用环境：监督学习

在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的，相邻两个数值可作无限分割,即可取无限个数值。

那么通俗的来说连续变量就是指体重，体重可以是连续变量，回归算法得到结果的变量可以是99.1kg，也可使是99.11kg，也可以是99.119kg这就是连续变量

6. 过拟合适用环境：监督学习

为了得到一致假设而使假设变得过度严格称为过拟合。

那适用场景相当于说你为了让机器分辨出这是西瓜，给机器的训练集都是圆的，那么机器，在该场景中得到的分类结果是完全对的，但是当给一个日本的方西瓜时，机器因为过拟合问题导致机器无法分辨出方西瓜也是西瓜，这就是过拟合问题。

过拟合会导致机器的泛化能力降低，可以认为该机器学习模型只能够分类出在西瓜是圆的时候的一个场景，不能适用与多个场景，那这样的分类模型或回归模型所产生的问题就是过拟合，这样的模型泛化能力极低。

所以可以看出来出现过拟合问题的原因是训练集的量过于单一，应当提供不同的训练集给机器学习。

7. 欠拟合适用环境：监督学习

欠拟合就是分类或回归的机器学习模型没有很好地捕捉到数据特征，不能够很好地拟合数据。那就是说给的西瓜这个训练集太少了，导致机器无法找到好西瓜，坏西瓜之间的特征，这时如果给机器一批测试集的话，机器分类出来的结果达不到期许，就可以认为这个模型属于欠拟合。

8. svm 适用环境：监督学习

支持向量机是指训练集放入机器中，机器自己在寻找该训练集的特征，将可能的特征放在一个个坐标点上，最后依据标签来找到符合的特征点，这些特征点连成的一条线就是一条分类的线。

比如x+y-2=0这条直线是花，x+y-2>0这条直线是草，通过这样的方法来做到分类，这条线边缘上的一个个点相当于是一个个特征，这些特征是构造这条直线关键。

【就是说支持向量机自己找到一个数据集的特征，然后该特征和标签放在一起，然后得到一条分类线，然后又有一个数据集，在找到特征和标签放在一起，然后特征和标签不符合就会一次次修正数据达到一套高可用得分类线。】

向量是一条有方向，有长度，有大小的坐标线，这些特征就是这些坐标点，通过这些坐标点找到最后的分类线。

支持向量机的含义就是通过这些特征的支持找到一条分类线。