机器学习算法概述

机器学习分类

1.自带数据集：

2.sklearn的主要功能：

功能	算法
聚类	K均值聚类K-means、DBSCAN、高斯混合模型GMM、BRICH、谱聚类、AP聚类、均值漂移、层次聚类
降维	主成分分析PCA、独立成分分析FastICA、非负矩阵分解NMF、LDA、字典学习、因子分析
分类	k邻近kNN、支持向量机SVM、朴素贝叶斯naivebayes、决策树、集成方法、MLP
回归	普通线性回归、岭回归、Lasso回归、弹性网络、最小角回归、贝叶斯回归、逻辑回归、多项式回归
模型选择	略
数据预处理	略

无监督学习一般分为聚类和降维

（1）聚类（clustering）：对无标签的一组数据进行聚类，通过其“相似度”，也就是“距离”进行分类，通常分类的类别数是可以调整的。

距离包括

算法

K-means：随机找k个点作为初始聚类中心；对于剩下的点，以此计算其余点与聚类中心的距离（上面提到的，通常为高维空间），根据其与聚类中心的距离，归入最近的簇；对每个簇，计算所有点的均值作为新的聚类中心；重复以上步骤，直到聚类中心不发生改变。

DBSCAN：基于密度的算法，不需要人为指定簇的个数，故最终簇的个数不确定。将数据点分为3类：
——核心点：在给定半径内含有超过确定个数的点，即临近点比较多
——边界点：在核心点的邻域内，但不满足核心点的要求
——噪音点：不满足以上条件
流程为将所有点标记为核心点、边界点或者噪音点；删除噪音点；在给定距离内的核心点赋予边；每组连通的核心点形成一个簇；将边界点分配到与其关联的核心点的簇中。

例子：比如目前有全国30个城市的几个方面的数据，例如在衣、食、住、行4个方面的消费，要把30个城市分成几个不同的类别，就要用到聚类算法。

（2）降维（decomposition）：尽可能保证原本数据特征不变的情况下，将高维数据转化为低维数据，一般用作数据的可视化，或者减轻后续计算的数据量。

算法

PCA：将线性相关的高维变量合成线性无关的低维向量，称为主成分，主成分尽可能保留原始数据的信息。简单来说，矩阵的主成分就是其协方差矩阵对应的特征向量，按照大小，找出前m个（就是我们要降到的低维个数）特征值。

例子：鸢尾花是一个常见的数据集，但是其是4个指标，即4维，无法直接看出其空间分布，于是需要降维将其转化为2维平面上的点，易于观察。

监督学习即利用有标签的数据，学习其规律，目的是对未知数据进行很好的预测，一般分为分类和回归。监督学习都会有训练集和测试集之分。

（1）分类：输出离散即为分类。根据对训练集的学习，面对测试集可以准确将其分到所属类别，有二分类，也有多分类。

算法

kNN：通过计算一个数据点与所有数据点之间的距离，根据给定的邻居个数N，取出其邻居各自的类别，它的邻居哪一类最多，就判断此样本点属于哪一类。
k的取值很关键，较大时虽然会根据更多的样本点来判断，但是也会因为引入距离较远的样本，从而导致预测错误；较小时，容易出现过拟合现象，容易被噪音点影响。
决策树：西瓜书的第一个模型。通常问题会被诸多因素影响，而我们的目的是产生一个最合适的判断模型，只要顺着树枝就可以得到正确的结果。

朴素贝叶斯：首先概率论中学过贝叶斯定理，朴素贝叶斯就是为了求出后验概率最大的y，作为其分类结果。假设某一类的样本点服从一个Gaussian Distribution（已知均值和协方差可以得到概率分布的函数），然后求出这2个参数，之后对于测试集的数据，只需要计算其后验概率即可。例如，二分类问题中，大于0.5和小于0.5视为不同的2类。