机器学习之应用无监督学习

什么情况下考虑无监督学习：

无监督学习适用的场景是，您想要探查数据，但还没有特定目标或不确定数据包含什么信息。这也是减少数据维度的好方法。

绝大多数无监督学习技术是聚类分析的形式。在聚类分析中，根据某些相似性的亮度或共有特征把数据划分成组。采用聚类的组织形式，同一类（或簇）中的对象非常相似，不同类中的对象截然不同。

聚类算法分为两大类：

（1）硬聚类，其中每个数据点只属于一类

（2）软聚类，其中每个数据点可属多类

常见硬聚类算法有以下几种：

（1）K-均值；

工作原理：将数据分割为K个相互排斥的类。一个点在多大程度上适合划入一个类由该点到类中心的距离来决定。

最佳使用时机：

当聚类的数量已知时；适用于大型数据集的快速聚类

（2）K-中心点；

工作原理：与K-均值类似，但要求类中心与数据中的点契合。

最佳使用时机：

当聚类的数量已知时；适用于分类数据的快速聚类；扩展至大型数据集

（3）层次聚类

工作原理：通过分析成对点之间的相似度并将对象分组到一个二进制的层次结构树，产生聚类的嵌套集。

最佳使用时机：

当你事先不知道你的数据中有多少类时；你想要可视化地指导你的选择

（4）自组织映射

工作原理：基于神经网络的聚类，将数据集变换为保留拓扑结构的2D图。

最佳使用时机：

采用2D或3D方式可视化高维数据；通过保留数据的拓扑结构（形状）降低数据维度

常见的软聚类算法：

（1）模糊C-均值

工作原理：当数据点可能属于多个类时进行基于分割的聚类。

最佳使用时机：

当聚类的数量已知时；适用于模式识别；当聚类重叠时

（2）高斯混合模型

工作原理：基于分割的聚类，数据点来自具有一定概率的不同多元正态分布。

最佳使用时机：

当数据点可能属于多个类时；当聚集的类具有不同的大小且含有相关结构时

机器学习是一种发现大数据集内部规律的有效方法。但较大的数据增加了复杂度。随着数据集越来越大，经常需要减少特征或维度的数量。

常见降维技术：

（1）主成分分析（PCA）——对数据执行现行变换，让你的高维数据集中的绝大多数方差或信息被前几个主成分捕获。第一个主成分将会捕获大部分方差，然后是第二个主成分，以此类推。

（2）因子分析——识别你的数据集中各变量之间潜在的相关性，提供数量较少的未被发现的潜在因子或公共因子的一种变现方式。

（3）非负矩阵分解——当模型必须代表非负数（比如物理量）时使用。