聚类介绍

什么是聚类？

聚类可以说是最重要的无监督学习；所以，和其它的无监督学习问题一样，它解决的是寻找无标签数据集的结构化表示。

聚类的一个不太严谨的定义是“将某种程度上类似的成员组织到一个团体的过程”。

族簇【cluster】是指彼此之间相似的对象的集合，而跟其不相似的对象则属于其它族簇。

我们可以用一个简单的图例来表示聚类过程：

在这种情况下，我们可以很容易地从这些被分隔开的数据中辨别出4个族簇。其相似准则是距离————如果根据给定的距离（图示是几何距离）两个或者更多对象是相近的，那么它们属于同一个族簇。这种是基于距离的聚类。

另一种聚类是概念聚类：如果对于一个定义的概念是两个或者更多对象所共有的，那么它们属于同一个族簇。换句话说，这些对象归为一类是根据它们符合的描述概念，而不是根据简单的相似性计算。

根据上述所言，聚类的目的是确定无标记数据集的内在分组（类别）。但是，如何判定一个好的聚类？如果撇开聚类的最终目的，没有一个绝对“最好”的标准去衡量聚类的好坏（简而言之，忽略聚类的目的去判断聚类的好坏是没有意义的）。因此，用户需要提供让聚类结果符合用户需求的准则。

我们可能对寻找同质群（同类组）的代表（数据简化）感兴趣。例如，寻找“自然集群”并且描述它们未知的属性（“自然”数据类型）、寻找有用且合适的分组（“有用”数据类）或者寻找不常见的数据对象（孤立点检测）。

聚类算法可以用于很多领域，例如：

聚类算法应该满足以下主要要求：

聚类存在大量难题，其中有：

后续章节待续。。。

本文系Subson翻译，转载请注明。