《机器学习》西瓜书第九章聚类

无监督学习:允许我们在对结果无法预知时接近问题,在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。

9.1 聚类任务

常见的无监督学习任务:聚类、密度估计、异常检测等。

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。

聚类算法:聚类算法吧族群或数据点分割为一系列的组,使得相同簇的数据点比其他簇的点更接近。分隔具有相似性状的组,分配到簇中。

聚类既能作为一个单独过程,用于寻找数据的内在分布结构,也可作为分类等其他学习任务的前驱过程。

9.2 性能度量

聚类性能度量亦称“有效性指标”,与监督学习中的性能度量作用相似。

什么样的聚类结果比较好呢:“物以类聚”,我们希望聚类结果的“簇内相似度”高且“簇间相似度”低。

聚类性能度量大致有两类:一类是将

猜你喜欢

转载自www.cnblogs.com/ttzz/p/11646660.html