读书笔记-《机器学习》第九章:聚类

  • 在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据内在性质及规律,为进一步的数据分析提供基础
  • 聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名
  • 聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程
  • 聚类性能度量
    • 外部指标
      • Jaccard系数
      • FM指数
      • Rand指数
    • 内部指标
      • BD指数
      • Dunn指数
  • 距离计算
    • 闵可夫斯基距离:有序属性
    • VDM距离:无序属性
  • 原型聚类
    • K均值算法
    • 学习向量量化
    • 高斯混合聚类
  • 密度聚类
    • DBSCAN
  • 层次聚类
    • AGNES
  • k均值算法可看作高斯混合聚类在混合成分方差相等,且每个样本仅指派给一个混合成分时的特例

猜你喜欢

转载自blog.csdn.net/lz_peter/article/details/80830436