聚类算法的评估 - 代码天地

聚类算法的评估

其他 2019-11-24 15:00:59 阅读次数: 0

这里只讨论没有外部标签的情况，有标签自然好判别

数据簇的特点

以中心定义的数据簇：通常球形分布，集合中的数据到中心的距离相比到其他簇中心的距离更近
以密度定义的数据簇：当数据簇不规则或互相盘绕，并且有噪声和离群点时，常常使用
以连通定义的数据簇：具有连通关系
以概念定义的数据簇：同一集合内数据具有某一相同性质

聚类可行性

检测数据分布是否存在非随机的簇结构
方法
- 观察聚类误差是否随着聚类类别数目的增加而单调变化（找不到一个合适的K）
- 霍普金斯统计量，判断数据在空间上的随机性
  - 首先，在所有样本中随机找n个点，记为\(p_1, \cdots, p_n\) ，对其中的每一个点，都在样本空间中找到一个离它最近的点就按他们之间的距离\(x_i\),从而得到距离向量\(x_1, \cdots, x_n\) ;然后，从样本的可能取值范围随机生成n个点，记为\(q_1, \cdots, q_n\)，对每个点找到他们最近的样本点计算距离，得到\(y_1, \cdots, y_n\)。霍普金斯统计量\(H\)表示为
    
    \[H = \frac{\sum \limits_{i=1}^n y_i}{\sum \limits_{i=1}^{n} x_i + \sum \limits_{i=1}^{n} y_i} \]
  - 如果样本随机分布，则H接近0.5。如果有聚类趋势，则随机生成的样本点距离应该远大于实际样本点距离，H的值接近1。

判定数据簇类

手肘法和Gap Statistic法
用于评估的最佳数据簇类可能与程序输出的簇类是不同的

测定聚类质量

考察类间散度和类内散度

轮廓系数
均方根误差：衡量聚类的同质性，即紧凑程度（类间散度）
R方：衡量聚类的差异度（类间散度）
改进的Hubert\(\Gamma\)统计：通过数据对的不一致性来评估聚类的差异

猜你喜欢

转载自www.cnblogs.com/weilonghu/p/11922385.html

聚类算法评估

聚类算法的评估

算法评估：聚类

聚类算法模型评估

聚类评估算法-轮廓系数

聚类算法及其评估指标

【聚类】算法及其评估指标

机器学习——聚类算法的评估指标

聚类评估

十五、聚类的评估

聚类评估算法-轮廓系数（Silhouette Coefficient ）

3-5-4聚类算法的对比与评估

聚类算法评估——轮廓系数及python实现

机器学习之聚类算法——聚类效果评估可视化

机器学习之聚类算法——聚类效果评估可视化

几种聚类评估指标

聚类高维聚类聚类评估标准算法杂货铺——k均值聚类(K-means)

【SciKit-Learn学习笔记】8：k-均值算法做文本聚类,聚类算法性能评估

数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）

【机器学习算法】模型评估 “神经网络，聚类，向量机，关联规则”算法模型的评估。

机器学习：聚类算法与无监督学习、模型评估标准

【总结】分类、聚类的评估指标

YellowBrick-聚类评估示例

常用聚类算法

AP聚类算法

聚类算法

聚类算法总结

PCA聚类算法

聚类算法小结

深挖聚类算法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)