机器学习_一条会说666的咸鱼

聚类对数据的要求
1.数据不能均匀分布
2.霍普金斯统计量，空间统计量，检验空间随机性，在给定的数据集D，它可以看作随机变量o的一个样本，我们想要确定o在多大的程度上，不同于数据空间中的均匀分布。

霍普金斯统计量的操作步骤
1.均匀的从D的空间中抽取n个点p1…pn，也就是说D中的每个样本点都以相同的概率包含在这个样本中，对于每个样本pi(1<=i<=n），我们找出pi在D中的最邻近，并令xi为Pi与它在D中的最邻近之间的距离。

2.均匀的从D的空间中抽取n个点q1…qn，也就是说D中的每个样本点都以相同的概率包含在这个样本中，对于每个样本qi(1<=i<=n），我们找出qi在D-{qi }中的最邻近，并令yi为qi与它在D-{ qi}中的最邻近之间的距离。

3.计算霍普金斯统计量
在这里插入图片描述
霍普金斯统计量解读
霍普金斯统计量告诉我们数据集D多大可能遵循数据空间的均匀分布
如果D是均匀分布，则霍普金斯统计量的分母中的两部分会很接近，从而导致得到的H值接近于0.5，然而，如果D是高度倾斜的，则上式中的第一项的值会显著小于第二项，因而H将接近于0。

聚类的簇数制定
1.经验判断的方法，列如样本点的数目是n,则取k=sqrt(n/2)
2.肘方法
3.PSF或者PST2这类统计量伪F统计量伪T2统计量
4.信息论方法与信息准则
5.交叉验证

肘方法
基于如下的观察增加簇数，有助于降低每个簇的簇内方差之和。这是因为更多簇的出现，可以捕获更细的数据对象簇，簇中对象之间更为相似，然鹅形成太多的簇，则降低簇内方差和的边缘效应可能下降，因为吧一个凝聚的簇分裂成两个只引起cuneiform方差和的稍微降低，因此一种正确的簇数的启发方式是，使用cuneiform方差和关于簇数的曲线的拐点。严格的说，给定k>0,我么们可以使用一种像K-均值这样的算法对数据集聚类，并计算簇内方差和Var(k)。然后，我们绘制Var关于k的曲线，曲线的第一个拐点，暗示着正确的簇数。

总体离差平方和
簇内离差平方和

在这里插入图片描述
内在方法，簇的分离情况和簇的紧凑情况