一、性能度量
- 非监督学习,无类别标记。试图将样本划分为若干个不相交子集,称为“簇”
- 性能度量:“簇内相似度高”,“簇间相似度低”
-
外部指标:将聚类结果
C与某个“参考模型”
C∗进行比较;预测类别
λ,参考类别
λ∗
a=∣SS∣,SS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}
b=∣SD∣,SD={(xi,xj)∣λi̸=λj,λi∗=λj∗,i<j}
c=∣DS∣,DS={(xi,xj)∣λi=λj,λi∗̸=λj∗,i<j}
d=∣DD∣,DD={(xi,xj)∣λi̸=λj,λi∗̸=λj∗,i<j}
- 三种系数均
∈[0,1],值越大越好
- Jaccard系数
JC=a+b+ca
- FM指数
FMI=a+ba∗a+ca
- Rand指数
RI=a+b+c+da+d
-
内部指标:直接考察聚类结果而不利用任何参考模型:
dist()距离,
μ中心点,共
c个点
簇C内样本间平均距离
avg(C)=∣C∣(∣C∣−1)21≤i<j≤∣C∣∑dist(xi,xj)
簇C内样本间最远距离
diam(C)=1≤i<j≤∣C∣maxdist(xi,xj)
簇Ci,Cj最近样本间距离
dmin(Ci,Cj)=xi∈Ci,xj∈Cjmindist(xi,xj)
簇Ci,Cj中心点间距离
dcen(Ci,Cj)=dist(ui,uj)
- DB指数
DBI=k1i=1∑kj̸=imax(dcen(ui,uj)avg(Ci)+avg(Cj))
- Dunn指数
DI=1≤i≤kmin{j̸=imin(max1≤l≤kdiam(Cl)dmin(Ci,Cj))}
二、原型聚类:
用原型向量刻画聚类结构的不同
- 距离:闵可夫斯基距离(p范数)
-
p==2时,欧氏距离
-
p==1时,曼哈顿距离
1. k-means:通过最小化均方差,将数据集分成k个“簇”
- 随机初始化
k个聚类中心
迭代:
- 将样本分到距离最近的聚类中心
- 更新聚类中心:取所有点的均值;点数为0的中心删掉
2.学习向量量化(LVQ):假设数据样本带有类别标记
- 随机初始化一组原型向量
pi
迭代:
- 计算样本到各
pi的距离
- 找出到每个样本最近的
pi,更新
pi向该样本靠拢
- 将样本分到距离最近的
pi
3.高斯混合聚类:用概率模型表达聚类原型,簇划分由原型对应的后验概率确定
1)x的高斯分布概率密度函数
p(x)=(2π)2n(∣∑∣)211e−21(x−μ)T(∑)−1(x−μ)
记为
p(x∣μ,Σ)(
Σ协方差)
2)高斯混合分布:
p(x)=k=1∑Kαi∗p(x∣μi,∑i)
3)高斯混合分布生成样本过程:先根据αi定义的先验分布选择高斯混合成分,αi为选择第i个混合成分的概率,然后根据被选择的混合成分的概率密度函数进行采样,生成样本
4)高斯混合成分zj的先验概率p(zj=i)=αi,根据贝叶斯定理,zj的后验分布
γji=PM(zj=i∣xj)
=PM(xj)P(zj=i)∗PM(xj∣zj=i)
=∑l=1kαl∗p(xj∣μl,∑l)αi∗p(xj∣μi,∑i)
Xj的簇标记
λj=argmaxγji
5)高斯混合分布中
(αi,μi,Σi)的求解:
用极大似然估计,EM算法迭代优化求解,分别对
μi,Σi求导
=0,此时就只剩
αi了,除了要最大化似然函数,还要满足
αi≥0,∑l=1kαl=1,用拉格朗日,最终,
αi=m1∑j=1mγji
高斯混合模型的EM算法:
- E步:在每步迭代中,先根据当前参数来计算每个样本属于每个高斯成分的后验概率
γji
- M步:根据前面公式更新$(α_i,μ_i,Σ_i)
6)算法:
- 初始化
(αi,μi,Σi)
- 计算每一个样本
xj的后验概率
γji
- 更新
(αi,μi,Σi)
- 将样本划入相应簇
三、层次聚类
- 试图在不同层次对数据集进行划分,从而形成树形聚类结构:先将数据集中的每个样本看做一个聚类簇,然后找出距离最近的两个合并,直到达到k个
- 算法:
1)将每一个样本初始化为一个聚类簇
2)初始化距离矩阵
3)找出距离最近的两个聚类簇,合并
4)更新矩阵
四、DBSCAN密度聚类:剔除异常数据
- 假设聚类结构能通过样本样本分布的紧密程度确定,从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇
- 一组概念:参数
ϵ,MinPts(个数)
1)
ϵ−邻域:
Nϵ(xj)=xi∈D∣distance(xi,xj)≤ϵ
2)核心对象:
∣Nϵ(xj)∣≥MinPts,则
xj是核心对象。
3)密度直达:若
xi在
xj的
ϵ−邻域中,且
xj是核心对象,则
xi由
xj密度直达.不满足对称性
4)密度可达:对于
xi和
xj,如果存在样本样本序列
p1,p2,...,pT满足
p1=xi,pT=xj 且
pt+1由
pt密度直达,则称
xj由
xi密度可达。即,密度可达满足传递性。不满足对称性
5)密度相连:
xi和
xj,若存在核心对象
xk,使
xi和
xj均由
xk密度可达,则称
xi和
xj密度相连。满足对称性。
簇:由密度可达关系导出的最大密度相连样本集合
不属于任何簇的样本被认为是噪声或异常样本
- 算法:
- 计算核心对象集合:对每一个样本,若它周围的点使其满足
∣Nϵ(xj)∣≥MinPts,则将其加入核心对象集合
- 以所有核心对象为出发点,找出其密度可达的样本生成聚类簇:
- 记录当前未访问样本集合
A=D
- 随机选取一个核心对象
o。初始化队列
Q=<o>
- 只要
Q非空:
判断
Q中每一个样本是不是核心对象,若是,则将样本
ϵ−邻域内的所有点取出,加入到队列
Q中,并从样本集合
D中删除
- 聚类簇
ck=A−D