西瓜书读书笔记(九)-聚类

全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴

相关链接:统计学习方法读书笔记(十四)-聚类方法

一、聚类任务

聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。

二、性能度量

对聚类结果,我们需通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得副符合要求的聚类结果。

  • 外部指标:将 聚类结果与某个 “ 参考模型 ”(reference model)进行比较。
  • 内部指标:直接考察聚类结果而不利用任何参考模型。

三、距离计算

距离度量函数 d i s t ( ⋅ , ⋅ ) dist(\cdot,\cdot) dist(,)的基本性质:

  • 非负性
  • 同一性
  • 对称性
  • 直递性

聚类的核心概念是相似度或距离。

  • 闵可夫斯基距离 d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p    这 里 p ≥ 1 d_{ij}=\Big(\sum_{k=1}^m|x_{ki-x_{kj}}|^p\Big)^{\frac1p}\\\;\\这里p\ge1 dij=(k=1mxkixkjp)p1p1

p = 2 p=2 p=2时称为欧氏距离
p = 1 p=1 p=1时称为曼哈顿距离
p = ∞ p=\infty p=时称为切比雪夫距离(取坐标数值差的绝对值的最大值)

  • 马哈拉诺比斯距离 d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac12} dij=[(xixj)TS1(xixj)]21
    其中 样 本 集 合 为 : X = [ x i j ] m ∗ n , S 为 协 方 差 矩 阵 x i = ( x 1 i , x 2 i , ⋯   , x m i ) T , x j = ( x 1 j , x 2 j , ⋯   , x m j ) T 样本集合为:X=[x_{ij}]_{m*n},S为协方差矩阵\\x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T,x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T X=[xij]mn,Sxi=(x1i,x2i,,xmi)T,xj=(x1j,x2j,,xmj)T
    当样本数据哥哥分量互相独立且各个分量的方差为1时,马氏距离就是欧式距离,所以马氏距离时欧氏距离的推广。

  • 样本系数 r i j = ∑ k = 1 m ( x k i − x ˉ i ) ( x k j − x ˉ j ) [ ∑ k = 1 m ( x k i − x ˉ i ) 2 ∑ k = 1 m ( x k j − x ˉ j ) 2 ] 1 2 r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\bar x_i)(x_{kj}-\bar x_j)}{\Big[\sum_{k=1}^m(x_{ki}-\bar x_i)^2\sum_{k=1}^m(x_{kj}-\bar x_j)^2\Big]^{\frac12}} rij=[k=1m(xkixˉi)2k=1m(xkjxˉj)2]21k=1m(xkixˉi)(xkjxˉj)

  • 夹角余弦 s i j = ∑ k = 1 m x k i x k j [ ∑ k = 1 m x k i 2 ∑ k = 1 m x k j 2 ] 1 2 s_{ij}=\frac{\sum_{k=1}^mx_{ki}x_{kj}}{\Big[\sum_{k=1}^mx_{ki}^2\sum_{k=1}^mx_{kj}^2\Big]^{\frac12}} sij=[k=1mxki2k=1mxkj2]21k=1mxkixkj

  • 簇或类

  • 类与类之间的距离

  1. 最短距离或单连接
  2. 最长距离或完全连接
  3. 中心距离
  4. 平均距离

四、原型聚类

  • k均值算法
  • 学习向量量化
  • 高斯混合聚类(采用概率模型来表达聚类原型)

五、密度聚类

  • DBSCAN

六、层次聚类

层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构.数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。

  • AGNES(自底向上聚合策略)

下一章传送门:西瓜书读书笔记(十)-降维与度量学习

猜你喜欢

转载自blog.csdn.net/qq_41485273/article/details/113004319
今日推荐