全部笔记的汇总贴:统计学习方法读书笔记汇总贴
PDF免费下载:《统计学习方法(第二版)》
聚类的目的是通过得到的类或簇来发现数据的特点或对数据进行处理,在数据挖掘、模式识别等领域有着广泛的应用。
一、聚类的基本概念
聚类的核心概念是相似度或距离。
- 闵可夫斯基距离 d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p 这 里 p ≥ 1 d_{ij}=\Big(\sum_{k=1}^m|x_{ki-x_{kj}}|^p\Big)^{\frac1p}\\\;\\这里p\ge1 dij=(k=1∑m∣xki−xkj∣p)p1这里p≥1
当 p = 2 p=2 p=2时称为欧氏距离
当 p = 1 p=1 p=1时称为曼哈顿距离
当 p = ∞ p=\infty p=∞时称为切比雪夫距离(取坐标数值差的绝对值的最大值)
-
马哈拉诺比斯距离 d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac12} dij=[(xi−xj)TS−1(xi−xj)]21
其中 样 本 集 合 为 : X = [ x i j ] m ∗ n , S 为 协 方 差 矩 阵 x i = ( x 1 i , x 2 i , ⋯ , x m i ) T , x j = ( x 1 j , x 2 j , ⋯ , x m j ) T 样本集合为:X=[x_{ij}]_{m*n},S为协方差矩阵\\x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T,x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T 样本集合为:X=[xij]m∗n,S为协方差矩阵xi=(x1i,x2i,⋯,xmi)T,xj=(x1j,x2j,⋯,xmj)T
当样本数据哥哥分量互相独立且各个分量的方差为1时,马氏距离就是欧式距离,所以马氏距离时欧氏距离的推广。 -
样本系数 r i j = ∑ k = 1 m ( x k i − x ˉ i ) ( x k j − x ˉ j ) [ ∑ k = 1 m ( x k i − x ˉ i ) 2 ∑ k = 1 m ( x k j − x ˉ j ) 2 ] 1 2 r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\bar x_i)(x_{kj}-\bar x_j)}{\Big[\sum_{k=1}^m(x_{ki}-\bar x_i)^2\sum_{k=1}^m(x_{kj}-\bar x_j)^2\Big]^{\frac12}} rij=[∑k=1m(xki−xˉi)2∑k=1m(xkj−xˉj)2]21∑k=1m(xki−xˉi)(xkj−xˉj)
-
夹角余弦 s i j = ∑ k = 1 m x k i x k j [ ∑ k = 1 m x k i 2 ∑ k = 1 m x k j 2 ] 1 2 s_{ij}=\frac{\sum_{k=1}^mx_{ki}x_{kj}}{\Big[\sum_{k=1}^mx_{ki}^2\sum_{k=1}^mx_{kj}^2\Big]^{\frac12}} sij=[∑k=1mxki2∑k=1mxkj2]21∑k=1mxkixkj
-
簇或类
-
类与类之间的距离
- 最短距离或单连接
- 最长距离或完全连接
- 中心距离
- 平均距离
二、层次聚类
- 聚合(agglomerative) 或自下而上(bottom-up)聚类
聚合聚类开始将每个样本各自分到一个类;之后将相距最近的两类合井,建立一 个新的类,重复此操作直到满足停止条件;得到层次化的类别。 - 分裂(divisive) 或自上而下(top-down)聚类
分裂聚类开始将所有样本分到一个类:之后将已有类中相距最远的样本分到两个新的类,重复此操作直到 满足停止条件;得到层次化的类别。
聚合聚类三要素:
- 距离或相似度
- 合并规则
- 停止条件
三、k均值聚类
- 模型
- 策略
- 算法
首先选择k个类的中心,将样本逐个指派到与其最近的中心的类中,得到一个聚类结果;然后更新每个类的样本的均值,作为类的新的中心;重复以上步骤,直到收敛为止。
特点:
- 基于划分的聚类方法
- 类别数k事先指定
- 以欧氏距离平方表示样本之间的距离,以中心或样本的均值表示类别
- 以样本和其所属类的中心之间的距离的总和为最优化的目标函数
- 得到的类别是平坦的、非层次化的
- 算法是迭代算法,不能保证得到全局最优。
下一章传送门:统计学习方法读书笔记(十五)-奇异值分解