聚类之meanshift算法

在K-Means 算法中,最终的聚类效果受初始的聚类中心的影响,K-Means++算法的提出,为选择较好的初始聚类中心提供了依据(选择的的初始聚类中心尽可能的远)
但是算法中,聚类的类别个数K仍需事先确定,对于类别个数事先未知的数据集,K-Means和K-Means++将很难对其精确求解。
Mean Shift 算法,又被称作均值漂移算法,与K-Means算法一样,都是基于聚类中心的聚类算法。
优点:不需要提前指定聚类类别个数
缺点:计算量大

在Meanshift算法中,聚类中心是通过在给定区域中的样本的均值来确定的,通过不断的迭代更新聚类中心,直到最终的聚类中心不再改变为止。

Mean Shift向量

对于给定的n位空间 R n R^n 中的m个样本点 X ( i ) , i = 1 , 2 m X^{(i)},i=1,2……m ,对于其中的一个样本X,其Mean Shift向量为:
M h ( X ) = 1 k X ( i ) S h ( X ( i ) X ) M_h(X)=\frac{1}{k}\displaystyle\sum_{X^{(i)}∈S_h}(X^{(i)}-X)
其中, S h S_h 指的是一个半径为 h h 的高维球区域
在这里插入图片描述
首先明确一点:每一个样本点都会对应一个Mean Shift 向量。
在计算漂移均值向量的过程中,通过计算圆 S h S_h 中的每一个样本点 X ( i ) X^{(i)} 相对于点X的偏移向量 ( X ( i ) X ) (X^{(i)}-X) ,再对所有的漂移均值向量求和然后再求平均。
根据漂移均值向量的计算公式可以得出一个显然的结论:
样本点会向样本密集的地方“漂移”(向量加法)

如上的均值漂移向量的求解方法存在一个问题:即在 S h S_h 的区域内,每一个样本点 X ( i ) X^{(i)} 对样本X的贡献是一样的。

而在实际中,每一个样本点 X ( i ) X^{(i)} 对于样本X的贡献是不一样的,这样的贡献可以通过核函数来进行度量。

高斯核函数

在Mean Shift 算法中引入核函数的目的是使得随着样本与被漂移点的距离不同,其漂移量对均值漂移向量的贡献也不同。

高斯核函数是使用较多的一种核函数,其函数形式为:
K ( x 1 x 2 h ) = 1 s q r t ( 2 π ) h e x p ( ( x 1 x 2 ) 2 2 h 2 ) K(\frac{x_1-x_2}{h})=\frac{1}{sqrt(2π)h}exp(-\frac{(x_1-x_2)^2}{2h^2})
其中,h称作带宽,不同的带宽的核函数如下如所示:
在这里插入图片描述
从图中可以看出,
1)当带宽一定时,样本点之间的距离越近,其核函数的值越大;
2)当样本点之间的距离相等,随着高斯核函数的带宽h的增大,核函数的值在减小。

Mean Shift 算法原理

引入核函数的Mean shift 向量
假设在半径为h的范围 S h S_h 范围内,为了使得每一个样本点 X ( i ) X^{(i)} 对于样本X的贡献不一样,向基本的Mean Shift向量形式中增加核函数,得到如下的改进的Mean Shift 向量形式。

M h ( X ) = X ( i ) S h [ K ( X ( i ) X h ) ( X ( i ) X ) ] X ( i ) S h [ K ( X ( i ) X h ) ] M_h(X)=\frac{\displaystyle\sum_{X^{(i)}∈S_h}[K(\frac{X^{(i)}-X}{h})*(X^{(i)}-X)]}{\displaystyle\sum_{X^{(i)}∈S_h}[K(\frac{X^{(i)}-X}{h})]}

其中, K ( X ( i ) X h ) K(\frac{X^{(i)}-X}{h}) 是高斯核函数。

Mean Shift算法的基本原理
在 Mean Shift 算法中,通过迭代的方式找到最终的聚类中心,即对每一个样本点计算其漂移均值,以计算出来的漂移均值作为新的起始点,重复以上的步骤,直到满足终止的条件,得到的最终的均值漂移点即为最终的聚类中心。

  1. 逐点迭代,设置为位置中心

  2. 计算所有点到位置中心的距离

  3. 计算位置的漂移中心(所有点坐标的加权平均,权值是由距离和高斯核确定的)

  4. 位置中心的质心的距离够小就停止,该位置中心点就属于(质心)类。(使用质心来标记所属类别)

  5. 位置中心的质心的距离不够小,位置中心移动到质心,继续

  6. 每个点都被标记了(标记为某个质心),统计一下,有几种标记。聚类完成。

猜你喜欢

转载自blog.csdn.net/qq_16608563/article/details/85696563