FCM聚类算法

知识准备

聚类算法： 聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。顾名思义，就是将一些具有相似性质的数据划分到一起，得到多个具有不同性质的数据类集合。
模糊集合： 模糊集合是用来表达模糊性概念的集合。又称模糊集、模糊子集。普通的集合是指具有某种属性的对象的全体。这种方法把待考察的对象及反映它的模糊概念作为一定的模糊集合，建立适当的隶属函数，通过模糊集合的有关运算和变换，对模糊对象进行分析。模糊集合论以模糊数学为基础，研究有关非精确的现象。客观世界中，大量存在着许多亦此亦彼的模糊现象。
隶属函数： 是用于表征模糊集合的数学工具。为了描述元素u对U上的一个模糊集合的隶属关系，由于这种关系的不分明性，它将用从区间[0，1]中所取的数值代替0，1这两值来描述，表示元素属于某模糊集合的“真实程度”。
举个例子简单说明下：
比如你在荷兰和比利时的国界线喝咖啡，这时你一大半身子在荷兰，另一半在比利时，那么你应该算是在荷兰还是在比利时呢？
对于普通集合来说，因为你大半个身子在荷兰，那么你就应该属于在荷兰，因为集合只能是或不是，但是感觉这样描述不太准确，对于模糊集合来说，就比较好描述了，可以是你0.7属于荷兰，0.3属于比利时。0.7和0.3就是用你的体积来划分的隶属度。

FCM介绍

核心思想： 算法把n个向量xi 其中(i=1,2…,n)分为c个组Gj其中(j=1,2,…,c)，并求每组的聚类中心，使得非相似性（或距离）指标的价值函数（或目标函数）达到最小。

FCM原理

FCM的目标函数：
在这里插入图片描述
其中，U表示原矩阵，p表示聚类中心，dik表示样本点xk与第i个类的样本原型pi之间的失真度，一般是用两个向量之间的距离表示，uik表示xk与第i类样本的隶属度。
dik是一种距离范数，可以表示为：

其中，A表示权重。
一般性模糊聚类分析的目标函数：
在这里插入图片描述
其中m>1。
求解过程如下所示：
约束条件为：

在这个约束条件下，满足：

用拉格朗方法求解，求解过程如下：
拉格朗日函数：

将该公式带入约束条件，即可得到：

求解聚类中心：

得到聚类中心：
在这里插入图片描述