聚类分析学习（二）DBSCAN算法学习

一.DBSCAN算法简介

（1）DBSCAN算法是一个比较有代表性的基于密度的聚类算法。

（2）与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

二.算法中的定义

1.Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域。

2.核心对象：如果给定对象Ε邻域内的样本点数大于等于MinPts，则称该对象为核心对象。

3.直接密度可达：对于样本集合D，如果样本点q在p的Ε邻域内，并且p为核心对象，那么对象q从对象p直接密度可达。

4.密度可达：对于样本集合D，给定一串样本点p1,p2….pn，p= p1,q= pn,假如对象pi从pi-1直接密度可达，那么对象q从对象p密度可达。

5. 密度相连：存在样本集合D中的一点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相连。

6.密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。密度相连是对称关系。

DBSCAN目的是找到密度相连对象的最大集合。

（关于floyd和传递闭包的概念理解参见博客：https://blog.csdn.net/qq_41658955/article/details/81558339）

（1）传递闭包：设R是X上的二元关系，如果另一个关系R1满足：R1是传递的，R是R1的子集，对于任何可传递关系R11如果有R是R11的子集，就有R1是R11的子集。则称R1是R的传递闭包。即对于一个关系的一个最小的传递关系。

（2）现在我们来根据（1）中传递闭包的概念推理证明一下：密度可达是不是直接密度可达的传递闭包。（结论A）

假设R1=对象q到p密度可达；R=对于一系列样本点p1,p2,...,pn，pi到pi-1直接密度可达，p=p1,q=pn。那么我们假设要证明的结论A成立。根据（1）必然满足：

(a)q到p密度可达关系是传递的。（满足）

（b）直接密度可达是密度可达的子集。（满足）

（c）对于任何可传递关系A，有pi到pi-1 直接密度可达是A的子集，则有q到p密度可达是A的子集。

【PS:个人理解，关系的对称和不对称我现在看不懂，先这样吧~~】

三.算法步骤

DBScan需要二个参数：扫描半径 (eps)和最小包含点数(minPts)。任选一个未被访问(unvisited)的点开始，找出与其距离在eps之内(包括eps)的所有附近点。

1.如果附近点的数量 ≥ minPts，则当前点与其附近点形成一个簇，并且出发点被标记为已访问(visited)。然后递归，以相同的方法处理该簇内所有未被标记为已访问(visited)的点，从而对簇进行扩展。

2.如果附近点的数量 < minPts，则该点暂时被标记作为噪声点。

3.如果簇充分地被扩展，即簇内的所有点被标记为已访问，然后用同样的算法去处理未被访问的点。

四.具体算法描述

（1）检测数据库中尚未检查过的对象p，如果p未被处理(归为某个簇或者标记为噪声)，则检查其邻域，若包含的对象数不小于minPts，建立新簇C，将其中的所有点加入候选集N；

（2）对候选集N 中所有尚未被处理的对象q，检查其邻域，若至少包含minPts个对象，则将这些对象加入N；如果q 未归入任何一个簇，则将q 加入C；

（3）重复步骤2)，继续检查N 中未处理的对象，当前候选集N为空；

（4）重复步骤1)~3)，直到所有对象都归入了某个簇或标记为噪声。