DBSCAN

这是一种密度聚类算法。这种算法在检测,以及找异常点方面很方便。

首先这种算法在理解原理之前,需要理解几个名词概念。核心对象:如果在样本x的领域内有M个样本。密度直达:若xj位于xi的ε-邻域中,且xi是核心对象,则称xj由xi密度直达。密度可达:对于xi与xj若存在样本序列p1,p2,...,pn,其中 p1=xi,pn=xj,且pi+1由pi密度直达,则称xj由xi密度可达。密度相连:对xi与xj,若存在xk使得xi与xj均由xk密度可达,则称 xi与xj密度相连。

算法实现过程:通俗一点说就是以每个核心对象为中心,像海绵吸水一样往外不断扩充,形成簇。首先,扫描整个数据集,随机找一个核心对象,寻找以该核心点出发的所有密度相连的数据点,作为其扩充点,直到找不到密度相连点为止。不断重复以上过程,直到数据集没有核心对象为止,此时,没有出现在任何簇的点就是异常点了。

猜你喜欢

转载自blog.csdn.net/qq_39154390/article/details/80894308