理论--KMeans聚类/DBSCAN聚类

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。

聚类为无监督算法

基本思想简单，最典型的聚类算法。

1.K值难以估计；
2.初始质心选择有待改进；
3.在球形聚类上表现好，其他一般。

在kmeans聚类中，需要自己指定K值，能否让算法自己决定数据集划分为多少类别？不规则的簇该如何解决？
DBSCAN一定程度上解决这些问题。

DBSCAN算法常用于异常检测，注意力放在离群点上，当无监督问题中遇到检测任务时，是首选。

基本概念：

领域：给定对象半径r内的领域。DBSCAN中最核心的参数是半径，对结果会产生较大影响。
核心点：若对象的领域至少包含一定数目的数据点，则称该数据为核心对象，说明这个数据点周围比较密集。
边界点：边界点不是核心点，但落在某个核心点的邻域内，也就是数据集中的边界位置。
离群点：既不是核心点，也不是边界点的其他数据点，是落单的点。

如图中，黑色点为核心对象，从每一个核心点发展出发都能将其他一部分数据点发展成为其营销对象（也就是其半径r邻域内圈到的数据点）。
空心点表示边界点，成为核心点的销售对象后，不能再继续发展，成为边界。
N为离群点。

对于一个数据点来说，直接的销售对象就是直接密度科大，通过它的已销售下属间接发展的就是密度可达。

需要指定半径r，通常情况下，半径越大，能够发展的对象越多，整体类别偏少，离群点也会偏少，而半径较小时，由于发展能力弱，出现类别会偏多，离群点也会偏多。

主要优点：

扫描二维码关注公众号，回复： 11701407 查看本文章

主要缺点：