基于K-means车物未决案件聚类结果展示

前言

未决案件属于没有结案，一直滞留的案件，也没有历史标记，所以属于无监督类数据，适用于K-means算法，将数据分门别类，以让同类别的样本之间差异尽可能小，不同类别间的差异尽可能的大，然后将每个类别特征可视化，从特征出发，提供清理新思路。

数据量：5018

average silhouette_score：0.52

聚类类别数：5

由于数据中的连续变量很少，分类变量较多，经过相关性验证结合经验，选取了4个连续型变量用于建模，尝试不同的分类变量组合测试，遍历2到5个类别下的聚类效果，并提取每个类别的特征进行验证，得到一个较为理想的聚类，这个过程结合代码可以完整说一篇了，就不详细描述了。

说明：散点图的大小表示数据量

类别0数据量较大，周期及金额较低；类别4周期及金额都较高，且4个类别主要表现在险种为商业险，责任为全责，这和原始数据这两个特征数据量占比较大有一定关系。

扫描二维码关注公众号，回复： 17247868 查看本文章

车型方面：类别1主要是以企业客车，类别2为营业货车，其余类别集中在家庭自用车

环节方面：主要集中在单证、定核损、结案、其他四个环节

以上对5个类别都进行了可视化对比，可以比较清晰的看出每个类别的特征差异

例如针对类别2：车型为营业货车、滞留周期195天、估损金额17721元、以小额及公司车占比为主、案件集中在本地及省内环节、险种为商业险、滞留环节为定核损、责任以全责为主，结合先验经验判断是否是配件价格、物损价格争议等原因导致。

1.聚类算法偏向于众，异常检测算法偏向于少，所以两者结果会有差异，但可以结合两者结果对数据进行细分，找出原因，对症下药。

2.针对K-means算法，类别数也不是越多越好，类别太多，大量信息会被碎片化，特征会被分散，聚类效果就会不明显，尽量用较少的类别，达到较好的区分。

3.针对分类变量选取，不是越多越好，特征较多会导致聚类效果不好，根据研究情况选取适合的变量很重要

4.可以结合自身经验将一些变量数据通过数据库人员导入，可以更好的对数据进行分析、建模。