基于K-means车物未决案件聚类结果展示

前言

未决案件属于没有结案,一直滞留的案件,也没有历史标记,所以属于无监督类数据,适用于K-means算法,将数据分门别类,以让同类别的样本之间差异尽可能小,不同类别间的差异尽可能的大,然后将每个类别特征可视化,从特征出发,提供清理新思路。


一、算法实现过程简单说明

数据量:5018

average silhouette_score:0.52

聚类类别数:5

由于数据中的连续变量很少,分类变量较多,经过相关性验证结合经验,选取了4个连续型变量用于建模,尝试不同的分类变量组合测试,遍历2到5个类别下的聚类效果,并提取每个类别的特征进行验证,得到一个较为理想的聚类,这个过程结合代码可以完整说一篇了,就不详细描述了。

二、部分数据展示

三、类别可视化

1.总体展示

说明:散点图的大小表示数据量

类别0数据量较大,周期及金额较低;类别4周期及金额都较高,且4个类别主要表现在险种为商业险,责任为全责,这和原始数据这两个特征数据量占比较大有一定关系。

2.车型及环节展示

扫描二维码关注公众号,回复: 17247868 查看本文章

车型方面:类别1主要是以企业客车,类别2为营业货车,其余类别集中在家庭自用车

环节方面:主要集中在单证、定核损、结案、其他四个环节

3.其余特征展示

 以上对5个类别都进行了可视化对比,可以比较清晰的看出每个类别的特征差异

例如针对类别2:车型为营业货车、滞留周期195天、估损金额17721元、以小额及公司车占比为主、案件集中在本地及省内环节、险种为商业险、滞留环节为定核损、责任以全责为主,结合先验经验判断是否是配件价格、物损价格争议等原因导致。

总结

1.聚类算法偏向于众,异常检测算法偏向于少,所以两者结果会有差异,但可以结合两者结果对数据进行细分,找出原因,对症下药。

2.针对K-means算法,类别数也不是越多越好,类别太多,大量信息会被碎片化,特征会被分散,聚类效果就会不明显,尽量用较少的类别,达到较好的区分。

3.针对分类变量选取,不是越多越好,特征较多会导致聚类效果不好,根据研究情况选取适合的变量很重要

4.可以结合自身经验将一些变量数据通过数据库人员导入,可以更好的对数据进行分析、建模。

猜你喜欢

转载自blog.csdn.net/weixin_46685991/article/details/125522727
今日推荐