基于 Isolation Forest 未决案件异常检测结果展示

目录

前言

一、检测结果展示

二、异常数据特征可视化

1.周期与金额比较

         2.结合责任对比

         3.结合车型分析

         4.结合滞留环节分析

总结


前言

未决案件从某种程度上也可以算是无监督数据(因为没有历史标记),通过非监督式方法实现的异常检测可以缩小排查范围,提供更加精准和高效的执行目标。

Isolation Forest (孤立森林):一种与随机森林类似,高效的集成算法。基本原理是异常样本相对于正常样本可以用较少的特征划分出来,本例就是想通过该算法将纯车物未决案件异常样本标记出来,研究其特征,提供一些新的思路。

扫描二维码关注公众号,回复: 17247897 查看本文章

本例主要是对类别为异常的数据进行特征分析展示,算法实现过程就省略了。


一、检测结果展示

数据量:5018,  标记为异常的数据:765, 异常数据占比:15.2%,部分整合后数据展示如下:

‘-1’表示模型识别为异常数据

二、异常数据特征可视化

1.周期与金额比较

 异常数据相比正常数据,平均滞留周期及平均估损金额都较高

2.结合责任对比

 重点关注高于均值的部分

3.结合车型分析

 从上表得出案件数最多的不一定是异常率最高的,下面结合Axes3D图及矩阵图展示分析

 矩阵图说明:横轴是案件量、纵轴是平均滞留周期,圆圈大小是平均估损金额。

结合Axes3D图及矩阵图可以看出:党政机关客车及非营业货车异常率较高,异常率超过40%,且党政机关客车的平均滞留周期很高,处在矩阵图第二象限,且该车型都是公司车辆,是否存在手续方面的问题导致周期很高,这个可以结合原始数据具体案件具体分析。营业货车是唯一处在第一象限的,即数量及周期都高于平均数,金额也不小,且该车型基本都是挂靠,是否也是手续、配件等方面的问题,可以结合数据个案分析。

4.结合滞留环节分析

说明:柱图表示滞留周期,折线表示案件量

矩阵图坐标轴与车型矩阵图一致

滞留环节方面:诉讼、退票、重开/补赔申请3个环节的异常率都超过70%,同时未调度环节滞留周期超高、估损金额也不低,单证及其他这两个处在第一象限的环节,件数及滞留周期都超过平均值,上述这些环节都可以结合原始数据重点分析原因。


总结

1. 结合上述图标可以看出,滞留周期及估损金额是异常案件区别于正常案件的主要特征。

2.由于未决形成的原因是多方面的,以上仅展示了几个不同维度下的情况,还有很多维度可以挖掘,就不一一展示,由于异常案件是由算法识别,具体到个案分析,‘异常案件’并不一定就是异常,还需要结合实际经验及案情判断。结合算法识别后的数据特征,可以从特征出发,具体分析,对症下药,提升清理的效率,减少盲清。

3. 对于无监督类的数据,聚类也是一种区分的好方法,下一篇再分享了。

猜你喜欢

转载自blog.csdn.net/weixin_46685991/article/details/125449622