不平衡样本的处理方法---金融欺诈案例

对于二分类问题,理想的样本应该是50:50
但现实中某些场景就是非平衡数据,如癌症检测(癌症患者在人类总数中总是占非常小的比例),金融欺诈(一般来说大家都是守法尊则的良好公民,欺诈一般占小比例)
对于不平衡问题,一般将占比小的分类设为1,如欺诈和患癌症

(一)不平衡样本的处理方式:
(1)样本采样方面:
欠采样(减法)
过采样(加法)
SMOTE(类似与过采样,区别在于采用算法生成新的样本(一般是占比小的一类样本点),过采样是直接复制占比小的样本,使得最终样本50:50)

(2)评估方面:
单纯的混淆矩阵、准确度等指标不再适合,占比大的预测准确度肯定高,就好像黑箱中有20个球,其中黑球18个,白球2个,让你猜小明摸出来的球是黑色还是白色?只要一直猜黑球,准确率肯定高,但是有意义么?能反应什么问题么?

这时候召回率,F1score,ROC and AUC 更能反应模型性能

(二)可用工具包:
(1)采样方面:
imblearn 官方文档

不定期添加更新。。。

发布了41 篇原创文章 · 获赞 14 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_43685844/article/details/88543107