不平衡样本的处理方法---金融欺诈案例 - 代码天地

不平衡样本的处理方法---金融欺诈案例

其他 2020-02-21 16:50:32 阅读次数: 0

对于二分类问题，理想的样本应该是50：50
但现实中某些场景就是非平衡数据，如癌症检测（癌症患者在人类总数中总是占非常小的比例），金融欺诈（一般来说大家都是守法尊则的良好公民，欺诈一般占小比例）
对于不平衡问题，一般将占比小的分类设为1，如欺诈和患癌症

（一）不平衡样本的处理方式：
（1）样本采样方面：
欠采样（减法）
过采样（加法）
SMOTE（类似与过采样，区别在于采用算法生成新的样本（一般是占比小的一类样本点），过采样是直接复制占比小的样本，使得最终样本50：50）

（2）评估方面：
单纯的混淆矩阵、准确度等指标不再适合，占比大的预测准确度肯定高，就好像黑箱中有20个球，其中黑球18个，白球2个，让你猜小明摸出来的球是黑色还是白色？只要一直猜黑球，准确率肯定高，但是有意义么？能反应什么问题么？

这时候召回率，F1score，ROC and AUC 更能反应模型性能

（二）可用工具包：
（1）采样方面：
imblearn 官方文档

不定期添加更新。。。

Jennie_J

发布了41 篇原创文章 · 获赞 14 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43685844/article/details/88543107

不平衡样本的处理方法---金融欺诈案例

不平衡样本的处理

正负样本不平衡处理方法总结

正负样本不平衡处理方法总结【转】

机器学习中样本不平衡的处理方法

[深度学习] 不平衡样本的处理

样本不平衡处理

样本不平衡的处理

不平衡数据集处理方法

处理不平衡数据的基本方法

处理数据不平衡方法

机器学习：正负样本数据量不平衡处理方法

在分类中处理样本不平衡问题

模型构建<2>:不平衡样本集的处理

机器学习中样本不平衡处理办法

机器学习样本不平衡处理

处理样本不平衡的LOSS—Focal Loss

处理样本不平衡LOSS—Focal Loss

如何处理样本不平衡问题

样本不平衡问题及解决方法

Python数据分析案例28——西雅图交通事故预测（不平衡样本处理）

样本不平衡问题

正负样本不平衡问题

处理数据不平衡

处理不平衡数据的常用采样方法

机器学习之不平衡数据集的处理方法

［每日问答］正负样本不平衡应该怎么处理？

系统学习机器学习之样本不平衡问题处理

类不平衡（样本不均衡数据）处理笔记+ROC/AUC曲线

如何处理深度学习中的样本不平衡问题？

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)