如何处理数据不平衡问题？ - 代码天地

如何处理数据不平衡问题？

其他 2019-03-23 00:10:52 阅读次数: 0

0 引言

我们在处理实际业务时，经常会遇到训练数据中不同类别样本比例差距过大的情况。例如银行贷款业务欺诈问题，我们要清楚银行贷款业务主要识别的就是具有一定风险的贷款客户，而实际样本中，大多数都是及时偿还的正样本，只有少数是未偿还的负样本，如果我们不做任何预处理，模型很可能因为正样本数量多，而把很多风险客户识别成正常客户，造成损失。所以首先要明确具体业务的根本要求。下面是我总结的解决办法，有什么问题希望大家指正，谢谢。

1 解决办法

下面负样本代表样本量少的类型，正样本代表样本量大的类型。
1）过采样和降采样
从字面就可以很好理解，过采样就是在负样本数量很少，几百或者几千的情况下，对负样本进行SMOTE处理，增加到一定的预定数量。
降采样就是在负样本数量达到模型的预计标准，几万或者几十万以上，而正样本在几百万以上，则选择对正样本进行随机抽样的方式，降低到一定的预定数量，平衡数据集。
2）使用不同的训练集，构建多个模型进行融合
例如负样本个数5000，正样本个数100000，将正样本随机抽取50000个，并且分成10等份，负样本与每一份正样本组成1:1的10个训练集，训练10个模型进行融合。

2 模型评估

对于不平衡数据集，训练的模型使用准确率评估模型，容易出现较大的问题。例如10000个样本中100个负样本9900个正样本，模型一个负样本没有识别出来，所有的样本都识别为正样本，准确率却为99%，所以根据业务需求，可以分别识别不同类别的样本识别准确率，或者使用F1值来评估模型。

猜你喜欢

转载自blog.csdn.net/weixin_40192195/article/details/88144114

如何处理数据不平衡问题？

（转）如何处理类别不平衡的问题

如何处理样本不平衡问题

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据

lightgbm和xgb如何处理不平衡数据的

机器学习和深度学习中如何处理数据不平衡问题

从重采样到数据合成：如何处理机器学习中的不平衡分类问题？

如何处理深度学习中的不平衡数据集和噪声数据？

【分类】在分类中如何处理训练集中不平衡问题

在分类中如何处理训练集中不平衡问题

【机器学习】在分类中如何处理训练集中不平衡问题

如何处理深度学习中的样本不平衡问题？

处理数据不平衡

数据不平衡问题

过采样（处理数据不平衡问题）

下采样（处理数据不平衡问题）

如何解决数据不平衡问题

pytorch处理类别不平衡问题

类不平衡问题的处理办法

[转]如何处理机器学习中的不平衡类别

如何处理机器学习中的不平衡类别

用R处理不平衡的数据

数据不平衡处理----smote算法

不平衡数据集的处理

不平衡数据集处理方法

不平衡数据处理-imblearn

不平衡数据处理

处理不平衡数据的基本方法

处理数据不平衡方法

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)