你如何看待不平衡数据 - 代码天地

你如何看待不平衡数据

其他 2021-04-06 21:14:28 阅读次数: 0

1. 不平衡数据的定义

在分类问题中，类别之间的分布不均匀导致数据的不平衡。比如，针对二分类问题，target取值为0和1，当其中一方（如y=1）的占比远小于另一方（y=0）的时候，就构成了不平衡数据。

那么到底是需要差异多少，才算是失衡呢，根本Google Developer的说法，我们一般可以把失衡程度分为3个级别：

轻度：20-40%

中度：1-20%

极度：<1%

一般来说，失衡样本在构建模型时难以发现问题，甚至可以得到很高的accuracy，为什么呢？假设我们有一个极度失衡的样本，y=1的占比为1%，那么，我们训练的模型，会偏向于把测试集预测为0，从而导致模型整体的预测准确性较高，如果我们只是关注这个指标的话，可能就会被骗了。

3. 处理不平衡数据的理论方法

在我们开始用Python处理失衡样本之前，我们先来了解一下关于处理失衡样本的一些理论知识，前辈们关于这类问题的解决方案，主要包括以下：

从数据角度：通过应用一些 欠采样或过采样技术来处理失衡样本。欠采样就是对类别数量多的样本进行抽样，保留类别数量少的样本的全量，使得两类的数量相当；过采样就是对少数类进行多次重复

猜你喜欢

转载自blog.csdn.net/nixiang_888/article/details/109770903

你如何看待不平衡数据

数据不平衡

不平衡数据分类

处理数据不平衡

数据不平衡问题

如何解决数据不平衡问题

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据

如何处理数据不平衡问题？

lightgbm和xgb如何处理不平衡数据的

数据不平衡imblearn算法汇总

用R处理不平衡的数据

数据不平衡问题总结

机器学习面试—数据不平衡

数据不平衡处理----smote算法

不平衡数据集的处理

数据不平衡问题小结

不平衡数据集处理方法

不平衡数据处理-imblearn

不平衡数据处理

机器学习-不平衡数据集

处理不平衡数据的基本方法

处理数据不平衡方法

数据不平衡， pytorch——WeightedRandomSampler

数据不平衡处理方式

不平衡数据-SMOTE综述

心理不平衡

不平衡学习

不平衡数组

使用pytorch的dataloader来平衡不平衡数据的抽取

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)