欠采样（undersampling）和过采样（oversampling）会对模型带来怎样的影响 - 代码天地

欠采样（undersampling）和过采样（oversampling）会对模型带来怎样的影响

其他 2018-08-14 05:19:12 阅读次数: 0

转载：https://blog.csdn.net/Dawei_01/article/details/80846371

目中出现了二分类数据不平横问题，研究总结下对于类别不平横问题的处理经验：

1：为什么类别不平横会影响模型的输出：

许多模型的输出类别是基于阈值的，例如逻辑回归中小于0.5的为反例，大于则为正例。在数据不平衡时，默认的阈值会导致模型输出倾向与类别数据多的类别。

因此可以在实际应用中，解决办法包括：

1)调整分类阈值，使得更倾向与类别少的数据。

2）选择合适的评估标准，比如ROC或者F1，而不是准确度（accuracy）

3）过采样法（sampling）：来处理不平横的问题。分为欠采样(undersampling)和过采样(oversampling)两种，

过采样：重复正比例数据，实际上没有为模型引入更多数据，过分强调正比例数据，会放大正比例噪音对模型的影响。

欠采样：丢弃大量数据，和过采样一样会存在过拟合的问题。

由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特别(Specific)而不够泛化(General)

4）数据合成：SMOTE（Synthetic Minority Oversampling Technique）即合成少数类过采样技术，它是基于随机过采样算法的一种改进方案，，SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。

经验：

猜你喜欢

转载自blog.csdn.net/m0_37870649/article/details/81564397

欠采样（undersampling）和过采样（oversampling）会对模型带来怎样的影响

过采样和欠采样

Python sklearn 实现过采样和欠采样

机器学习（三十）：过采样和欠采样技术

过采样和欠采样（数据不均衡处理）

类别不平衡之欠采样（undersampling）

过采样欠采样的处理方法

过采样与欠采样&图像重采样（上采样&下采样）

深度学习中的采样：下采样，上采样，欠采样，过采样

机器学习中欠拟合和过拟合/上采样和下采样

python数据预处理：样本分布不均（过采样和欠采样）

类别不平衡问题的解决方法：过采样、欠采样和再平衡

python数据预处理 :样本分布不均的解决(过采样和欠采样)

机器学习（三十一）：深度神经网络的过采样和欠采样

欠采样

图像操作中的上采样、下采样，过采样、欠采样等

数据处理过采样与欠采样 SMOTE与随机采样达到样本均衡化

分类中解决类别不平衡问题：imbalanced-learn、过采样、欠采样

人工智能中非平衡数据处理方法、欠采样、过采样讲解（简单易懂）

Python中实现过采样和下采样

smote(过采样算法)

ADC过采样

UART的16倍频过采样和3倍频过采样

采样

模型选择、过拟合和欠拟合

模型选择、过拟合和欠拟合

模型选择、欠拟合和过拟合

ML之LoR：利用信用卡数据集(欠采样{Nearmiss/Kmeans/TomekLinks/ENN}、过采样{SMOTE/ADASYN})同时采用LoR算法(PR和ROC评估)进行是否欺诈二分类

上采样，重采样和下采样，降采样

ADC欠采样以及应用案例

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)