机器学习笔记 - 微型不平衡数据集的处理思路参考

企业开发 2023-05-18 01:42:58 阅读次数: 0

一、简述

训练机器学习模型或神经网络时，如果希望得到表现良好的模型，那么对于数据集的深入了解则至关重要。

举一个例子：如果我们要在马和驴子之间进行分类，包含马匹的照片中有雪，而包含驴子的照片中没有雪。模型就很可能会学会根据雪的存在进行分类。这偏离了我们的预期。

另外，如果数据集不平衡，很可能也难以训练出一个表现良好的模型。如果有两个类别，那么显而易见平衡的数据意味着每个类各占50%的数量。

假设我们有一个数据集分两个类别，其中一个类别a有3000条数据，而另一个类别b只有300条数据。那么模型可能会学习以下行为：简单地将a作为预测的输出，因为这样输出准确率也非常高了。

这种不平衡的数据集十分常见，比如在很多工业缺陷检测场景中，某些罕见的缺陷很难收集但又很重要，不平衡的数据集就产生了。为了解决问题然后拿到薪水，所以我们需要对于这种不平衡的数据集进行处理。

二、数据处理

我们可以通过多种方式处理不平衡的数据集：

随机欠采样：从原始数据集中抽取一个子集，确保每个类的数量相等，丢弃了许多大量的类样本。

import pandas as pd

# Read CSV
df = pd.read_csv('./data.csv')

# Count samples per class
classes_zero = df[df['Response'] == 0]
classes_one = df[df['Response'] == 1]

# Print sizes
print(f'Class 0: {len(cla

猜你喜欢

转载自blog.csdn.net/bashendixie5/article/details/130734865

机器学习笔记 - 微型不平衡数据集的处理思路参考

机器学习之不平衡数据集的处理方法

机器学习-不平衡数据集

机器学习中不平衡数据的处理方式

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据

不平衡数据处理--学习笔记

如何处理深度学习中的不平衡数据集和噪声数据？

机器学习笔记 - 在逻辑回归中使用分类权重处理不平衡数据

机器学习面试—数据不平衡

8种应对机器学习数据集类别不平衡的策略

【机器学习之特征工程】数据预处理、特征选择、降维及不平衡处理

机器学习和深度学习中如何处理数据不平衡问题

[深度学习] 不平衡样本的处理

机器学习中样本不平衡处理办法

机器学习中样本不平衡的处理方法

机器学习样本不平衡处理

机器学习任务中，数据不平衡问题处理方法

机器学习数据不平衡处理之SMOTE算法实现

机器学习：正负样本数据量不平衡处理方法

机器学习中的训练数据不平衡问题

对机器学习中不平衡数据的认识

机器学习中数据不平衡问题

【机器学习】解决数据不平衡问题

不平衡学习

长尾问题数据不平衡学习笔记

深度学习中数据集分布不平衡问题的解决方法

机器学习-类别不平衡问题

类不平衡（样本不均衡数据）处理笔记+ROC/AUC曲线

从重采样到数据合成：如何处理机器学习中的不平衡分类问题？

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)