分类任务中的类别不平衡问题

企业开发 2023-05-18 02:18:42 阅读次数: 0

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。

目录

一、问题定义

二、问题的解决方案

1、解决方法引入

2、理想解决方案

3、实际解决方案

一、问题定义

分类任务中不同类别的训练样本数目差别很大的情况。

二、问题的解决方案

1、解决方法引入

在线性分类器中，我们用 $y=\boldsymbol{w}^{T}\boldsymbol{x}+b$ 对新样本进行分类时，我们是以一个阈值与预测的y值进行比较。通常我们选取0.5为阈值（认为真实正反例可能性相同），即：

$\frac{y}{1-y}>\frac{0.5}{0.5}=1$ 时，预测为正例。

2、理想解决方案

但当训练集中正反例的数目不同时，观测几率为 $\frac{m^{+}}{m^{-}}$ ，其中 $m^{+}$ 为正例数量， $m^{-}$ 为反例数量。通常我们假设训练集是真实样本总体的无偏采样，则观测几率代表真实几率。故有：

$\frac{y}{1-y}>\frac{m^{+}}{m^{-}}$ 时，预测为正例，反之为反例。

即： $\frac{y}{1-y}\times \frac{m_{-}}{m_{+}}>1$ ，这就是类别不平衡学习中的一个基本策略“再缩放”（类似代价敏感学习 $\frac{cost^{+}}{cost^{-}}$ 代替 $\frac{m_{-}}{m_{+}}$ ，其中 $cost^{+}$ 为正类被误分为反类的代价）。

3、实际解决方案

上述解决方案成立的假设为“训练集是真实样本总体的无偏采样”，但这个假设不一定成立，即很难从观测几率中推出真实几率。

因此实际处理方案有以下这三种：

（1）直接对训练集里的反类样本进行欠采样，即去除一些反类样本，使正反类样本数量接近（可以进行多次随机欠采样，训练多个分类器，测试结果为这多个分类器的预测结果中最多的那类，这样丢失的信息就没有那么多）

（2）对训练集中的正类样本进行过采样，即增加一些正类样本，使正反类样本数量接近（过采样——可以采用对正类样本进行插值来产生额外的样本，不能单纯地重复样本，这样很容易过拟合）

（3）使用上面的理想解决方案——阈值移动

欢迎大家在评论区批评指正，谢谢啦~

猜你喜欢

转载自blog.csdn.net/weixin_55073640/article/details/125824483

分类任务中的类别不平衡问题

分类中类别不平衡问题

分类任务中数据类别不平衡问题的几种解决方案

机器学习分类任务中怎么解决类别不平衡问题

分类中解决类别不平衡问题

分类类别不平衡问题

类别不平衡问题

分类中解决类别不平衡问题：imbalanced-learn、过采样、欠采样

机器学习中的类别不平衡问题

机器学习-类别不平衡问题

pytorch处理类别不平衡问题

详解类别不平衡问题

在分类中处理样本不平衡问题

[DataAnalysis]机器学习算法——类别不平衡问题

（转）如何处理类别不平衡的问题

类别不平衡问题和Softmax回归

Python imblearn 解决类别不平衡问题

类别样本不平衡问题

机器学习之类别不平衡问题 —— 采样方法

【目标检测——OHEM 解读】处理类别不平衡问题

语义分割中的类别不平衡的权重计算

不平衡数据分类

【分类】在分类中如何处理训练集中不平衡问题

如何解决NLP分类任务的11个关键问题：类别不平衡&低耗时计算&小样本&鲁棒性&测试检验&长文本分类 JayLou娄杰

在分类中如何处理训练集中不平衡问题

【机器学习】在分类中如何处理训练集中不平衡问题

分类中样本数据不平衡问题的解决方法

机器学习任务中，数据不平衡问题处理方法

解决分类样本不平衡问题

文本分类实战---数据分布不平衡问题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)