不平衡数据/少数样本下学习困难的原因 - 代码天地

不平衡数据/少数样本下学习困难的原因

企业开发 2023-12-17 12:53:37 阅读次数: 0

文章目录

- 总结
- 具体原因

总结

样本不平衡分布，内部不平衡（患病患者）+外部不平衡（因隐私收集数据困难）。
从极端的类不平衡数据中学习（地震、海啸）。
不平衡分布（不平衡率，imbalance ratio，IR）不是分类困难的原因，如果正负类存在良好的代表性，即很好的表示并且来自非重叠分布，也可以获得很好的结果。
不平衡的敏感性与问题复杂性有关。非复杂的、线性可分离的问题不受所有级别的类不平衡的影响。
可用的少数样本总数比不平衡率更重要。

具体原因

大量的少数类样本出现在多数类样本密集的区域
类别之间的分布严重重叠(overlapping)，即不同类别的样本相对密集地出现在特征空间的同一区域。

研究指出，相比于IR，overlapping对分类难度具有更显著的影响。
同时发现：在overlapping程度较高的时候，KNN分类器比SVM效果好；随着overlapping程度增高，更加local (K值越小) 的KNN效果更好。
原因：在overlapping程度变高时，由于少数类的空间中插入了更多的多数类样本，少数类数据会更倾向于稀疏分布，更加local的分类器简单，有效。

异常样本(noisy sample/噪声/离群点)：不平衡学习中基本所有分类器都对噪声敏感，尤其是少数类的噪声。

原因：大部分方法如cost sensitive learning会更加重视少数类，因此少数类中的噪声具有更大影响。
此外，简单分类器如Naive Bayes / KNN，在面对噪声时比复杂的分类器更加鲁棒。

少数样本分布的稀疏性（sparsity）、稀疏性导致拆分成多个子概念（sub-concepts，子clusters）、每个子概念仅含有较少的样本量。

猜你喜欢

转载自blog.csdn.net/deer2019530/article/details/129725805

不平衡数据/少数样本下学习困难的原因

[深度学习] 不平衡样本的处理

不平衡样本的处理

不平衡学习

数据不平衡

机器学习之样本不平衡

机器学习中样本不平衡处理办法

机器学习中样本不平衡的处理方法

机器学习样本不平衡处理

机器学习：正负样本数据量不平衡处理方法

机器学习面试—数据不平衡

机器学习-不平衡数据集

【Focal Loss】解决类别不平衡问题，增加对困难样本的挖掘

样本不平衡问题

样本不平衡处理

样本不平衡的处理

正负样本不平衡问题

不平衡数据分类

处理数据不平衡

数据不平衡问题

机器学习中的训练数据不平衡问题

机器学习中不平衡数据的处理方式

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据

对机器学习中不平衡数据的认识

机器学习中数据不平衡问题

【机器学习】解决数据不平衡问题

RDKit | 化合物活性数据的不平衡学习

长尾问题数据不平衡学习笔记

不平衡数据处理--学习笔记

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)