【机器学习】关于样本不均衡问题

参考:https://www.jianshu.com/p/be343414dd24


问题解决难度:

大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡

方法一:采样

采样分为上采样和下采样:上采样会把小众样本复制多份,这样容易造成过拟合问题,解决方法是在重复样本中加入轻微的随机扰动

下采样是随机选取大众类,使其和小众类有相同的样本,这样会造成模型的不完整,解决方法是多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果


方法二:数据合成

利用已有样本生成更多样本,常见方法是SMOTE,简单来说就是利用小样本在特征空间的相似性生成新样本


方法三:加权

对不同类别分错的代价不同,小样本大权重,分错类会有大惩罚


方法四:一分类

对于正负样本极不平衡的场景,我们可以换一个完全不同的角度来看待问题:把它看做一分类(OneClass Learning)或异常检测(NoveltyDetection)问题。



如何选择


1、在正负样本都非常之少的情况下,应该采用数据合成的方式;

2、在负样本足够多,正样本非常之少且比例及其悬殊的情况下,应该考虑一分类方法;

3、在正负样本都足够多且比例不是特别悬殊的情况下,应该考虑采样或者加权的方法。

4 、采样往往比加权好,如果计算资源足够且小众类样本足够多的情况下使用上采样,否则使用下采样





猜你喜欢

转载自blog.csdn.net/CSDN_Black/article/details/80949027
今日推荐