【面试必备】之《样本不平衡》

  1. 训练样本不平衡
    (1) 数据层面:上采样和下采样
    上采样是指增加少样本类别的样本数量,如随机过采样、SMOTE多采样
    但是这样相当于在训练集中添加了噪声,从而导致模型过拟合
    下采样是指通过对多样本类别的样本进行有放回的随机抽样,从而与少样本类别的样本数量取得平衡。但这样做就丢掉了一部分原始样本,从而导致模型过拟合。
    (2) 算法层面
    选择对数据倾斜不敏感的算法:如随机森林
    增加损失函数中少样本类别中样本的权值

  2. 测试样本不平衡
    修改评估指标

猜你喜欢

转载自blog.csdn.net/qq_27577651/article/details/106787622