样本均衡

解决样本不均衡问题:

1. 上采样:增加原来样本数量较少的样本,直接复制原来的样本----样本较少

2. 下采样:较少原来样本数量较多的样本,丢弃多于的样本----------样本较多

                  每次正样本数量不变,随机选择等量的不同负样本进行模型训练,反复几次,训练多个模型,投票决定最终的分类

3. 合成样本:增加原来样本数量较少的样本。----------------------------样本较少

                      从各个feature随机选择一个已有值,然后拼接成一个新样本

4. 改变样本权重:增大样本数量类别少类别的权重

                             当这样的样本被误分,损失值要乘以权重。

猜你喜欢

转载自www.cnblogs.com/hapyygril/p/10024711.html