机器学习(三十):过采样和欠采样技术

当我们的训练数据的类别分布严重偏斜时,我们面临的分类不平衡问题。不平衡可能影响我们的机器学习算法的一种方式是当我们的算法完全忽略少数类时。这是一个问题的原因是因为少数类通常是我们最感兴趣的类。例如,在构建分类器以根据各种观察对欺诈性和非欺诈性交易进行分类时,数据可能有更多的非欺诈性交易。如果我们的欺诈交易数量与非欺诈交易数量相等,那将是非常令人担忧的。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_46211269/article/details/127030141