机器学习 如何应对一个数据分布及不平衡的二分类问题 正负样本比例100000:1

解决方式两种:1.过采样 over-sampling  2.欠采样

过采样:增加样本中少数类样本的数量

            经典的方法 1. 复制少数样本   2.在少数样本中加入随机噪声,干扰数据通过一定的规则生成一定的样本。

下采样:减少多数样本的数量

          方法:随机的去掉多数类样本,知道多数样本和少数样本相同

      

                               

猜你喜欢

转载自blog.csdn.net/u011243684/article/details/85233277