数据采样

 

很多数情况下,正负样本是不均衡的。如健康人和患某种疾病的患者,电商的用户点击过或者购买过的商品和没有行为的商品

而大多数模型对正负样本比是敏感的(比如LR)

正负样本不均衡的处理办法:

正样本 >> 负样本,且正样本和负样本量都挺大,将数据量多的样本采用下采样的方式(downsampling)

正样本 >> 负样本,且正样本和负样本量不大:

       1)采集更多的数据

       2)上采样(比如图像识别中的镜像和旋转)

       3)修改损失函数

猜你喜欢

转载自www.cnblogs.com/yongfuxue/p/10095329.html