解决样本不均衡问题-SMOTE

版权声明:https://blog.csdn.net/z0n1l2 https://blog.csdn.net/z0n1l2/article/details/83757696

原文链接

SMOTE: Synthetic Minority Over-sampling Technique

解决的问题

很多算法都有一个默认的假设:样本中各个类别的样本数目是均衡的,比如深度学习中几个经典网络结构直接用于不均衡数据效果会很差。本文提出的SMOTE是一种通过线性插值过采样的方法解决不均衡问题的方法。如果通过简单复制样本没有获得期望结果时,不妨试试这个方法。

伪码

输入:同一类别的所有样本 { S } \{S\} ,聚类参数K,需要新增的样本个数N
输出:新增样本 { S n } \{S_n\}

步骤1:K均值聚类
步骤2:以概率 { P } \{P\} 选择一个聚类C
步骤3:聚类C中随机选择两个样本 s 1 s_1 s 2 s_2 ,计算新样本 s x = w s 1 + ( 1 w ) s 2 s_x=w*s_1+(1-w)*s_2 w ( 0 , 1 ) w \in (0,1) 内的随机数
步骤4:重复步骤2和步骤3,直至生成N和新样本

其中步骤2的概率 { P } \{P\} 有几种不同策略:
1 按聚类大小采样,聚类越大,采样率越低
2 按聚类大小采样,聚类越大,采样率越高

从样本均衡角度,策略1更合适

猜你喜欢

转载自blog.csdn.net/z0n1l2/article/details/83757696