版权声明:https://blog.csdn.net/z0n1l2 https://blog.csdn.net/z0n1l2/article/details/83757696
原文链接
SMOTE: Synthetic Minority Over-sampling Technique
解决的问题
很多算法都有一个默认的假设:样本中各个类别的样本数目是均衡的,比如深度学习中几个经典网络结构直接用于不均衡数据效果会很差。本文提出的SMOTE是一种通过线性插值过采样的方法解决不均衡问题的方法。如果通过简单复制样本没有获得期望结果时,不妨试试这个方法。
伪码
输入:同一类别的所有样本
,聚类参数K,需要新增的样本个数N
输出:新增样本
步骤1:K均值聚类
步骤2:以概率
选择一个聚类C
步骤3:聚类C中随机选择两个样本
和
,计算新样本
,
内的随机数
步骤4:重复步骤2和步骤3,直至生成N和新样本
其中步骤2的概率
有几种不同策略:
1 按聚类大小采样,聚类越大,采样率越低
2 按聚类大小采样,聚类越大,采样率越高
从样本均衡角度,策略1更合适