数据挖掘面试题之SMOTE算法

了解决数据的非平衡 问题 2002 Chawla 提出了 SMOTE 算法,即合成少数
,它是基于随机 算法的一种改 方案。 是目前 理非平衡数据的常用手段,并
受到学 界和工 界的一致 同,接下来 简单 描述一下 算法的理 思想。
SMOTE 算法的基本思想就是 少数 类别样 行分析和模 ,并将人工模 的新 本添
加到数据集中, 而使原始数据中的 类别 不再 重失衡。 算法的模 拟过 程采用了 KNN
生成新 本的步 如下:
1 )采 近算法, 算出每个少数 类样 本的 K 个近
2 )从 K 个近 中随机挑 N 行随机 线 性插
3 )构造新的少数 类样 本。
4 )将新 本与原数据合成, 生新的 训练集。
 
 
发布了86 篇原创文章 · 获赞 1 · 访问量 8204

猜你喜欢

转载自blog.csdn.net/a1272899331/article/details/104757098