三招提升数据不平衡模型的性能（附python代码）

对于深度学习而言，数据集非常重要，但在实际项目中，或多或少会碰见数据不平衡问题。什么是数据不平衡呢？举例来说，现在有一个任务是判断西瓜是否成熟，这是一个二分类问题——西瓜是生的还是熟的，该任务的数据集由两部分数据组成，成熟西瓜与生西瓜，假设生西瓜的样本数量远远大于成熟西瓜样本的数量，针对这样的数据集训练出来的算法“偏向”于识别新样本为生西瓜，存心让你买不到甜的西瓜以解夏天之苦，这就是一个数据不平衡问题。针对数据不平衡问题有相应的处理办法，比如对多数样本进行采样使得其样本数量级与少样本数相近，或者是对少数样本重复使用等。最近恰好在面试中遇到一个数据不平衡问题，这也是面试中经常会出现的问题之一，现向读者分享此次解决问题的心得。

1_jpeg

数据集

训练数据中有三个标签，分别标记为[1、2、3]，这意味着该问题是一个多分类问题。训练数据集有17个特征以及38829个独立数据点。而在测试数据中，有16个没有标签的特征和16641个数据点。该训练数据集非常不平衡，大部分数据是1类（95％），而2类和3类分别有3.0％和0.87％的数据，如下图所示。

算法

经过初步观察，决定采用随机森林（RF）算法，因为它优于支持向量机、Xgboost以及LightGBM算法。在这个项目中选择RF还有几个原因：

1机森林对过拟合具有很强的鲁棒性；
2.参数化仍然非常直观；
3.在这个项目中，有许多成功的用例将随机森林算法用于高度不平衡的数据集；
4.个人有先前的算法实施经验；
为了找到最佳参数，使用scikit-sklearn实现的GridSearchCV对指定的参数值执行网格搜索，更多细节可以在本人的Github上找到。

为了处理数据不平衡问题，使用了以下三种技术：

A.使用集成交叉验证（CV）：

在这个项目中，使用交叉验证来验证模型的鲁棒性。整个数据集被分成五个子集。在每个交叉验证中，使用其中的四个子集用于训练，剩余的子集用于验证模型，此外模型还对测试数据进行了预测。在交叉验证结束时，会得到五个测试预测概率。最后，对所有类别的概率取平均值。模型的训练表现稳定，每个交叉验证上具有稳定的召回率和f1分数。这项技术也帮助我在Kaggle比赛中取得了很好的成绩（前1%）。以下部分代码片段显示了集成交叉验证的实现：

原文链接