机器学习中样本不平衡的处理方法

在现实收集的样本中，正负类别不均衡是现实数据中很常见的问题。一个分类器往往 Accuracy 将近90%，但是对少数样本的判别的 Recall 却只有10%左右。这对于我们正确找出少数类样本非常不利。

举例来说：在一波新手推荐的活动中，预测用户是否会注册的背景下，不注册的用户往往是居多的，这个正负比例通常回事1:99甚至更大。一般而言，正负样本比例超过1:3，分类器就已经会倾向于负样本的判断（表现在负样本Recall过高，而正样本 Recall 低，而整体的 Accuracy依然会有很好的表现）。在这种情况下，我们可以说这个分类器是失败的，因为它没法实现我们对正类人群的定位。

为什么样本不平衡会对结果造成影响

在一个极度不平衡的样本中，由于机器学习会每个数据进行学习，那么多数数据样本带有的信息量比少数样本信息量大，会对分类器学习过程中造成困扰。举例来说，假如有100个样本，其中只有1个是正样本，其余99个全为负样本，那么学习器只要制定一个简单的方法：所有样本均判别为负样本，就能轻松达到99%的准确率。而这个分类器的决策很明显并非是我们想要的判定标准。

样本不平衡的处理方法

以下样本平衡方案虽然很容易想到，但是实际操作的过程中总是很难实现，因为无论是任何缩放，都会影响“训练集是样本总体的无偏采样”这个假设前提，即我们不能基于训练数据的观察来推测真实情况中的真实几率。现采用的方法有以下3种：

欠采样

欠采样（undersampling）法是去除训练集内一些多数样本，使得两类数据量级接近，然后在正常进行学习

这种方法的缺点是就是放弃了很多反例，这会导致平衡后的训练集小于初始训练集。而且如果采样随机丢弃反例，会损失已经收集的信息，往往还会丢失重要信息。

欠采样改进方法1

但是我们可以更改抽样方法来改进欠抽样方法，比如把多数样本分成核心样本和非核心样本，非核心样本为对预测目标较低概率达成的样本，可以考虑从非核心样本中删除而非随机欠抽样，这样保证了需要机器学习判断的核心样本数据不会丢失。
举例来说依然是预测用户注册这个目标，我们可以将跳出率为100%的用户名下的所有会话都可以划分为非核心样本，因为跳出用户包含的信息量非常少（其他行为特征为空），将此部分用户样本排除可以最大可能的保留更多原始数据信息。

欠采样改进方法2

另外一种欠采样的改进方法是 EasyEnsemble 提出的继承学习制度，它将多数样本划分成若 N个集合，然后将划分过后的集合与少数样本组合，这样就形成了N个训练集合，而且每个训练结合都进行了欠采样，但从全局来看却没有信息丢失。