[论文阅读] FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence

[论文地址] [代码] [NeurIPS 2020]

Abstract

半监督学习(SSL)提供了一种有效的手段，可以利用未标记的数据来提高模型的性能。这一领域最近取得了快速进展，但代价是需要更复杂的方法。在本文中，我们提出了FixMatch，这是一种对现有SSL方法进行了显著简化的算法。FixMatch首先使用模型对弱增强的无标签图像的预测来生成伪标签。对于一个给定的图像，只有在模型产生高置信度预测的情况下，才会保留伪标签。然后，该模型被训练成在向同一图像的强增强版本中预测伪标签。尽管它很简单，但我们表明FixMatch在各种标准的半监督学习基准中取得了最先进的性能，包括在有250个标签的CIFAR-10中的94.93%的准确率和40个的88.61%的准确率–每类只有4个标签。我们进行了广泛的消融研究，以区分对FixMatch的成功最重要的实验因素。

Method

本文是一篇非常经典的半监督论文，真正做到了simple and effective。具体来说，其利用了半监督的两大主流思路，Consistency Regularization与Pseudo-Labeling，前者指的是想办法构建同一样本的不同输入，同时保持输出的一致性，使模型学习样本的本质特征；后者指的是选择高置信度的伪标签进行自训练。这里进一步给出这两种方法的形式化定义：

Consistency Regularization：The model should output similar predictions when fed perturbed versions of the same image.
Pseudo-Labeling：The model itself to obtain artificial labels for unlabeled data.

具体来说，本文的流程如下：
在这里插入图片描述
现在已经有了一个训练好的模型。对于一个未标注样本，对其进行简单的弱数据增强(类似于训练中常用的旋转)，得到一个预测结果。根据Pseudo-Labeling的思想，如果该softmax最大结果的概率超过了我们给定的阈值，我们就认为该结果预测是正确的，并将其视为伪标签；
与此同时，我们还进行一个强数据增强(使图像外观发生剧烈变化，但不破坏样本的本质特征)，同样可以得到一个预测结果。我们希望该结果是要和伪标签相同的。

本文的流程至此就结束了，可以看到十分简单，核心的一点是利用强数据增强来做Consistency。也就是说，如果样本在进行强增强后还能与弱增强下的结果保持一致，那么就说明模型学到的是样本的"本质特征"，这样既能增强模型提取公共特征的能力，也能缓解模型仅停留在学习样本的浅层特征，亦或是被带有噪声的伪标签所干扰。