半监督领域论文笔记——Billion-scale semi-supervised learning for image classification

发表信息

2019年,Facebook

所属领域

半监督学习

文章方法

主要目的

借助非标注数据,提升现有模型效果

方法概述

采用了teacher/student的学习机制,借助了billion级别的unable data和相对小数量级的label data,提升了当前已有模型在图像分类任务上的效果

提出背景

  • 2018年,也是Facebook,提出了weakly supervised方向的研究“Exploring the Limits of Weakly Supervised Pretraining”,采用billion级别的weakly supervised data(图像有hashtag标签,图像来源是Instagram)
  • 本方法受启发于好几个方向:self- training, distillation, or boosting.

方法介绍

  • 所用数据:

大量无标签+相对少量的有标签。

(billions of unlabeled images along with a relatively smaller set of task-specific labeled data)

  • 具体流程:
  1. 在labeled data 数据集上A训一个teacher model

  2. 用teacher对unlabeled data打伪标签,对每一类class进行数据选择(根据伪标签prediction排序,再选top-K images),构建一个新的训练集B

  3. 在数据集B上训一个student模型,作为pre-train,student的模型规模比teacher要小

  4. 在label data数据集A上,fine-tune这个student模型

  • 方法变式:
  1.  

 

文章结论

在文章的第二页有一个table 1,罗列了6点文章作者对大规模半监督学习过程的建议,浓缩了文中多项实验的精华,非常值得细品:

本人详细解读如下:

方法优势

  • 相比于weakly supervised方法

  1. 避免了数据长尾分布(long-tail distribution)问题。本方法对unlabeled data打标后手动选择,可以人工决定数据量和分布(selecting same number of images per label),避免了不同类别数量不均匀的问题

  2. weakly supervised 的噪声问题。文章提到“significant amount of inherent noise in the labels due to non-visual, missing and irrelevant tags which can significantly hamper the learning of models”

  •  

方法亮点

  • 数据规模大

第一次在半监督学习中利用billion级别的无标签数据。(“semi-supervised learning with neural networks has not been explored before at this scale.”)

具体细节

猜你喜欢

转载自blog.csdn.net/s000da/article/details/109232063