论文讲解:Knowledge distillation: A good teacher is patient and consistent

前言

论文地址:https://arxiv.org/abs/2106.05237

  • google的文章向来是不差钱,这篇文章也是如此,把ImageNet1k数据集的蒸馏做到了1W epoch,而且还做了大量的对比实验。虽然无法复现,不过能直接用结论也是ok的。
  • 量化裁剪和蒸馏是模型轻量化三板斧,裁剪可能会带来通道不平衡的问题,量化的收益稳定,这篇文章主要是对蒸馏展开研究。
  • 作者发现,只要给蒸馏足够的时间,他是能带来足够的惊喜的,最终只是基于该数据集,将ResNet50在ImageNet1k上的结果刷到了82.8%。

实验设置

简单起见,作者主要分析了以下4种蒸馏的方式

  • fixed teacher:对于同一张图像,student会对图像做random crop,teacher对图像做center crop,这样的话,同一张图像的teacher prediction是完全固定的,这个也就是noisy student的做法
  • independent noise:teacher和student对同一张图像分别做随机crop,生成预测结果(他们的预测区域是不同的)
  • consistent teaching:对一张图像进行随机crop,然后teacher和student分别对该区域进行预测
  • function matching:基于consistent teaching,对图像进行mixup或者cutmix数据增广,再进行

猜你喜欢

转载自blog.csdn.net/u012526003/article/details/120900023
今日推荐