[论文阅读] End-to-End Incremental Learning

论文地址：https://doi.org/10.1007/978-3-030-01258-8_15
代码：https://github.com/fmcp/EndToEndIncrementalLearning
发表于：ECCV 18

Abstract

尽管近年来深度学习方法因其最先进的结果而脱颖而出，但它们仍然受到灾难性遗忘的困扰，即在用逐渐增加的新类别进行训练时，整体性能急剧下降。这是由于目前的神经网络架构需要整个数据集，包括旧的和新的类的所有样本，以更新模型。而随着类的数量增加，这种要求很容易变得不可持续。我们提出了一个方法来解决这个问题，即使用新的数据和仅对应于旧类样本的一小部分示例集来逐步学习深度神经网络。这是基于一个由蒸馏措施组成的损失，以保留从旧类中获得的知识，以及一个交叉熵损失来学习新类。我们的增量训练是在保持整个框架端到端的情况下实现的，即共同学习数据表示和分类器，这与最近没有这种保证的方法不同。我们在CIFAR-100和ImageNet(ILSVRC 2012)图像分类数据集上广泛评估了我们的方法，并显示出最先进的性能。

Method

本文算是比较早期的深度网络类增量学习方法，前作为LwF(ECCV 16[1])与iCaRL(CVPR 17[2])。LwF是无示例(exemplar-free)的，而iCaRL是有示例的，本文也是一种有示例的方法(性能上更好)。LwF，iCaRL以及其他的做法都有个特点，其基本思想都是把网络拆成特征提取器和分类头，并对这两个组件分别进行finetune，并不是端到端的。本文的最大亮点是特征与分类是共同学习的，可以认为本质上是对iCaRL的小改。

简单总结的话，就是多了个finetune的步骤。以往的方法有个问题，尽管用蒸馏损失去约束了旧知识，但毕竟新样本的数量是要比示例集大的，这就形成了一种典型的类不均衡问题，因此模型还是会倾向于去"照顾"新类的预测效果。为此，本文引入了herding selection的概念，从新样本中抽出一个和示例集一样大的子集，然后再用个更小的学习率finetune。这样的话就消除了类不均衡，从而实现了一定的性能提升。

注：herding selection在这里对应的就是经典的示例集构建方法，即选择离平均特征最接近的样本(聚类中心)。

Reference

[1] Li, Zhizhong, and Derek Hoiem. “Learning without forgetting.” IEEE transactions on pattern analysis and machine intelligence 40.12 (2017): 2935-2947.
[2] Rebuffi, Sylvestre-Alvise, et al. “icarl: Incremental classifier and representation learning.” Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017.