[论文阅读] Active Class Incremental Learning for Imbalanced Datasets

论文地址:https://arxiv.org/abs/2008.10968
发表于:ECCV 20 Workshop

Abstract

增量学习(IL)使人工智能系统能够适应流式数据。大多数现有的算法提出了两个强有力的假设,降低了增量方案的现实性:(1)假设新数据在流式传输时很容易被标注;(2)用平衡的数据集进行测试,而大多数现实生活中的数据集是不平衡的。这些假设被摒弃了,由此产生的挑战将通过主动学习和不平衡学习的结合来解决。我们引入了解决不平衡问题并与增量学习约束兼容的样本获取函数。我们还将增量学习视为一个不平衡学习问题,而不是针对灾难性遗忘的知识提炼的既定用法。在这里,不平衡效应在推理过程中通过类别预测的缩放来减少。用四个视觉数据集进行了评估,并比较了现有的和提出的样本获取功能。结果表明,提出的贡献具有积极的作用,并减少了主动和标准增量学习性能之间的差距。

I. Introduction

本文为第一篇将类增量学习与主动学习相结合的工作。当前的类增量学习有两个问题:1)数据标注简单;2)数据集均衡。而在实际应用中,这两个要求并不总是能满足,而主动学习的任务则是挑选出最有价值的样本,适合用于在尽可能保持性能的情况下,减少标注量并解决数据集不均衡问题。因此,可以将主动学习与增量学习相结合。

本文的算法流程如下:
在这里插入图片描述
由于本质上是将主动学习加在类增量学习方法上,因此,模型的初始化方式与类增量学习,都是选择部分类(如50%的类)的所有样本进行标注,然后在此基础上进行全监督训练得到一个初始模型(图中的 M 0 M_0 M0)。之后,如果按照标准类增量学习的流程,则是不断选择部分新类(如10%的类)的所有样本,在此基础上进行finetune,并尽可能保持新旧类的性能。不过,既然是主动学习,那么这里则变成了选择部分新类(如10%的类)的部分样本。

而至于这些部分样本的选择,使用的是主动学习的思路。比方说,假设对于该批数据的标注预算为B,则每次选取1/5 B的数据与示例样本(exemplar)一同进行finetune,而非主动学习中常见的retrain。从这一视角出发,也可以认为是类增量学习改善了主动学习中的一个经典困境(需要反复retrain)。

II. Classical Sample Acquisition Phase

本文的主动学习采取了两阶段的策略。在第一阶段,采用一些经典的主动学习方法进行初始化。本文选择了coreset、random、entropy、margin sampling这四种方法(注意这里甚至有random)。而这些方法是没有考虑类别不均衡问题的,而本文的假设是类不均衡,为此,就诞生了第二阶段。

III. Balancing-Driven Sample Acquisition

第二阶段是为了解决类不均衡问题。不过,解决方法也相当原始,即采用经典的oversample策略:哪些类已标注的样本较少,后序就对这些类多标注一些,文中称这一启发式策略为"Poorest Class First"。

IV. Experiment

在这里插入图片描述
注意本文的目标是和全监督的类增量比(也就是倒数第二列的sIL)。不过实验结果也是比较一言难尽,与sIL性能差距依旧较大不说,最优的主动学习方法还基本被random所占据,基本等于没做。

猜你喜欢

转载自blog.csdn.net/qq_40714949/article/details/124312917