弱监督检测文章解读之Adversarial Complementary Learning for Weakly Supervised Object Localization

文章:基于对抗互补学习的弱监督目标定位(个人感觉这篇文章的方法太巧妙了)

Adversarial Complementary Learning for Weakly Supervised Object Localization

http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhang_Adversarial_Complementary_Learning_CVPR_2018_paper.pdf

Github:https://github.com/xiaomengyc/ACoL

摘要:在这项工作中,我们提出了对抗性互补学习(ACoL),以便在弱监督下自动定位语义兴趣的整体对象。这篇文章比较有意思的地方:证明了位置的location map可以通过选择最后一个卷积层的class-specific feature maps直接获得(这个理论在GAN可解释性的文章也通过实验证明了),从而提供了一个简单的方式识别目标区域。文中采用两个平行的分类器,来获得object-location。

这篇文章的方法在我的理解来说应该称为:对抗互补擦除。具体流程可以通过上图解释,即现在我们又分类器A和B,先训练A分类,然后找出对应的类别的feature-map,然后在训练B过程中把这部分feature-map擦除,因为有监督训练B,因此B可以再学到该类别的其他区域(比如图中,A学习到的马的头和后腿,B学习到马的前脚,两个区域互补)。然后再把B的特征图拿去擦除A,让A去学习B的补集。通过这样的循环互补,最终A和B两个学习的并起来就是完整的目标。

Learning Deep Features for Discriminative Localization.(2016CVPR)这篇文章通过使用一个平均池化和一个全连接替代分类网络最后几层,修正了分类网络。达到了:它可以聚合最后一个卷积层的特征,以产生用于定位目的的判别类激活图(class
activation maps CAM),但这种方式生成的CAM,存在两个问题:
1)过度依赖类别判别特征进行图像分类;
2)未能在图像内密集地定位目标对象的整体区域。

这两个问题主要是由于分类网络倾向于从最具辨别力的部分识别模式以进行识别,这不可避免地导致第二个问题。 例如,给定包含猫的图像,网络可以通过识别头部来识别它,而不管诸如身体和腿部的其余部分。

因此通过分类网络生成的CAM,只包含了局部,并没有包含完整的类别目标。

目前解决这个问题已经有几种解决方法:

1.Adversarial erasing (AE):对抗擦除,学习到部分特征,我把这个部分擦除掉,再训练一个新的网络,从而使用多个网络学习到全部特征。但这种方式网络太多;

2.随机遮挡图像的一部分,强行让网络学习完整的特征。缺点:这种随机的方式,不能保证每次能学习到新的特征。

猜你喜欢

转载自blog.csdn.net/qq_33547191/article/details/88396580