论文阅读笔记 | (ECCV 2018) Learning to Navigate for Fine-grained Classification

版权声明: https://blog.csdn.net/qq_16525279/article/details/82595285

论文来自北京大学,做细粒度图像分类。

论文下载:Learning to Navigate for Fine-grained Classification

Abstract

由于找出判别特征比较困难,细粒度图像分类具有挑战性。找到完全表征对象的那些微妙特征并不简单。为了处理这种情况,文章提出了一种新颖的自我监督(self-supervision )机制,可以有效地定位信息区域而无需边界框/部分注释(bounding box/part annotations)。

提出的模型,称为Navigator-Teacher-Scrutinizer Network(NTS-Net),由Navigator agent,Teacher agent和Scrutinizer agent组成。考虑到informativeness of the regions与ground-truth class概率之间的内在一致性,我们设计了一种新颖的训练范式,使Navigator能够在Teacher的指导下检测大部分信息区域(informative regions)。之后,Scrutinizer仔细检查Navigator中建议区域(proposed regions)并进行预测。

作者的模型可以被视为一种多代理合作(multi-agent cooperation),其中agent彼此相互受益,并共同进步。 NTS-Net可以端到端地进行训练,同时在推理过程中提供准确的细粒度分类预测以及更大的信息区域。我们在广泛的基准数据集中实现了最先进的性能。

1 Introduction

细粒度分类旨在区分同一超类的从属类(subordinate classes),例如, 区分野生鸟类,汽车模型等。 挑战来源于找出信息区域(informative regions)和提取其中的判别特征(discriminative features)。因此,细粒度分类的关键在于开发自动方法以准确识别图像中的信息区域。

Previous works

  • 监督学习:利用细粒度的人工注释,如bird classification中鸟类部分的注释。虽然取得了不错的结果,但它们所需的细粒度人工注释代价昂贵,使得这些方法在实践中不太适用。
  • 无监督学习:它们不需要昂贵的注释,但缺乏保证模型聚焦于正确区域的机制,这通常会导致精度降低。

作者提出了一种新颖的自我监督(self-supervision )机制,可以有效地定位信息区域而无需边界框/部分注释(bounding box/part annotations)。开发的模型称为NTS-Net,采用multi-agent cooperative学习方法来解决准确识别图像中的信息区域的问题。 直观地,被赋予地ground-truth class的概率较高的区域应该包含更多的对象特征语义,从而增强整个图像的分类性能。 因此,我们设计了一种新的损失函数来优化每个选定区域的信息量,使其具有与其概率为ground-truth class相同的顺序,并且我们将完整图像的ground-truth class作为区域的ground-truth class。

概括阐述self-supervision机制

NTS-Net由Navigator agent,Teacher agent和Scrutinizer agent组成。

  1. Navigator导航模型以关注最具信息性的区域:对于图像中的每个区域,Navigator预测区域的信息量,并使用预测来建议(propose)信息量最大的区域。
  2. Teacher评估Navigator建议的区域并提供反馈:对于每个建议区域(proposed region),Teacher评估其属于ground-truth class的概率;置信度(confidence)评估Navigator的guide,使用新颖的排序一致(ordering-consistent)损失函数来提出更多信息区域。
  3. Scrutinizer仔细检查Navigator中提出的区域并完成细粒度分类:每个proposed region被放大到相同的大小,并且Scrutinizer提取其中的特征;区域和整个图像的特征被联合处理,以完成细粒度分类。

总的来说,本文的方法可以被视为强化学习中的actor-critic scheme,其中Navigator是actor,Teacher是critic。通过Teacher提供的更精确的监督,Navigator将定位更多信息区域,这反过来将有利于Teacher。因此,agents共同进步并最终得到一个模型,该模型提供准确的细粒度分类预测以及更大的信息区域。

下图是模型的概览。

3 Methods

3.1 Approach Overview

本文方法依赖于一个假设,即信息区域有助于更好地表征对象,因此融合信息区域和全图像的特征将获得更好的性能。 因此,目标是定位对象的信息最丰富的区域(localize the most informative regions)。

信息量较大的区域应该有更高的置信度。The following condition should hold:

使用Navigator网络来近似信息函数(information function)和Teacher网络来近似置信度函数(confidence function)C.

Navigator网络评估其信息性I(Ri),Teacher网络评估其置信度C(Ri)。 为了满足Condition1,我们优化Navigator网络使  {I(R1),I(R2),...,I(RM)} 和 {C(R1),C(R2),..., C(RM)} 具有相同的顺序。

随着Navigator网络根据Teacher网络的改进,它将产生更多信息区域,以帮助Scrutinizer网络产生更好的细粒度分类结果。

3.2 Navigator and Teacher

3.3 Scrutinizer

3.4 Network architecture

猜你喜欢

转载自blog.csdn.net/qq_16525279/article/details/82595285