Abstract.

在图像标签的的监督下，弱监督的语义分割任务是一件很困难的事情，因为他直接将high-level semantic和low-level appearence结合了起来。

Introduction.

在图像的label的监督下，弱监督的语义分割是对于图像进行像素级的分割，只能给图像中已经现存的语义物体提供 label。由于semantic segmentation只需要一些人工的label，所以在物体识别，自动驾驶中都展现了很不错的效果。

在之前的一些工作中，主要用classification networks（分类的网络）去给object进行定位。由于没有pixel-wise的annotatioin，classification networks只能得到不精确的模糊的object regions，达不到对于pixel-wise semantic segmentation的要求。

为了解决这个问题，我们提出了一个iterative bottom-up和top-down的framework，这个结构可以从不精确的，模糊的initial localization，通过开Mining Common Object Feature（MCOF），去逐步扩展object regions。提出这样的想法，我们的motivation是，虽然通过classificationnetwork 产生的initial localization是很模糊的，但是它给出了某些图像的判别区域，这些区域包涵着对于这些物体的重要信息。

对于Figure 1 （a）如上图，我们能看到一些图片定位到了人的手，一些图片定位到了人的头部。如果有一些训练的图片我们就可以学到他们的物体中的共同特征从而去判断物体的整个区域。所以在bottom-up step中，我们把initila object localization作为object seeds，然后通过发觉物体的共同特征去扩大object regions；在top-down的setp中，我们用mined object regions as supervision去预测fine object masks来训练segmentation network

there are some examples of our methods：

我们首先训练classification network，然后用Classification Activation Maps（CMP）去定位物体的判别区域，随后图像就被分割为超像素区域并且用CMP给图像制定了labels，这些区域我们都把它叫做object seeds。为了实现一个bottom-up step，我们训练了一个region classification network然后用这个网络去预测object regions.在top-down step中也用之前说过的方法：用refined object regions作为supervision 去预测分割的masks（掩摸），然后我们再将segmentation masks作为object seeds实行逐步迭代。在迭代中，我们提出来的MCOFframework会产生更加精确的object regions，提高了segmentation network的分割效果。最后的训练完的segmentation network就用来实行推断，

Related work.

主要从两个方面介绍：fully-supervised 和 weakly-supervised。

Fully-supervised Segmantic Segmentation.

全监督的方法需要很多的pixel-wise的标注，从处理方式上他可以被分为两种：1）region-based network，2）pixel-based network；对于region-based networks 把图片当作一系列的regions然后提取他们features去predict他们的labels；对于pixel-based network把整张图片当作输入，然后用卷机网络端到端的去predict pixel-wise labels。

经过验证，在语义分割方面pixel-wise networks要比region-based networks 更好，但是在作者的这篇论文中，take advantages of both kinds of networks。我们将证明region-based networks在学习物体的common features 表现出很好的效果，因此可以产生fine object regions 作为监督去训练 pixel-based networks。

Weakly-Supervised Semantic Segmentation.

现在已经有很多weakly-supervised的工作了，如：1）bounding box 2）scribble and image-level labels

Architecture of the Proposed MCOF

architecture：

对于本文架构的总结：

一般而言对于semantic segmentation我都会采用pixel-wise Network因为相比于region Network，前者的效果会更好一点。但是pixel-wise network也有它自身的缺点，那就是它需要pixel-wise的标注，这是很麻烦的一件事情，个人理解本文很好的解决了pixel-wise的标注问题，对于initial object，只需要很小的一部分的标注，我们就可以通过迭代，通过两个不同的网络互相促进，从而产生很完美的分割。

Mining Common Object Features

Initial Object Seeds

为了得到initial object localization，我么需要训练一个classification network，并且用CAM的method 去产生一幅和heatmap of each object。如下图：

heatmap很模糊，为了去定位物体的显著区域，首先我们用graphbased segmentation methods 先将图片分割成超像素区域，然后在heatmap 的每一个region中取平均值

Mining Common object Features from Initial Object Seeds

The initial object seeds十分的模糊，打不到semantic segmentation的要求，然而它包含了物体具有辨别力的区域。举个例子，就像Figure 4 一幅图可能定位到一个人的手，另一幅图可能定位到人的脸部，作者认为，相同类别的区域来自于同一个归属，我们把他叫做物体的共同特征（common object features）。所以如果给定一系列的训练图片和seed regions，我们能学到common object features然后预测出物体的全部区域。为了实现这个我们训练了一个classification network，我们把它叫做RegionNet，它使用object seeds 作为训练数据。

Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features-CVPR2018论文笔记