本文是arXiv上去年5月份的文章，依然是zifeng wu的工作。

一句话总结

作者ResNet网络的各种超参的作用，最后得到了在当时state of the art的分割成绩，并提出了自己的instance-level semantic的方式，并提出了困难样本选择的方法。

1 instance segmentation

整体结构：
这里写图片描述
这里包含两个网络，图像category-level的segmentation net及负责定位的网络。主要步骤如下：
1. 分割网络得到score maps
2. 以smoothed L1 loss训练的定位网络，以每个像素到其所属instance中心的距离及instance的宽高为回归目标，得到一个初步的定位信息，即transform map。该网络训练的时候根据个体大小进行reweight
3. 每个类别得到n个mask（score map），将transform map应用于这n个score map，将mask内的点的Bounding box进行NMS，其中score最高的中心像素点作为instance的标志。
4. 根据每个score map的点 trace back所有的前景像素点得到像素级的分割，将每个scoremap得到的分割进行nms，得到最终的instance segmentation。

2 困难像素选择

首先作者假设太容易的样本无益于训练，因此只训练对当前模型有一定难度的样本。
这里写图片描述
- 分类网络的困难样本中根据预测的概率大小选择一个阈值进行筛选，注意不能使用太大的阈值，否则噪音太多
- 回归网络中，不是根据四个目标值的loss选择而是根据 IoU得分选择。

3 网络超参数

对于分类网络：
1. 网络深度从50增加至101得到较大提高，从101到152增益效果小（可能由于过拟合）
2. 增加 feature map的 resolution 有益
3. 增加感受野（大于224）也有益，但是大于
4. 以上操作增加了计算量及显存容量
一些结果如下，注意红线部分
这里写图片描述

bs是困难样本选择

zifeng wu instance level segmentation：Bridging Category-level and Instance-level Semantic Image

一句话总结

1 instance segmentation

2 困难像素选择

3 网络超参数

猜你喜欢