2018 CVPR
COCO2017/CityScapes instance segmentation 第一
Instance Segmentation
Path Aggregation Network for Instance Segmentation
代码地址
Mask R-CNN 中的信息传播 优化
PANet
Introduce
解决问题:
- 低层级的特征对于大型实例识别很有用, 最高层级特征和较低层级特征之间的路径长
- 每个建议区域都是基于 从一个特征层级池化 得到的 特征网格而预测的,此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用,这个流程还有进一步优化的空间
- mask 预测仅在单个视野上执行,无法获得更加多样化的信息
改进
- 缩短信息路径和用低层级的准确定位信息增强特征金字塔,创建了自下而上的路径增强
- 为了恢复每个建议区域和所有特征层级之间被破坏的信息,作者开发了适应性特征池化(adaptive feature pooling)技术
可以将所有特征层级中的特征整合到每个建议区域中,避免了任意分配的结果。
- 全连接融合层:使用一个小型fc层用于补充mask预测
Augmented Bottom-up Structure
改动原因:
-
low-level的feature是很利于定位用的,虽然FPN中P5也间接得有了low-level的特征,但是信息流动路线太长了如 红色虚线 所示 (其中有 ResNet50/101很多卷积层 )
-
本文在 FPN 的 P2-P5 又加了 low-level 的特征,最底层的特征流动到 N2-N5 只需要经过很少的层如绿色需要所示 (仅仅有几个降维 [3×3 ,stride 2 ]的卷积)
以ResNet作为基础结构,使用 P 2 , P 3 , P 4 , P 5 {P_2,P_3,P_4,P_5 } P2,P3,P4,P5 表示FPN生成对应的特征层次。 增强路径从 P 2 P_2 P2 逐渐接近 P 5 P_5 P5
每个构建块通过侧向连接将较高分辨率的 N i N_i Ni 和模糊的$P_{i+1} $ 连接到一起,生成新的特征图 N i + 1 N_{i+1} Ni+1
-
N 2 N_2 N2 就是 P 2 P_2 P2,没有做任何处理。
-
N i N_i Ni
- 经过 conv 3 × 3 ,stride 2
(reduce the spatial size)
- 经过 conv 3 × 3 ,stride 2
-
element-wise add P i + 1 P _{i+1} Pi+1
-
conv 3 × 3
注: 所有channel和FPN中一致P2-P5, N2-N5都是256。
每个候选区域的特征网络是从新生成的 N 2 , N 3 , N 4 , N 5 {N2,N3,N4,N5} N2,N3,N4,N5 上池化生成的
Adaptive Feature Pooling
在FPN中,依据候选区域的大小将候选区域分配到不同特征层次。这样小的候选区域分配到low-level,大的候选区域分配到high-level。
- high level
Semantic - low level
location
无论是high还是low的feature都有用。
对于每个候选区域,我们提出了池化来自所有层次的特征,然后融合它们做预测,这称之为adaptive feature pooling(自适应特征池化).
- 对于每个候选区域,我们将其映射到不同特征层次,如图(b)深灰色区域
- 使用 ROIAlign 池化来自不同层次的特征网格
- 再使用融合操作(逐像素SUM或ADD)融合不同层次的特征网格
Fully-connected Fusion
具备全连接融合层的 mask 预测分支
fc 位置敏感 , 具有适应不同空间位置的能力。fc 层可以 预测类不可知的背景、前景 mask。[1]
考虑到fc和卷积层之间的不同特性,论文是将这两种层的预测结果融合以达到更好的预测。
- conv1~4 3×3,256
- deconv 上采样2倍
- 短路 从 conv3 连接 fc , conv4_fc,conv5_fc , channel 减半 (减少计算量)
- mask大小 28×28
fc 产生 784×1×1
reshape 成和 FPN 预测的mask 相同的空间尺寸 - 相加 得到最终预测
通过消融实验发现:从 conv3 开始做 SUM 操作融合效果是最好的。
Problem
-
Augmented Bottom-up Structure 中 N i N_i Ni 过 conv 3 × 3 ,stride 2之后 add P i + 1 P _{i+1} Pi+1,这里的 add 是 element 还是 concat?
element
-
过全连接生成 784,1,1 , 怎么reshape?
reshape 成 28,28,1
References
[1] https://blog.csdn.net/u013010889/article/details/79485296
实例分割–(PANet)Path Aggregation Network for Instance Segmentation
Path Aggregation Network for Instance Segmentation解读