【实例分割系列:二】PANet 论文 笔记解析 Path Aggregation Network for Instance Segmentation

2018 CVPR
COCO2017/CityScapes instance segmentation 第一

Instance Segmentation

Path Aggregation Network for Instance Segmentation
代码地址

Mask R-CNN 中的信息传播 优化

Introduce

解决问题:

  • 低层级的特征对于大型实例识别很有用, 最高层级特征和较低层级特征之间的路径长
  • 每个建议区域都是基于 从一个特征层级池化 得到的 特征网格而预测的,此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用,这个流程还有进一步优化的空间
  • mask 预测仅在单个视野上执行,无法获得更加多样化的信息

改进

  • 缩短信息路径和用低层级的准确定位信息增强特征金字塔,创建了自下而上的路径增强
  • 为了恢复每个建议区域和所有特征层级之间被破坏的信息,作者开发了适应性特征池化(adaptive feature pooling)技术

可以将所有特征层级中的特征整合到每个建议区域中,避免了任意分配的结果。

  • 全连接融合层:使用一个小型fc层用于补充mask预测

Augmented Bottom-up Structure

改动原因:

  • low-level的feature是很利于定位用的,虽然FPN中P5也间接得有了low-level的特征,但是信息流动路线太长了如 红色虚线 所示 (其中有 ResNet50/101很多卷积层 )

  • 本文在 FPN 的 P2-P5 又加了 low-level 的特征,最底层的特征流动到 N2-N5 只需要经过很少的层如绿色需要所示 (仅仅有几个降维 [3×3 ,stride 2 ]的卷积)

以ResNet作为基础结构,使用 P 2 , P 3 , P 4 , P 5 {P_2,P_3,P_4,P_5 } P2,P3,P4,P5 表示FPN生成对应的特征层次。 增强路径从 P 2 P_2 P2 逐渐接近 P 5 P_5 P5

每个构建块通过侧向连接将较高分辨率的 N i N_i Ni 和模糊的$P_{i+1} $ 连接到一起,生成新的特征图 N i + 1 N_{i+1} Ni+1

  • N 2 N_2 N2 就是 P 2 P_2 P2,没有做任何处理。

  • N i N_i Ni

    • 经过 conv 3 × 3 ,stride 2
      (reduce the spatial size)
  • element-wise add P i + 1 P _{i+1} Pi+1

  • conv 3 × 3

注: 所有channel和FPN中一致P2-P5, N2-N5都是256。

每个候选区域的特征网络是从新生成的 N 2 , N 3 , N 4 , N 5 {N2,N3,N4,N5} N2,N3,N4,N5 上池化生成的

Adaptive Feature Pooling

在FPN中,依据候选区域的大小将候选区域分配到不同特征层次。这样小的候选区域分配到low-level,大的候选区域分配到high-level。

  • high level
    Semantic
  • low level
    location

无论是high还是low的feature都有用。
对于每个候选区域,我们提出了池化来自所有层次的特征,然后融合它们做预测,这称之为adaptive feature pooling(自适应特征池化).

  • 对于每个候选区域,我们将其映射到不同特征层次,如图(b)深灰色区域
  • 使用 ROIAlign 池化来自不同层次的特征网格
  • 再使用融合操作(逐像素SUM或ADD)融合不同层次的特征网格

Fully-connected Fusion

具备全连接融合层的 mask 预测分支

fc 位置敏感 , 具有适应不同空间位置的能力。fc 层可以 预测类不可知的背景、前景 mask。[1]

考虑到fc和卷积层之间的不同特性,论文是将这两种层的预测结果融合以达到更好的预测。

  • conv1~4 3×3,256
  • deconv 上采样2倍
  • 短路 从 conv3 连接 fc , conv4_fc,conv5_fc , channel 减半 (减少计算量)
  • mask大小 28×28
    fc 产生 784×1×1
    reshape 成和 FPN 预测的mask 相同的空间尺寸
  • 相加 得到最终预测

通过消融实验发现:从 conv3 开始做 SUM 操作融合效果是最好的。

Problem

  • Augmented Bottom-up Structure 中 N i N_i Ni 过 conv 3 × 3 ,stride 2之后 add P i + 1 P _{i+1} Pi+1,这里的 add 是 element 还是 concat?

    element

  • 过全连接生成 784,1,1 , 怎么reshape?

    reshape 成 28,28,1

References

[1] https://blog.csdn.net/u013010889/article/details/79485296
实例分割–(PANet)Path Aggregation Network for Instance Segmentation
Path Aggregation Network for Instance Segmentation解读

猜你喜欢

转载自blog.csdn.net/qq_31622015/article/details/101015621
今日推荐