PolarMask: Single Shot Instance Segmentation with Polar Representation 极坐标实例分割网络论文精读与解析

论文来源

@article{2020PolarMask,
title={PolarMask: Single Shot Instance Segmentation With Polar Representation},
author={ Xie, E. and Sun, P. and Song, X. and Wang, W. and Luo, P. },
journal={2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2020},
}

论文聚焦的问题

  • 实例分割问题:预测出每个实例的位置、标签。
  • 传统的方法(如Mask-RCNN):边界框检测、框内语义分割。
  • 研究趋势:设计更简单的边界盒检测器、实例识别方法。
  • 区别于传统方法的新思路:这些方法是在像素级别上进行二分类的掩膜预测,而不是通过预测轮廓的方式。但在理论上,如果能够预测出轮廓,那么可以有效地恢复掩膜。轮廓可以由关键点的列表表示,这些点的坐标可以是笛卡尔坐标,也可以是极坐标。
  • 目标:设计一个简单的掩模预测模块,该模块可以轻松插入许多现成的检测器,从而实现实例分割。

相关工作

两阶段实例分割

两阶段实例分割通常将该任务描述为“先检测边界框、然后在每个区域内分割”的范例。提到了FCIS、Mask RCNN系列、Mask Scoring R-CNN,性能好、但效率低。

一阶段实例分割

深度分水岭变换、InstanceFCN、YOLACT、TensorMask、ExtremeNet。

极坐标相关工作

  • 首次被用于检测两类细胞
  • ESESeg使用极坐标建模实例,但性能不如这篇文章,作者说原因在于设计不同,PolarMask不止极坐标表示,因此更为简单高效

论文的主要贡献

主要的贡献在于:

  • 提出了一种基于极坐标表示的实例分割方法:PolarMask。
    • 这一方法的特点有:
      • 极坐标原点用于表示对象的中心。
      • 轮廓中的点由角度与距离决定。
      • 天然地具有方向性,与预测轮廓的需求相吻合。
    • 在这一方法中,将实例分割问题分为两个并行任务:
      • 通过实例中心分类;
      • 在极坐标下进行密集距离回归预测实例轮廓。
        • 这一方法具有简单、高效的优点。
  • 提出了两种优化方法,用于优化高质量中心样本的采样和密集距离回归,它们分别是:
    • 极坐标中心度和极坐标IoU损失来处理高质量的采样中心示例。
    • 密集距离回归优化,改进了FCOS中的中心点概念。
  • 第一次实现了与边界框检测相同复杂度的实例分割。与那些涉及多尺度训练和更耗时的方法相比,这种简单灵活的方法具有竞争力。
    具体来说,这篇文章提出了PolarMask,将实例分割表述为极坐标下的实例中心分类和密集距离回归。该模型获取输入图像,并预测从采样的正位置(实例中心的候选位置)到每个角度的实例轮廓的距离,合并后得到最终的掩码。作者指出,PolarMask可以视作FCOS的推广,在FCOS中,边界框可以被视为只有4个方向的最简单掩码。

新方法

PolarMask的组成

主干网络、特征金字塔网络和两个或三个特定于任务的头(存在与否具体取决于是否预测边界框)。下图就是两个头部,分别分类、距离回归。
在这里插入图片描述

主干与特征金字塔与FCOS中的一致。

极坐标掩码分割方法

  • 首先是极坐标表示。给定掩码,选定中心点,之后设定角度间隔(超参数),均匀地发射出N条射线,对轮廓上的点进行采样。所以需要预测的是每个光线的长度。所以说极坐标分割等于实例中心分类与密集距离回归。
  • 怎样选择实例中心?实验表明选择质心更好。
  • 定义中心样本:选定中心之后,落在中心附近区域的样本都是中心样本。实际上是对质心作为实例中心1的修订,引入更多候选点。
  • 距离回归:如果一条射线与轮廓有多个交点,选择长度最大的一条;如果没有交点,那么设置为最小值。
  • 损失平衡问题:因为回归损失(密集距离回归)和分类损失之间的不平衡,所以提出了极坐标IoU损耗。
  • 掩码的合并:网络输出分类置信度(01)与中心度(01),二者相乘得到最终的置信度。置信度阈值设置为0.05。将所有级别的掩码预测结果合并,然后使用NMS(计算掩码的bounding box的IoU,NMS的阈值为0.5)。

极坐标中心度

动机:抑制低质量的检测对象,而不加入任何超参数(已证明有效)
直接地,使最大距离与最小距离更接近的结果的权重更高。
在这里插入图片描述

将中心度与分类置信度相乘,作为最终的置信度,然后使用NMS。

极坐标IoU损失

其实就是交并比,只是转换成了极坐标形式。
连续形式:
在这里插入图片描述

离散形式+简化+丢弃平方+取负对数:
在这里插入图片描述

优点:

  • 它是可微的,支持反向传播;而且很容易实现并行计算,从而促进快速训练过程。
  • 从整体上预测回归目标。
  • 自动在密集距离预测的分类损失和回归损失之间保持平衡。

猜你喜欢

转载自blog.csdn.net/qq_41112170/article/details/126772296