文章目录

用于实例分割的并行监督掩码查询
归纳梳理

救命这知识漏洞递归死循环了…我已经两天没睡觉了❌翻译完完全看不懂啊sos，晚上一定要硬着头吧个人归纳写完！！！！

用于实例分割的并行监督掩码查询

在这里插入图片描述

图COCO测试开发中AP与FPS的对比。QueryInst在准确性和速度方面都优于当前最先进的方法。速度是使用单个Titan Xp GPU测量的。

0. 摘要

最近，基于查询的对象检测框架实现了与先前最先进的对象检测器相当的性能。然而，如何充分利用这样的框架来执行实例分割仍然是一个开放的问题。在本文中，我们提出了一种基于查询的动态掩码头并行监督驱动的实例分割方法QueryInst。
QueryInst的关键见解是利用对象查询中跨不同阶段的内在一对一对应关系，以及同一阶段的掩膜RoI特征和对象查询之间的一对一对应关系。该方法消除了基于非查询的多阶段实例分割方法中固有的显式多阶段掩码头连接和建议分布不一致问题。
我们在三个具有挑战性的基准上进行了广泛的实验，即COCO、CityScapes和YouTubeVIS，以评估QueryInst在实例分割和视频实例分割(VIS)任务中的有效性。具体来说，使用ResNet-101-FPN骨干网，QueryInst在COCO testdev上获得了48.1个box AP和42.8个mask AP，无论是box AP还是mask AP都比HTC高2个点，同时运行速度快2.4倍。对于视频实例分割，QueryInst在所有在线VIS方法中实现了最佳性能，并在速度和准确性之间取得了良好的平衡。

1. 介绍

实例分割是一项基本而又具有挑战性的计算机视觉任务，需要一种算法来为图像中每个感兴趣的实例分配带有类别标签的像素级遮罩。目前流行的实例分割方法都是基于高性能的对象检测器，并遵循多阶段的模式。其中，Mask R-CNN家族[21，24，30，5，9，42]是最成功的一个，其中感兴趣区域(RoI)例如分割是基于来自区域建议网络(RPN) [39]的盒级定位信息或前一阶段边界盒预测[4，5]通过区域池操作(例如RoIPool [22，18]或RoIAlign [21])提取的。最终实例掩码是通过将RoI特征输入到掩码头中获得的，掩码头是一个小型全卷积网络(FCN) [33]。
最近，DETR [7]提出将对象检测重新表述为基于查询的直接集合预测问题，其输入仅仅是100个学习对象查询。目标检测的后续工作[62，42，43，17，58，14]改进了这种基于查询的方法，并获得了与最先进的检测器(如级联RCNN [4])相当的性能。结果表明，基于查询的实例级感知是一个很有前途的研究方向。因此，使基于查询的检测框架能够执行实例分割是非常理想的。然而，我们发现，将级联掩码R-CNN [5]和HTC [9]中先前的成功实践直接集成到基于查询的检测器中用于实例掩码生成是低效的，级联掩码R-CNN[5]和HTC[9]是非基于查询的范例中最先进的掩码生成解决方案。因此，迫切需要一种适合基于查询的端到端框架的实例分割方法。
为了弥补这一差距，我们提出了QueryInst，一种基于查询的端到端实例分割方法，由动态掩码头上的并行监督驱动[25，44，42]。QueryInst的关键见解是利用对象查询中跨不同阶段的内在一一对应关系，以及同一阶段的掩膜RoI特征和对象查询之间的一一对应关系。具体来说，我们设置了相互并行的动态掩码头，它们根据相应的查询来转换每个掩码的特征，并在所有阶段同时进行训练。掩码梯度不仅流回主干特征提取器，还流回对象查询，在不同阶段，对象查询本质上是一对一相通的。查询隐含地携带多级掩模信息，该信息由动态掩模头中的RoI特征读取，用于最终掩模生成。不同阶段掩模头或掩模特征之间没有明确的联系。此外，在每个阶段，对象检测和实例分割子网络之间共享查询，从而实现跨任务通信，一个任务可以利用来自另一个任务的信息。我们证明了这种共享查询设计可以充分利用对象检测和实例分割之间的协同作用。训练完成后，我们扔掉所有中间阶段的动态面具头像，只使用最后阶段的预测进行推断。在这样的方案下，QueryInst在AP方面超越了最先进的HTC，同时运行速度更快。具体而言，我们的主要贡献总结如下:

在基于查询的端到端检测框架中，我们试图从使用并行动态掩码头的新角度来解决实例分割。这种新颖的解决方案使得这种新的框架在准确性和速度方面都优于成熟且高度优化的基于非查询的多阶段方案，例如级联掩码R-CNN和HTC(见图1)。具体来说，使用ResNet-101FPN骨干网[23，27]，QueryInst获得48.1 APbox和42.8 APmaskon COCO测试-dev，无论是box AP还是mask AP，都比HTC高出2个点，同时运行速度快2.4倍。没有花哨的东西，我们最好的模型在COCO测试开发上实现了50.4 APboxand和46.6 APmask。
利用共享查询和多头自注意设计，建立了基于查询的目标检测和实例分割的任务联合范式。这种范式在检测任务和分割任务之间建立了一种交流和协同，鼓励这两个任务相互受益。我们证明了我们的架构设计也可以显著提高目标检测性能。
我们通过简单地添加一个普通的跟踪头，将QueryInst扩展到视频实例分割任务(VIS) [57]任务。在Y ouTube-VIS数据集[57]上的实验表明，在相同的跟踪方法下，我们的方法比MaskTrack R-CNN [57]和sipsmask-VIS[6]有很大的优势。querynst-VIS甚至可以胜过设计良好的VIS方法，如STEm-Seg [1]和VisTR [53]。

3.相关著作

Query Based Methods 基于查询的方法。最近，出现了基于查询的方法来解决集合预测问题。具体来说，DETR [7]首先将基于查询的方法引入到对象检测中。可变形DETR [62]、UP-DETR [14]、ACT [58]和TSP [43]在DETR之上改进了性能。最近提出的稀疏神经网络[42]在基于神经网络[19，18，39]的检测器上建立了一个基于查询的集合预测框架。对于分割，VisTR [53]将基于查询的序列匹配和分割方法引入到视频实例分割中，为视频中的实例分割建立了一个完全端到端的框架。MaxDeepLab[49]提出了第一个无盒端到端全景分割模型，其中全局内存作为外部查询。跟踪器[35]和Transtrack [41]分别在DETR和可变形DETR上构建了基于查询的多对象跟踪器，并获得了与非基于查询的方法相当的结果。AS-Net [11]将基于查询的集合预测管道引入到人与对象的交互中，并获得了令人鼓舞的结果。尽管基于查询的集合预测方法被广泛应用于许多计算机视觉任务，但很少有人致力于构建一个成功的基于查询的实例分割框架。本文旨在实现这一目标。

Object Detection 物体检测。目标检测是一项基本的计算机视觉任务，旨在检测具有边界框的视觉目标。随着R-CNN [19]、快速R-CNN [18]和更快R-CNN [39]的提出，基于锚的方法[4，38，34，28，31]长期主导目标检测。centenet[60]和FCOS [45]建立了具有竞争检测性能的无锚检测器。近年来，随着DETR [7]的提出，基于查询的集合预测方法受到了广泛关注。可变形DETR [62]将可变形卷积[61]引入DETR框架，通过更快的训练收敛获得更好的性能。UP-DETR [14]将DETR扩展到无人监管的场景。ACT [58]和TSP [43]将自适应聚类模块和一种新的二分匹配方法引入DETR。稀疏的R-CNN [42]在R-CNN架构的基础上构建了一个基于查询的检测器，而OneNet [40]和DeFCN [50]是构建在onestage FCOS [45]之上的端到端检测器。在这项工作中，我们提出了一种基于查询的实例分割方法。

Instance Segmentation. 实例分段。实例分割是一项基本而又具有挑战性的计算机视觉任务，需要一种算法来为图像中每个感兴趣的实例分配带有类别标签的像素级遮罩。掩码RCNN [21]为fast R-CNN[18]检测器引入了全卷积掩码头。Casacde Mask R-CNN [5]简单地将Casacde R-CNN [4]与Mask RCNN结合起来。HTC [9]呈现交错执行和掩码信息流，并实现最先进的性能。除了基于R-CNN的方法外，YOLACT [3，2]、sipsmask[6]、CondInst [46]和SOLO [51，52]在一阶段框架的基础上构建了一阶段实例分割框架，实现了具有良好推理速度的可比结果。在基于粗糙集神经网络方法的基础上，我们提出了一个基于查询的实例分割框架。

3. QueryInst算法介绍

我们提出了QueryInst，一种基于查询的端到端实例分割方法。QueryInst由一个基于查询的对象检测器和六个由并行监控驱动的动态掩码头组成。我们的关键见解是在不同阶段的查询中利用内在的一对一对应关系。这种对应关系存在于所有基于查询的框架[47，15，37，8，7]中，无论具体的实例化和应用程序如何。QueryInst的整体架构如图2 ©所示。
在这里插入图片描述

图2:查询列表概述。红色箭头表示遮罩分支。请注意，QueryInst由6级并行组成，即t =
{1，2，3，4，5，6}。该图仅显示了2个阶段。

3.1 Query based Object Detector基于查询的对象检测器

QueryInst可以构建在任何基于多阶段查询的对象检测器上[7，62，42]。我们选择Sparse R-CNN [42]作为我们的默认实例化，它有六个查询阶段。图2 (a)中描绘了对象检测流水线，并且可以表述如下:
在这里插入图片描述

其中q∈rn×d注意到对象查询。n和d表示查询q的长度(数量)和维度。在阶段t，池操作符Pbox从FPN [27]的特征xFPN中提取当前阶段边界框特征xFPN，该特征xFPN在前一阶段边界框预测Bt 1的指导下。同时，多头自我注意模块MSAtis应用于输入查询Qt-1，以获得转换后的查询q∫t1。然后，box动态卷积模块DynConvbox t将xbox t和q∫t1a作为输入，并通过读取q∫t 1来增强xbox t，同时为下一级生成Qt。最后，增强的包围盒特征Xbox∫t被馈送到用于当前包围盒预测bt的盒预测分支Bt。

3.2 Mask Head Architecture 面罩头部结构

3.2.1 Vanilla Mask Head

例如掩模预测，我们首先采用Mask R-CNN [21]中广泛使用的香草掩模头架构设计作为我们的实例分割基线。模型架构如图2 (b)所示。基于第2节中描述的对象检测管道。3.1、掩码生成过程可以表示如下:
在这里插入图片描述
其中BTS是来自对象检测器的边界框预测。mask表示用于掩膜RoI特征提取的区域池操作符。指出掩模FCN头由四个连续的conv层、一个dconv层和一个1 × 1 conv层的叠层组成，用于掩模生成[21]。MTI是当前阶段掩码预测。
总的来说，这种香草设计类似于基于查询的框架中的级联掩码R-CNN[5]。但是，我们发现这种设计不如最初的级联掩模R-CNN有效。此外，在这种设计(图2 (b))的基础上建立遵循HTC [9]的显式掩码流只能带来适度的改进，代价是训练和推理速度都大幅下降。部分原因可能是我们框架中的查询数量远小于Cascade Mask RCNN和HTC中的建议数量，导致训练样本的可用性有限。

3.2.2 Dynamic Mask Head 动态掩模头

我们的目标是设计一个为基于查询的实例分割框架量身定制的掩码预测头。为此，我们建议利用并行监督驱动的动态掩模头来取代Sec中的常规设计。3.2.1.阶段t的动态掩模头由动态掩模卷积模块DynConvmask t(见图3) [42]和其后的香草掩模头Mt[21]组成。掩码生成管道重新制定如下:
在这里插入图片描述
值得注意的是，所提出的动态掩码头和普通掩码头之间的唯一区别是dynconvcmask t的存在。我们证明了dynconvcmask t能够(1)在并行掩码分支监督驱动的查询中实现每个掩码的信息流，以及(2)分别在以下两个子部分中实现联合检测和实例分割的通信和协同。实验验证了这两个性质的有效性。
在这里插入图片描述

图3:阶段t处的DynConvmask t的图示。xmask∫t由两个连续的conv层增强，其内核参数由q∫t1产生。

3.3 Per-mask Information Flow with Parallel Supervision 并行监督下的每掩码信息流

在基于查询的模型(如[7，62，42])中，模型为每个查询槽[7]学习不同的专门化，即qt[s]是同一第s个槽中前一阶段Qt 1[s]的转换和细化版本。此外，xmask t [s]对应于qt[s] [42]并由Qt[s][42]进行了细化。因此，这些框架中固有的不同阶段查询之间存在一一对应关系，同一阶段的掩膜RoI特征和对象查询之间也存在一一对应关系。
QueryInst由对动态掩码头的并行监督驱动，这充分利用了跨不同阶段的对象查询中固有的一对一对应关系。具体来说，我们设置了相互并行的动态蒙版头，根据相应的查询q∫t 1，在DynConvmask t中自适应地变换每个蒙版RoI特征xmask t，并在所有阶段同时训练。在DynConvmask t内部，查询充当内存，在前向通道中由mask RoI特性xmask t读取，在后向通道中由xmask t写入。
在训练期间，每个遮罩的信息(即遮罩梯度)不仅流回遮罩RoI特征xmask t，还流回对象查询q∫t 1，后者在不同阶段内在地一对一地相互关联。因此，每掩码信息流自然是通过利用基于查询的框架的固有属性来建立的，不需要额外的连接。训练完成后，掩码预测的信息存储在查询中。
在推断过程中，我们在5个中间阶段扔掉所有动态面具头，只使用最后阶段的预测进行推断。这些查询隐含地携带用于掩模预测的多阶段信息，该信息在最后阶段由掩模RoI特征xmask t在动态掩模卷积DynConvmask t中读取，用于最终掩模生成。
如果没有DynConvmask t，遮罩RoI特征和查询之间的链接就会丢失，不同阶段的遮罩头会被隔离。即使对所有掩码头应用并行监督，与掩码生成相关的信息也不能流入查询。在这种情况下，QueryInst退化为级联掩码R-CNN，所有阶段都有固定数量(即N)的建议。

3.4 Shared Query and MSA for Joint Detection and Segmentation用于联合检测和分割的共享查询和多尺度分析

在阶段t，多头自我关注MSAtis应用于查询Qt-1。msat将查询Qt 1投影到高维嵌入空间，其输出q∫t 1分别由动态box卷积DynConvbox t和动态掩码卷积DynConvmask t读取，以增强任务特定特性xbox t和xmask t。
在整个过程中，查询和MSA在检测和实例分割任务之间共享。检测和分割信息都通过MSA流回到查询中。这种任务联合范式在检测和分割任务之间建立了一种沟通和协同，鼓励这两个任务相互受益。在两个高度相关的任务的指导下，查询学习更好的实例级表示。在我们的实验中，我们观察到使用单独的查询或MSA会降低性能。

3.5 Comparisons with Cascade Mask R-CNN and HTC 与级联掩模的比较

Cascade Mask【级联掩码】 R-CNN [5]提出了一种多阶段架构，以较高的交集超过联合(IoU)阈值对后几个阶段进行重采样，并逐步细化区域建议的训练分布[4，5]。这种重新采样操作保证了在最后阶段有大量准确的本地化建议。尽管性能优于非级联同行，级联掩码R-CNN的有效性主要源于逐步完善的提案召回。然而，不同阶段的掩模头是隔离的，并且无论阶段如何，掩模头的输入特征总是来自相同的FPN特征。
为了减轻级联掩模的上述缺点，HTC [9]通过在不同阶段跨掩模头引入直接和明确的连接来改进级联掩模。当前阶段掩模特征与来自所有先前阶段的累积掩模特征相结合。等效地，最后一级的掩模头比第一级深3倍。因此，最终阶段掩模预测可以受益于更深的特征。建立直接的掩码信息流作为HTC可以在一定程度上缓解级联掩码的问题。然而，这种跨面具头的显式连接在不同的R-CNN阶段导致低效的训练和推断。
前面提到了非基于查询的实例分割范例。对于级联掩码R-CNN和HTC，在统计意义上细化了不同阶段的提案质量[4，5，9]。对于每一个阶段，训练样本的数量和分布都有很大的不同，不同阶段的每个单独建议没有明确和内在的对应关系[59]。此外，训练样本分布和推理样本分布之间也存在不匹配[48]。因此，在架构级引入直接连接对于不同阶段的掩模头明确学习对应关系是必要的[9]。
我们的方法没有直接解决上述问题，而是绕过了它们。对于QueryInst，跨阶段的连接自然是通过查询中固有的一对一对应来建立的。这种方法消除了显式多级掩码头连接和建议分布不一致的问题。我们表明，所提出的新范式在准确性和速度上都可以超过级联掩码。

3.6 视频实例分割的可视化查询

视频实例分割(VIS) [57]是与静止图像实例分割高度相关的任务，旨在检测、分类、分割和跟踪视频帧上的视觉实例。我们证明，只需在MaskTrack R-CNN基线中添加普通的跟踪头，就可以通过最小的修改轻松地将QueryInst扩展到VIS[57]。提出的模型被称为querynst-VIS，它可以在实时运行的同时以在线方式执行视频实例分割。总的训练和推理流水线保持与MaskTrack R-CNN相同。我们在具有挑战性的Y ouTube-VIS [57]基准上评估QueryInst-VIS，以证明其有效性。

4. 实验结果

5. 总结

在本文中，我们提出了一个高效的基于查询的端到端实例分割框架——query inst，该框架由动态掩码头的并行监督驱动。据我们所知，QueryInst是第一个基于查询的实例分割方法，它优于最先进的基于非查询的实例分割方法。大量研究证明，并行掩码监督可以在不影响推理速度的情况下带来很大的性能提升，而同时具有共享查询和MSA的动态掩码头自然会连接检测和分割两个子任务。我们希望这项工作能够加强对基于查询的框架的理解，并促进未来的研究。

[文献阅读1]翻译QueryInst