无卷积参考图像分割——ReSTR: Convolution-free Referring Image Segmentation Using Transformers

0.摘要

        参考图像分割是一项高级的语义分割任务,其中目标不是预定义的类别,而是通过自然语言进行描述。现有的大多数方法依赖于卷积神经网络,但是卷积神经网络在捕捉语言表达中实体之间的长距离依赖关系方面存在困难,并且对于建模两种不同模态之间的相互作用不够灵活。为了解决这些问题,我们提出了一种使用Transformer进行参考图像分割的第一个无卷积模型,名为ReSTR。由于ReSTR通过Transformer编码器提取了两种模态的特征,因此可以捕捉到每个模态内部实体之间的长距离依赖关系。此外,ReSTR通过自注意力编码器融合了两种模态的特征,从而在融合过程中实现了灵活和自适应的两种模态之间的交互。融合后的特征被馈送到分割模块中,根据手头的图像和语言表达自适应地工作。ReSTR在所有公共基准测试中进行了评估和比较,并且优于所有现有模型。

1.引言

        在最近几年中,语义分割在效果和效率方面取得了显著进展[4, 5, 15, 28, 33, 51, 52]。然而,将其应用于现实世界的下游任务仍然受限。由于该任务仅设计用于处理预定义的类别集合(例如“汽车”,“人”),语义分割模型很难处理未定义的类别和用户感兴趣的特定实体(例如“一辆红色法拉利”,“戴着蓝色帽子的男人”)。

        指代图像分割[12]研究旨在通过对给定的自然语言表达作为查询的图像区域进行分割,从而解决了上述限制。由于该任务不再受到预定义类别的限制,它可以实现各种应用,例如人机交互和交互式照片编辑。然而,指代图像分割比语义分割更具挑战性,因为它要求理解语言表达中表达的个体实体及其关系(例如“一辆在建筑物旁边的出租车后面的汽车”),并在分割过程中充分利用这种结构化和关联信息。因此,该任务的模型应能够捕捉两种模态中语义实体之间的相互作用,并对两种不同模态进行联合推理。

        现有的指代图像分割方法[3, 11, 12, 13, 14, 16, 22, 25, 31, 37, 46]分别采用了卷积神经网络(CNN)和循环神经网络(RNN)来提取视觉和语言特征。一般来说,这些特征通过应用于两个特征的连接的卷积层,也称为连接-卷积操作,被整合到一个多模态特征图中。在多模态特征图的基础上,最近的方法[11, 13, 14, 16, 46]进一步采用了注意力机制[40, 43],使特征图有效地捕捉语义实体之间的相互作用。最终的多模态特征被作为输入传递给分割模块。

        为了克服上述的限制,我们提出了第一个使用Transformer进行指代图像分割的无卷积模型,命名为ReSTR。它的整体流程如图1所示。首先,ReSTR通过Transformer编码器[40]提取视觉和语言特征。这两个编码器,即视觉编码器和语言编码器,分别以一组非重叠的图像块和词嵌入作为输入,提取它们的特征,并考虑到每个模态内的长程交互。通过同时使用Transformer处理两种模态,我们能够从特征提取的开始就捕捉到全局上下文,并统一了两种模态的网络拓扑[32]。 接下来,一个自注意力编码器将视觉和语言特征聚合成逐块的多模态特征。这个多模态融合编码器通过自注意力层实现了两种模态特征之间的复杂和灵活的交互。此外,融合编码器还将一个类别种子嵌入作为另一个输入。类别种子嵌入经过融合编码器的自适应转换,成为语言表达中描述的目标实体的分类器。

        最后,多模态融合编码器的输出,即逐块的多模态特征和自适应分类器,作为输入传递给分割解码器。解码器以粗到细的方式计算最终的分割图。自适应分类器首先作为分类器应用于每个多模态特征,以检查每个图像块是否包含目标实体的一部分。然后,通过一系列上采样和线性层,将粗糙的块级预测转换为像素级的分割图。由于强大的Transformer编码器,这个简单高效的解码器能够产生准确的分割结果,在四个公共指代图像分割基准上达到了最先进的水平。 总结起来,本工作的贡献有三个: • 我们的网络是第一个无卷积结构的指代图像分割架构。它通过Transformer捕捉视觉和语言模态之间的长程交互,并通过统一的网络拓扑来处理这两种不同的模态。 • 为了编码两种模态的细致理解,我们精心设计了带有类别种子嵌入的多模态融合编码器,这个嵌入被转换为适应性分类器,用于指代图像分割。 • ReSTR在四个公共基准上取得了最先进的水平,没有夸张的技巧。

图1. 我们的无卷积架构用于指代图像分割,使用Transformer(ReSTR)。它接受一组非重叠的图像块和词嵌入,并通过Transformer捕捉模态内和模态间的交互。然后,ReSTR使用类别种子嵌入生成一个自适应分类器,检查每个图像块是否包含目标实体的一部分。最后,一系列上采样和线性层以粗到细的方式计算像素级预测。 

2.相关工作

2.1.语义分割

2.2.参考图像分割

2.3.视觉Transformer

3.提出的方法

3.1.视觉和语言特征提取

3.2.多模态融合编码器

3.3.粗到细的分割编码器

4.实验

4.1.实验设置

4.2.与现有方法的比较

5.总结

猜你喜欢

转载自blog.csdn.net/ADICDFHL/article/details/132477589
今日推荐