Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

摘要

本文提出了一种新的基于Transformer的框架，将特定于类的对象定位映射学习为弱监督语义分割(WSSS)的伪标签。
标准视觉Transformer中一个类Token 的参与区域可以被利用来形成一个类不确定的定位映射
本文研究了Transformer模型是否也可以通过学习Transformer中的多个类Token 来有效地捕获特定于类的注意力，以进行更具鉴别性的对象定位。

本文提出了一个Multi-class Token Transformer ，称为MCTformer，它使用多个类Token 来学习类Token 和patch Token 之间的交互。MCTformer可以成功地从对应的不同类token 的 class-to-patch attentions生成类区分对象定位图。

作者还建议使用patch级的成对affinity关系，这是从patch到patch Transformer中提取的，以进一步细化局部图。此外，所提出的框架被证明完全补充了类激活映射(CAM)方法，在PASCAL VOC和MS COCO数据集上获得了非常出色的WSSS结果。这些结果强调了类token对于WSSS的重要性。

在这里插入图片描述
图(a)在之前的vit中，只有一个类token(红色方框)用于从patch token(蓝色方框)中聚合信息。与类token相对应的学习patch attention生成一个类不可知的定位映射。
(b)提议的MCTformer使用多个类token来学习类token和patch token之间的交互。学习到的不同类token的类到patch attention生成特定于类的对象定位映射。

本文方法

MCTformer-V1

在这里插入图片描述
首先将输入的RGB图像分割并转换为补丁标记序列。我们建议学习C个额外的类token，其中C是类的数量。C类token与patch token连接，并添加位置嵌入(PE)，然后通过连续的L变压器编码层。

最后，输出C类token用于通过平均池生成类分数。将最后K层和多头注意力聚集在一起，生成最终的注意图，从中我们可以分别从类到patch和patch到patch的注意中提取特定于类的对象定位映射和patch级的成对亲和映射。patch级的成对亲和可以用于细化特定类的注意力图，以生成改进的对象定位图

MCTformer-V2

在这里插入图片描述
在MCTformer-V1中引入了CAM模块
CAM模块由卷积层和全局平均池(GAP)层组成。
将来自最后一个转换器编码层的经过reshape的输出patch token作为输入，并输出类分数
对于MCTformer-V1，我们也使用输出类token来生成类分数。因此，通过将两种分类损失分别应用于两类预测，优化了整个模型。