论文

论文题目：Remote Sensing Image Change Detection with Transformers

收录于：IEEE TGRS2021

论文地址：Remote Sensing Image Change Detection With Transformers | IEEE Journals & Magazine | IEEE Xplore

项目地址：GitHub - justchenhao/BIT_CD: Official Pytorch Implementation of "Remote Sensing Image Change Detection with Transformers"

Abstract

变化检测（CD）虽取得较大成功，但考虑到场景中物体的复杂性，高分辨率遥感CD仍然具有挑战性。具有相同语义概念的物体再不同的时间和空间位置可能表现不同的光谱特征。纯卷积的CD pipelines难以将长距离的concepts在时空上联系起来，非局部的自注意力方法通过对像素间的密集关系进行建模而显示出较好的性能，但计算较低效。

论文，提出了一中双时态图像Transformer（bitemporal image transformer，BIT），以便在空间-时间域内有效地对上下文信息进行建模。直觉是，兴趣变化的高层次概念可以用几个视觉单词来表示，即语义标签。

为实现这一点，论文将双时态图像表达为几个标签token，并使用Transformer编码器在紧凑的基于token的时空中建模上下文。然后，学习到的富含全局信息的token被反馈到像素空间，通过Transformer解码器细化原始特征。

论文将BIT纳入一个基于深度特征差分（deep feature differencing-based）的CD框架中。在3个数据集上（LEVIR-CD、WHU-CD、DSIFN-CD）进行大量实验，性能超越当前sota。基于BIT的模型性能优于纯卷积baselines，而计算成本和模型参数仅比纯卷积baselines低3倍。

实验结果：

INTRODUCTION

变化检测（CD）的目标是通过比较在不同时间拍摄的同一区域的共同注册图像，为该区域的每个像素分配二进制标签（即变化或未变化）。

高分辨率的光学遥感图像在CD任务上具有挑战性，表现在两方面：①场景中物体的复杂性；②不同的成像条件。导致具有相同语义概念的目标在不同时间和不同空间位置（时空）表现不同的光谱特征。

如图所示。如图1（a）所示，场景中的建筑对象具有不同的形状和外观（黄色框），并且由于照明变化和外观改变，同一建筑对象在不同时间可能具有不同的颜色（红色框）。为了识别复杂场景中的兴趣变化，增强CD模型需要，①识别场景中兴趣变化的高级语义信息，②区分真实变化和复杂的无关变化。 图（b）高级图像特征，BIT使用时空中的全局信息来增强原始特征。增强特征与原始特征间的差异图（c）显示建筑区域在时空上的特征持续改善。

时空的全局信息对于识别高分辨率遥感图像中的变化区域很重要，现常使用卷积（局限于RF接收域）和注意力机制（计算量较大）来对全局信息建模。

为应对上述挑战，论文引入双时态图像转换器（BIT）来高效地建模双时态图像中的全局语义信息，以提高CD的性能。直觉是，兴趣变化的高级概念可以用几个视觉单词来表示，即语义标签。BIT没有在像素空间中建模像素之间的密集关系，而是将输入图像表示为几个高级语义标记，并在基于标记的紧凑时空中建模上下文。然后，利用每个像素和语义标记之间的关系来增强原始像素空间的特征表示。

Contribution

本文，提出双时态图像Transformer（BIT）分别对两张图像中的全局信息建模，使用语义标签来突出细化变化区域。

提出一种基于Transformer的遥感图像变化检测方法，将Transformer结合到CD任务中。
没有在像素空间对元素对间的密集关系建模，而是用语义标签表示输入图像特征，基于这些标签进行建模。（计算量减少）
在3个CD数据集实验（LEVIR-CD、WHU-CD、DSIFN-CD）与多种方法比较，效果显著。

Deep Learning based Remote Sensing Image Change detection

遥感图像CD方法有两个主流：

两阶段：先分别对两个不同时间的图像进行分类，再将分类结果进行对比。
单阶段：直接将两个不同时间的图像进行融合，生成一个变化图。

本文的主要目的是以高效的方式学习和利用双时态图像中的全局语义信息，以提高CD的性能。

Transformer-based Model

由于transformer的强大表示能力，基于transformer的模型在各种视觉任务中表现出与卷积模型相当甚至更好的性能。

本文探讨了二进制CD任务中transformer的潜力。本文提出的基于BIT的方法在时空中建模全局语义关系方面是高效的，有利于兴趣变化的特征表示。

EFFICIENT TRANSFORMER BASED CHANGE DETECTION MODEL

Overview

基于BIT的模型的整体过程如图2所示。

将BIT合并到正常的变化检测管道中，因为希望利用卷积和变压器的优势。模型从几个卷积块开始，获得每个输入图像的特征图，然后将它们输入BIT，生成增强的双时态特征。最后，生成的特征映射被馈送到预测头以产生像素级的预测。关键点是BIT学习并关联高级语义概念的全局背景，以及反馈，以受益于原始的双时态特征。

将BIT合并到基于深度特征差分的CD框架中。流程如下：

首先，利用CNN主干网（ResNet）用于从输入图像对中提取高级语义特征。

利用空间注意将两个不同时间特征图转换为一组紧凑的语义标签。

再使用transformer编码器在两个标签集中对全局信息进行建模。

生成的含有全局信息丰富的标签由连体transformer解码器重新投影到像素空间，以增强原始像素级特征。

最后，从两个细化的特征图中计算特征差异图像（Feature Difference Images，FDI），然后将它们输入到浅层CNN中，以生成像素级的变化预测。

BIT有三个主要组件：

Semantic Tokenizer 连体语义标记器，它将像素分组为概念，为两个不同时间输入图像生成一组紧凑的语义标记；
Transformer Encoder 转换器编码器，它在基于标签的时空中对语义概念的全局信息建模；
Siamese Transformer Decoder 连体转换器解码器，它将对应的语义标签投射回像素空间，以获得两个不同时间图像的细化特征图。

基于BIT的变化检测模型的推理细节如算法1所示。

网络过程可视化

Semantic Tokenizer

输入图像中兴趣的变化可以用几个高级概念来描述，即语义标记。

将图像特征X1和X2转换为一组紧凑的语义标签T1和T2。

Semantic tokens Ti计算公式：

使用连体语义标记器从两个不同时态的特征图中提取紧凑的语义标签。与NLP中的标记器类似，它将输入句子拆分为几个元素（即单词或短语），并用标记向量表示每个元素，语义标记器将整个图像拆分为几个可视单词，每个对应一个标记向量。如图3所示，为了获得紧凑的标签，该标记发生器学习一组空间注意力图，以在空间上将特征映射集中到一组特征，即标签集。

输入：图像特征X1，X2
输出：语义标签T1，T2

流程：

先逐点卷积生成L（=4）个语义组；
再对每个语义组进行softmax，计算注意力图；
最后，使用注意力图与原图特征计算每个像素的加权平均和，得到大小为L的语义标签。

Transformer Encoder

对两个语义标签集T1和T2进行全局信息建模，得到丰富的语义标签集T1_new和T2_new。

在为输入的双时态图像获得两个语义标记集T1、T2之后，使用transformer编码器对这些标记之间的上下文信息进行建模。

动机是，transformer可以充分利用基于token的时空中的全局语义关系，从而为两个不同时态图像生成丰富的语义标签表示。

输入：语义标签集T1、T2
输出：含有丰富信息的语义标签集T1_new,T2_new

流程：如4（a）所示。

首先，将两组令牌连接成一个令牌集T∈ R_2L×C；
并将其馈入变压器编码器以获得新的标签集T_new；
最后，将标签集分成两组Ti_new（i=1，2）。

transformer编码器由多层自注意力块（MSA）和多层感知器（MLP）块组成。

MSA并行执行多个独立的注意头，并将输出拼接起来，然后进行投影以得到最终值。MSA的优点是，它可以在不同的位置联合处理来自不同表示子空间的信息。
MLP块由两个线性转换层组成，中间有一个GELU激活。输入和输出的维数为C，内层的维数为2C。

Transformer Decoder

将高级语义信息表示映射到像素空间，获得像素级的特征。

分别利用含有丰富语义信息的标签T1_new和T2_new，对原始特征X1和X2进行特征细化，获得细化后的特征X1_new和X2_new。

已经为两个不同时间的图像获得了两组全局信息丰富的标签Ti_new（i=1,2）。这些富含全局信息的标记包含紧凑的高级语义信息，很好地揭示了兴趣的变化。现需要将概念的表示投影回像素空间，以获得像素级的特征。

为了实现这一点，使用改进的连体变压器解码器来细化两个不同时间序列的图像特征。

输入：含有丰富信息的语义标签集T1_new,T2_new ;CNN骨干提取的图像特征X1，X2
输出：细化后的特征X1_new,X2_new

如图4（b）所示。给定原始特征序列X1和X2，变压器解码器利用每个像素和标签集Ti_new（i=1，2）之间的关系以获得细化特征Xi_new。将Xi的像素作为query，标签tokens作为key和value。

每个像素都可以由紧凑的语义标记组合来表示。

transformer解码器由MA（Multi-head Cross-Attention）和MLP组成。移除MSA模块（query、key、value从相同的输入序列取得），用MA模块取代（query来自图像原始特征，key和value来自token标签Ti_new）。

Network Details

CNN骨干网：ResNet18。

BIT：transformer encoder（1个）和decoder（8个）的数量，MSA和MA中的head数是8。语义标签长度L是4。

Prediction head（预测头）：先计算两个细化后的特征图Xi_new和X2_new的特征差分，再绝对值化，再用FCN进行融合生成预测的变化概率图。

Loss函数：交叉熵损失。

EXPERIMENTAL RESULTS AND ANALYSIS

Experimental setup

3个数据集：LEVIR-CD、WHU-CD、DSIFN-CD。

BIT模型：

实验细节：

评价指标：F1、IOU、OA、Precious、Recall

Comparison to state-of-the-art

方法

包括三种纯粹基于卷积的方法（FCEF、FC Siam Di、FC Siam Conc）和四种基于注意力的方法（DTCDSCN、STANet、IFNet和SNUNet）。

实验结果

可视化

Model efficiency and effectiveness

增加BIT的增益大于卷积。
计算的复杂度和参数量都远低于以往的方法。

Ablation studies

Context modeling 、Ablation on tokenizer、Ablation on transformer decoder

对BIT中的3个主要组件（TE（transformer encoder）、T（tokenizer）、TD（transformer decoder））进行实验，分别验证了其有效性。

Effect of position embedding

将学习到的位置嵌入（PE）添加到transformer中，encoder和decoder，观察其性能。

Parameter analysis

token length L

语义标签集的长度L，设置为4（最优）。

Depth of transformer

Transformer encoder和decoder的深度：

Transformer encoder depth（E.D.）和 Transformer decoder depth（D.D.）

最优：E.D.=1 , D.D.=8 。

Token visualization

Network visualization

网络过程可视化

DISCUSSION

同一类别像素在整个时空中的高反射率变化给模型识别感兴趣的对象和区分真实变化带来困难。

时空背景建模对于增强特征识别能力至关重要。文中提出的BIT模块可以有效地在基于token的时空中建模上下文信息，并使用上下文丰富的token来增强原始特征。

CONCLUSION

本文提出了一种基于变换器的遥感图像变化检测模型。

BIT学习一组紧凑的标记来表示高级概念，这些概念揭示了双时态图像中存在的兴趣变化。
利用transformer在基于token的时空中关联语义概念。大量实验验证了该方法的有效性。
用BIT替换ResNet18的最后一个卷积阶段，获得了显著的精度改进（LEVIR-CD/WHU-CD/DSIFN-CD测试集F1分数的1.7/2.4/10.8分），计算复杂度降低了3倍，模型参数减小了3倍。实验证据表明BIT比单纯的卷积模更有效。
仅使用一个简单的CNN主干（ResNet18），方法就优于其他几种采用更复杂结构的CD方法，如FPN和UNet。
在三个CD数据集上，显示比最近四种基于注意力的方法在效率和准确性方面更好的性能。

【论文笔记】Remote Sensing Image Change Detection with Transformers

论文

Abstract

INTRODUCTION

Contribution

Deep Learning based Remote Sensing Image Change detection

Transformer-based Model

EFFICIENT TRANSFORMER BASED CHANGE DETECTION MODEL

Overview

网络过程可视化

Semantic Tokenizer

Transformer Encoder

Transformer Decoder

Network Details

EXPERIMENTAL RESULTS AND ANALYSIS

Experimental setup

Comparison to state-of-the-art

方法

实验结果

可视化

Model efficiency and effectiveness

Ablation studies