《Adjacent-level Feature Cross-Fusion with 3D CNN for Remote Sensing Image Change Detection》论文笔记

论文:邻接层特征交叉融合与三维CNN用于遥感图像变化检测

作者作者
日期:2023.2.10

贡献点

  1. 提出了一种用于遥感图像变化检测的端到端三维卷积网络。与现有的特征融合策略不同,该网络利用三维卷积的内在融合特性,是变化检测领域的一种创新尝试。
  2. 在编码器和解码器之间设计了邻接级特征交叉融合(AFCF)模块。通过交叉融合相邻层特征,AFCF模块可以实现特征互补和更好的特征表示。
  3. 此外,还引入了密集跳过连接策略,提高了结果的像素级预测能力和变化对象的紧凑性。

总体架构
在这里插入图片描述

AFCF3D-Net采用标准的编解码器架构和一系列特征处理模块,主要包括以下几个部分:

  1. 3D特征编码器,3D特征编码器采用ResNet-50作为骨干,通过3D卷积进行扩展。三维特征编码器的目标是同时提取和融合双时间遥感图像的特征,其输出是双时间融合特征。
  2. AFCF模块,编码器与解码器之间建立AFCF模块,可实现编码器邻接级特征的交叉融合,将有价值的变化信息传递给解码器。此外,我们还引入了挤压激励模块,并对其进行了进一步改进,以适应所提出的变化检测网络。
  3. 解码器,采用密集跳过连接策略聚合多层特征,生成更精确的变化图。

<1> 3D特征编码器
在这里插入图片描述

采用一个膨胀的3D ResNet50作为骨干,用3D卷积取代了传统ResNet中的所有2D卷积。即,我们将大小为 3 * 3 的2D卷积滤波器替换为大小为 3 * 3 * 3 的3D卷积滤波器。此外,为了使三维卷积网络更容易收敛,将三维卷积滤波核分解为独立的空间和时间分量(见图3(a)),其滤波器大小分别为 1 * 3 * 3 和3 * 1 * 1 。前者在空间分量上进行特征提取,后者在时间分量上进行双时间图像的特征融合。

如图3(b)所示为将三维卷积转换为2+1维卷积的特征编码器过程,骨干的三维特征块的输出特征可以写成:
在这里插入图片描述
其中 Fi1 , Fi2 表示双时间图像三维特征切片,w1, w2, w3 表示三维滤波器的三时间维权重,* 表示二维卷积运算。由于三维卷积的内在融合特性,通过上述三维卷积的表述,可以有效地融合双时间图像的特征。双时间图像的不变特征通过共享滤波器 w2 保持其自身的公共属性。同时,在可学习权值分别为 w1 和 w3 的滤波条件下,双时间图像的特征被增强。

<2> 邻接层特征交叉融合
在这里插入图片描述

AFCF的结构如图4所示,AFCF连接编码器和解码器,AFCF的五个模块可以表示为,AFCFi ,0<=i<=4 。为了进一步说明,在 AFCF i , i ∈ {1,2,3 } 中通常有三个分支(即当前、以前和后续)。而 AFCF i, i ∈ {0,4} 只包含两个分支(即一个当前分支和一个相邻分支)。此外,从3D编码器获得的每个输入特征级的通道数首先使用通道缩减(CR)模块减少,将其通道减少到一个固定的更小的数量(即本文中的32),这可以减少计算负载和内存使用。具体来说,CR模块在执行CR时将各个层的初始通道数从{64,256,512,1024,2048}减少到{32,32,32,32}。

在交叉融合步骤中,前一个分支(即低级分支)和后续分支(即高级分支)分别通过下采样和上采样转换为当前分支的分辨率。这个过程可以表示为:
在这里插入图片描述
其中 f i-1, f i+1 分别是前一个分支和后续分支。F i-1 和 Fi+1 分别对应下采样特征和上采样特征。Down(.) 为2 stride的三维卷积下采样操作, UP(.) 为双线性插值实现的2倍上采样。然后它们都通过元素相加的方式合并到当前分支中。然后将得到的初步交叉融合特征输入到核3 * 3 * 3 的三维卷积块中。最后,AFCF中的改进挤压和激励(MSE)操作利用每个特征层上的融合特征,在邻接层特征交叉融合后校准各自的特征映射。此外,引入残差学习策略,将原始的当前分支特征与融合的邻接层特征相结合,增强了变化特征的表示能力。整个过程的表述如下:

在这里插入图片描述
其中 F i-1, F i, F i+1 分别是前一个分支,当前分支和后续分支的特征。F o i为多层次特征交叉融合结果。AFCFF i 表示三个分支的和,sum(.) 表示求和操作。MSE(.) 表示下面介绍的MSE模块。
在这里插入图片描述

本文中的编码器是3D的,特征张量是4D的。因此,一般的注意机制不能直接用于增强特征表示。受最流行的注意力模块挤压和引文(squeeze -and - dexcitation, SE)的启发,本文提出改进的挤压和引文(squeeze -and - dexcitation, MSE)模块来增强特征信息。如图5所示。我们假设特征映射为在这里插入图片描述
其中C、T、H和W分别降低了特征F的通道数、时间、高度和宽度。首先,将维度为C * T * H * W 的特征 F 重塑为维度为 (C * T) * H * W 的特征F’,将时间维度信息合并到信道维度中。随后,特征通过挤压和激励操作,产生通道特征向量1,2{,,,…,}C Tfv fv fv fv与C Tfv R。

然后,将提取的通道特征向量应用于特征映射F’ ,生成改进的特征。最后,将改进后的特征从 (C * T) * H * W 重新塑造为C * T * H * W 。整个过程制定如下:

在这里插入图片描述
其中F表示输入特征向量,Tran和Inv分别表示正变换和反变换操作。CAF表示改进的特性,表示逐元素的乘法。

<3> 采用密集跳过连接策略的特征解码器

密集的跳过连接机制可以聚合来自底层特征图的详细空间信息和来自高层特征图的抽象语义信息,从而保证解码器能够充分挖掘每个不同层次上获得的多尺度特征,增强变化检测的像素级预测能力。
在这里插入图片描述
图2©为了集成由AFCF模块生成的全量程特征图,集成的特征图被命名为F oi ,它是由第i个AFCF模块生成的。

更具体地说,我们以第4级特征解码器为例来说明如何集成特征映射。

首先,对分辨率较高的前3个低层次特征图(即 Fo1,F o2 ,和 Fo3 )分别采用与F o4 相同比例尺的下采样块序列进行下采样,对分辨率较低的高层次特征图(即 F o5)进行上采样,至与 F o4相同比例尺。然后,将下采样和上采样特征与4个 Fo 在时间维度上进行拼接。需要注意的是,对于下采样和上采样操作,每个特征映射在时间维度上的通道号都是相同的。连接的特性被命名为 CF 4 ,它在时间维度上的通道号是之前每个特性的5倍。此外,为了减少内存的使用,便于后续处理,我们设计了一种时间维降块time reduction (TR),可以减少时间维特征的通道数。第4层特征计算的过程可以概括为:
在这里插入图片描述
式中 TCat() 为时间维度上的特征拼接。 D() 和 U() 分别表示下采样和上采样操作。 MSE() 表示上面提到的MSE模块。 TR() 表示时间信道约简操作。 F4是由四级解码器聚合的特性。按照类似的程序,我们可以依次得到 F3、F2 和 F1。得到 F1 后,对1 * 1 * 1 卷积进行滤波,再加上一个sigmoid层,得到变化图。

实验结果
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40994007/article/details/129054370