STANet基于时空自注意力的神经网络--变化检测模型

STANet基于时空自注意力的神经网络检测模型
《A spatial-temporal attention-based method and a new dataset for remote sensing image change detetion》解读

网络架构

在这里插入图片描述
该网络结构大体上为暹罗神经网络模型,首先两幅图像经过权重共享的特征提取网络(b),得到提取后的特征x。
然后x经过论文提到的时空自注意力模块,得到特征图Z,之后经过双线性插值,将特征图z恢复到与源图像大小一致。最后经过度量模块得到最终的变化检测结果。下面分开来讲每一模块。

特征提取器

论文中特征提取器使用的网络架构为resnet18,去掉了最后的全连接层和全局池化层。因为浅层特征能够捕获较好的细节但是缺乏较好的语义信息,而深层特征能够较好的捕获语义信息,但是对于细节信息不能较好捕捉。因此在论文中,作者将每一个block块输出的特征图经过一个1x1的卷积得到对应的特征图。然后将2,3,4block的特征图大小经过上采样都resize为block1的特征图大小,最后将四组特征图拼接起来,通过3x3的卷积和1x1的卷积得到输出特征图X
在这里插入图片描述

自注意力机制

在了解自注意力机制之前,首先要了解协方差的概念,方差描述的是单个随机变量与其均值之间的偏差,而协方差描述的是两个随机变量之间的相似性,如果两个随机变量的分布相似,那么他们的协方差就会很大,否则,他们的协方差就会很小,如果我们将feature map中的每一个像素作为一个随机变量,计算所有像素之间的配对协方差,我们可以根据每个预测像素在图中与其他像素之间的相似性来增强或减弱每个预测像素的值。在训练和预测时使用相似的像素,忽略不相似的像素,这种机制叫做自注意力机制。
在这里插入图片描述
首先输入高度为H,宽为W的特征图X,然后将X reshape为三个一维向量A,B,C.将A和B相乘得到大小为HWXHW的协方差矩阵,最后用协方差矩阵和C相乘,得到D,并对他进行reshape,得到输出特征图Y,并与输入X进行残差连接,这里D中的每一项都是输入X的加权和,权重是像素对彼此之间的协方差。

时空自注意力模块(BAM)

在这里插入图片描述
query张量、key张量和value张量分别由输入特征张量通过三个不同的卷积层得到,Attention机制就是将一个query张量和一组key-value向量对映射为一个输出张量。输出张量由value向量的加权和计算得出,其中分配给每个value向量的权重由query和对应的key张量计算相关性(similarity matrix)计算得出
在这里插入图片描述
F(x)为残差函数
在这里插入图片描述
A为协方差矩阵,也就是相似权重。

多尺度金字塔注意力模块(PAM)

在这里插入图片描述
这个模块相对简单,只是将BAM与多尺度金字塔结构相结合,捕获浅层和深层特征,能够提高识别细节的能力。

双线性插值

经过PAM得到特征图z之后,z会经过双线性插值将图像恢复到输入图像大小。

图像插值

图像插值是基于模型框架下,从低分辨率图像生成高分辨率图像的过程,用以恢复图像中所丢失的信息。
在这里插入图片描述

双线性插值

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

度量模块损失函数LOSS

该损失为BCL损失,目的是让不变的像素尽可能的缩小,变化像素尽可能地变大
在这里插入图片描述
其中,M为真实label,D为距离图。m为边界,设置为2
在这里插入图片描述
这两个为权重系数,目的是为了平衡损失。
在这里插入图片描述
在训练模块中,我们经过度量模块训练像素得到较好的损失函数,在测试时,我们得到距离图之后,根据损失函数定义阈值,通过阈值法得到最后的变化检测结果,论文中设置为1.

模型测试

###注意力机制
在这里插入图片描述
注意力模块能够捕获语义相似度和长期的时空依赖关系

消融实验

在这里插入图片描述
模型对光照和配准误差具有较好的包容性。

Supongo que te gusta

Origin blog.csdn.net/weixin_43916138/article/details/121125767
Recomendado
Clasificación