高分辨率遥感图像语义分割-day2

摘要
一、引言
二、方法
三、实验和结果
四、讨论
五、结论

摘要

最近，监督深度学习在遥感图像（RSI）语义分割中取得了巨大成功。
然而，监督学习进行语义分割需要大量的标记样本，这在遥感领域是很难获得的。
自监督学习（SSL）是一种新的学习范式，通过预训练大量未标记图像的通用模型，然后在具有极少标记样本的下游任务上对其进行微调，可以解决此类问题。对比学习是SSL的一种典型方法，可以学习一般的不变特征。
然而，大多数现有的对比学习方法是为分类任务设计的，以获得图像级表示，这对于需要像素级区分的语义分割任务可能是次优的。
因此，我们提出了一种全局风格和局部匹配的对比学习网络（GLCNet）用于RSI语义分割。
具体来说，首先，全局风格对比学习模块用于更好地学习ImageLevel表示，因为我们认为风格特征可以更好地表示整体图像特征。
其次，设计了局部特征匹配对比学习模块，学习局部区域的表示，有利于语义分割。我们评估了四个RSI语义分割数据集，实验结果表明，我们的方法在大多数情况下优于最先进的自监督方法和ImageNet预训练方法。源代码可以在https：//github.com/geox-lab/g-rsim.中找到。

一、引言

传统的监督学习对数据集的要求很高，没有用到大量的未标注数据，因此就用到了自监督学习来进行语义分割。
在这里插入图片描述
自监督学习（SSL）提供了一种新的方法，如图1所示，它首先通过设计自监督信号从未标记的图像数据中学习知识，然后将其传输到下游任务，在具有有限数量标记样本的下游任务上实现与监督学习相当的性能。虽然RSI无法获得大量标记数据，但可以轻松访问覆盖全世界的具有极大多样性和丰富性的未标记图像数据，并且由于未标记图像数据中包含的信息比稀疏标签丰富得多，我们可以期望通过SSL潜在地学习更多的常识。
本文将对比学习的方法引入RSI语义分割。在预训练阶段，我们使用对比学习来增强样本在无标签数据上的一致性，以学习通用遥感视觉模型（G-RSIM）。G-RSIM增强了不变性，例如照明不变性、旋转不变性和尺度不变性。其次，现有的即时对比学习主要针对图像分类任务，只关注全局表示的学习。然而，RSI语义分割任务的全局特征学习和局部特征学习之间存在平衡：从全局表示的角度来看，由于时间（春季、夏季、秋季和冬季）、天气、传感器等方面的差异，RSI具有整体差异。；从局部表示的角度来看，像素级语义分割需要更多的局部信息[44]。因此，我们提出了全局风格和局部匹配对比学习网络（GLCNet）框架，其中全局风格对比学习模块侧重于全局表示，局部匹配对比学习模块用于学习像素（局部）级特征

本文的主要贡献总结如下：

我们将自我监督对比学习应用于RSI语义分割任务，并在多个数据集上进行了验证。该模型可以直接从未标记图像中学习特征，以指导下游具有有限标注的语义分割任务。
我们提出了一种新的自监督对比学习框架，即GLCNet，该框架侧重于平衡RSI语义分割任务中的全局和局部特征学习。
我们在两个公共数据集和两个真实数据集上评估了我们提出的方法。实验结果表明，该方法优于其他自监督方法。在上游和下游数据集不是高度相似的情况下，它也优于监督学习方法。

二、方法

SSL 提供了一种新的范式，可以直接从大量现成的未标记数据中学习潜在有用的知识，然后将其转移到下游任务以实现更好的性能，尤其是在标记样本有限的情况下。在我们的工作中，下游任务是 RSI 的语义分割，因此，我们专注于为 RSI 的语义分割设计一个自监督模型。在本文中，我们介绍了对比学习来学习一般不变表示。同时，针对语义分割任务的特点，我们提出了GLCNet自监督方法，
在这里插入图片描述

如图2所示。GLCNet自监督方法主要包含两个模块。

全局风格对比学习模块主要考虑到现有对比学习中使用的全局平均池化生成的特征并不能很好地替代图像的整体特征。因此，引入更能代表图像整体特征的风格特征来帮助模型更好地学习全局表示。
本地匹配对比学习模块的提出主要有以下两个原因。首先，在语义分割数据集中，单幅图像中的土地覆盖类别极其丰富。仅提取整幅图像的全局特征来度量和区分图像，会丢失很多有用的信息。第二，通过实例对比学习获得的图像级表示对于需要像素级区分的语义分割任务可能是次优的。

2.1 对比学习

对比学习通过强制正样本对相似，而负样本对不相似来学习。对比学习方法的关键是构建正样本和负样本。最新的突破性方法将实例分类为自己的标签，这意味着样本的不同增强版本被视为阳性样本，其他样本被视为阴性样本。对比学习鼓励模型学习变换的不变性和区分不同样本的能力。在这项工作中，我们使用对比学习来学习遥感的一般时空不变性特征。具体来说，我们对样本执行随机旋转、裁剪、缩放和其他数据增强操作，使模型学习空间不变性，例如旋转不变性和比例不变性。此外，RSIs的时间差异主要在于季节因素和成像条件引起的整体纹理和颜色差异。由于缺乏多时相图像数据，我们通过在样本上应用随机颜色失真、随机噪声等来模拟时间变换，使模型学习时间不变特征。
在这里插入图片描述
受视觉表征对比学习的简单框架（SIMCLR）的启发，我们应用对比学习来训练语义分割网络的编码器，如图所示。3，由以下四个主要部分组成。
1）数据增强：为了鼓励模型学习一般的时空不变性特征，我们执行空间变换，如随机裁剪、调整大小、翻转和旋转，以学习空间不变性特征，并模拟具有颜色失真、高斯模糊、随机噪声等的时间变换。，用于学习时间不变性特征。具体来说，通过数据增强t1和t2，从给定样本x生成两个增强视图∧x和ˆx，即ˆx=t1（x）和ˆx=t2（x）。
2）特征提取：使用编码器网络
在这里插入图片描述

从增强样本实例中提取全局特征，其中μ表示特征图中每个通道平均值的计算，即全局平均池。在本文中，e（·）是语义分割网络DeepLabV3+[20]的编码器。
3）投影头：如（2）所示，
在这里插入图片描述

投影头g（·）是一个多层感知器（MLP），具有一个隐藏层[具有校正线性单元（ReLU）]。SimCLR[38]中g（·）的存在已被证明是非常有益的，可能是因为它允许e（·）形成并保留更多的潜在的下游任务的有用信息，其中R是ReLU非线性激活函数。
4）对比损失：对比损失期望正样本对相似，负样本对不相似。具体来说，一个小批次的N个样本增加为2N个样本。从同一样本中增加的一对样本形成正对，其他2（N−1）样本为阴性样本。因此，对比损耗LC定义为：
在这里插入图片描述

两个特征向量，在本文中，是余弦相似性。 A− 表示2（N− 1）负样本和正样本对，τ表示温度参数。虽然现有的对比学习范式可以学习到强大的图像级表征，但仍然存在一些问题。首先，现有的对比学习使用全局平均池特征来提取样本的特征，这可能无法很好地代表样本的整体特征。其次，更关键的是，通过即时对比学习学习的图像级表示可能不适合需要像素级判别的语义分割任务。因此，我们提出了GLCNet。

2.2 全局风格与局部匹配对比学习网络（GLCNet）

我们提出的GLCNet方法如图2所示，主要包含两个模块：全局式对比学习模块，主要关注现有对比学习中使用的全局平均池生成的特征不能很好地替代复杂RSI的整体特征的问题；以及局部匹配对比学习模块，该模块主要考虑到大多数现有的对比学习方法都是为图像分类任务设计的，以获取图像级特征，因此对于需要像素级识别的语义分割可能不太理想。具体内容如下。

2.2.1 全局风格对比学习模块：

全局风格对比学习通过强制一个样本的不同增强视图与其他样本相似但不同来进行学习，这类似于现有的即时对比学习方法。不同之处在于，我们使用风格特征，而不是在即时对比学习中使用的简单平均池特征，因为我们认为它更能代表图像的整体特征。Huang和Belongie[46]指出，CNN提取的特征图的通道均值和方差可以表示图像的样式特征，因此我们计算编码器e（·）提取的特征的通道均值和方差，以提取全局样式特征向量，其定义为：
在这里插入图片描述
其中μ表示特征图的通道平均值，σ表示通道方差。因此，对于一个小批次中的N个样本，类似于（3），全局风格对比学习损失定义如下：

2.2.2局部匹配对比学习：

局部匹配对比学习模块的提出主要有以下两个原因。首先，语义分割数据集中单个图像中的土地覆盖类别极其丰富。仅提取整个图像的全局特征来测量和区分图像会导致大量信息的丢失；其次，使用即时对比学习方法获得图像级特征，这些特征可能不适合需要像素级识别的语义分割。因此，设计了局部匹配对比学习模块来学习局部区域的表示，这有利于像素级的语义分割。它由以下主要组件组成。

a）局部区域选择与匹配：如图如图5所示，

两个变换版本_{X和ˆX来自同一图像X，即}X=T1（X）和ˆX=T2（X）；我们从_{X和ˆX中选择并匹配多个局部区域。随机裁剪、翻转、旋转等数据扩充操作会导致}X与ˆX之间的位置不匹配，因此，我们通过引入索引标签来记录像素位置，以确保两个匹配局部区域的中心位置在原始图像中相互对应。具体地，我们首先从_{X中随机选择大小为SP×SP的局部区域，然后根据}X中的局部区域的中心位置的索引值来确定相同大小的匹配局部区域在ˆX中的位置。此外，为了确保不同局部区域之间没有过多的重叠，在每次选择之后排除局部区域，以保证随后选择的局部区域的中心不落入先前选择的局部区域中。重复上述步骤若干次，以获得多个匹配的局部区域。

b）局部匹配特征提取：局部特征提取步骤如下。首先，从编码器-解码器CNN网络中的一对正样本（ˆx，ˆx）中提取特征映射d（e（Ǿx））和d（e（ˆx））。在本文中，e（·）和d（·）分别对应于DeepLabV3+[20]的编码器和解码器。其次，根据A中局部区域的选择和匹配的思想，从d（e（￠x））和d（e（ˆx））中获得多个匹配局部区域的局部特征图。如果￠p j和ˆp j是匹配局部区域的特征图，其中￠p j来自d（e（￠x）），pˆj来自d（e（ˆx）），则最终的局部特征向量定义如下：

其中，μ表示特征图中每个通道的平均值的计算。
c）局部匹配对比损失：局部匹配对比损失通过强制匹配局部区域的特征表示相似和不同局部区域的特征表示不同来更新完整的语义分割编码器-解码器网络。对于一个小批次中的N个样本，局部匹配对比损失定义如下：

其中NL表示从N个样本的小批量中选择的所有局部区域的数量，即NL=N×NP，其中NP是从样本中获得的匹配局部区域的数量。-L是对应于除了两个匹配的局部区域之外的所有局部区域的特征图的集合，并且GL（·）是类似于G（·）的投影头。
3）总损失：全局风格对比学习能够捕获全局信息，局部匹配对比学习关注局部区域的学习表征，两者对于语义分割任务都很重要。当只有全局风格对比学习可用时，学习到的图像级表征对于语义分割任务不是最优的；当只有局部匹配对比学习可用时，局部区域将被过度区分，这往往会导致属于同一类别的特征被推得更远。因此，我们的方法由这两部分组成。即最终损失定义如下：

其中，在本研究中，λ是常数0.5。LG表示（5）中的全局风格对比损失，仅用于更新.

三、实验和结果

A. 数据说明

我们在四个数据集上评估提出的 GLCNet 和其他自监督方法，用于 RSI 语义分割。国际摄影测量与遥感协会 (ISPRS) 波茨坦数据集和地球深部土地覆盖分类数据集 (DGLC) 是公开可用的数据集。湖北和湘潭数据集来自现实世界，具有相同的空间分辨率和相似的分类系统，便于研究领域差异的影响。这四个数据集的详细信息将在下面解释。
在这里插入图片描述

1）ISPRS波茨坦数据集：ISPRS波茨坦数据集由38张HR遥感航空影像组成。这些图像具有 5 cm 的空间分辨率和四个光谱带：红色、蓝色、绿色和近红外反射 (NIR)。该数据集用六类注释：低植被、树木、建筑物、不透水表面、汽车等。 Potsdam 数据集中有 38 个大小为 6000 × 6000 像素的补丁。将 24 个补丁裁剪成 13824 张大小为 256 × 256 像素的图像，用于自我监督训练。为了评估 SSL 的性能，默认选择 1% 的自监督训练集作为下游语义分割任务的训练集，测试集包含从剩余的 14 个补丁中随机选择的 1500 个样本，裁剪成 256 个× 256 像素。
2）地球深部土地覆盖分类数据集（DGLC）：DGLC[47]提供大小为2448×2448像素的HR子计卫星图像。这些标签远非完美，涵盖了七个类别：城市、农业、牧场、森林、水、贫瘠和未知。我们选择730幅图像进行训练，73幅图像进行下游测试。此外，将每个图像裁剪为512×512像素的大小，每个阶段使用的最终样本数如表1所示。
3）湖北数据集：湖北数据集的图像是从覆盖中国湖北省的高分二号卫星上获取的。图像具有2米的空间分辨率，具有三个光谱带（RGB）。标签质量较差，涵盖十个类别：背景、农田、城市、农村、水、林地、草地、其他人工设施、道路和其他。我们首先将整个湖北省划分为几个大小为13889×9259像素的斑块。从这些补丁中，我们随机选择34个用于训练，5个用于测试。此外，将每个图像裁剪为256×256像素的大小，每个阶段使用的最终样本数如表1所示。
4）湘潭数据集：湘潭数据集的图像也来自高分二号卫星，覆盖中国湘潭市。这些标签的质量高于湖北数据集，涵盖九个类别：背景、农田、城市、农村、水、林地、草地、道路和其他。整个湘潭市被划分为4096×4096像素的斑块。我们随机选择85个补丁进行训练，21个进行测试。此外，将每个图像裁剪为256×256像素的大小，每个阶段使用的最终样本数如表一所示。

B. 实验设置

1 基线：

为了评估SSL的性能，我们在特定的下游语义分割任务上随机初始化网络作为基本基线。此外，通用的ImageNet预训练策略也被用作基线。此外，我们比较了三种典型的自我监督任务（预测上下文[48]，[49]，图像修复[50]和实例对比学习[38]，[45]，[51]）。用于比较的具体方法总结如下。

1）随机基线：从头开始训练特定的语义分割任务，无需预训练。
2）ImageNet Pretraining：使用ImageNet上的监督训练模型来初始化语义分割模型的主干。
1. Jigsaw [49]：这种自我监督的方法通过解决难题来构建自我监督的任务。具体来说，如图 6(a) 所示，给定图像被分成多个块，然后，块在被发送到 CNN 网络之前被打乱。预计网络将学习打乱的补丁之间的上下文关系。
4）修复[50]：一种典型的利用图像恢复思想设计自监督信号的方法。具体来说，如图6（b）所示，首先丢弃图像的一个随机区域，然后训练CNN模型从损坏的图像中预测原始图像，从而使CNN模型能够学习上下文信息。
1. SimCLR [38]：SimCLR 方法基于实例对比学习的思想，它通过强制从一个样本中增强的正样本相似而从小批量中的不同样本增强的负样本不相似来学习。
1. MoCo v2 [51]：MoCo v2 也是基于实例对比学习的思想，其重点是获取远超出批量大小的负样本。因此，提出了一种动态队列来保存负样本的特征，并提出了一种动量更新编码器来避免由于编码器的快速变化而导致负样本表示的一致性问题。

2 评估指标：

需要在特定的下游语义分割任务上评估自监督方法的性能。因此，我们使用OA和Kappa测量下游任务测试数据集的总体准确性，定义如下：
在这里插入图片描述
其中TP表示被正确预测的像素的总数，即真阳性。N表示像素总数，PE=（（A1×B1+·+AC×BC）/（N×N），AC表示C类像素的实际数量，BC表示C类像素的预测数量。此外，我们使用F1-Score来衡量单个类别的准确性，其定义如下：
在这里插入图片描述
其中precision = (TP/(TP + FP))，recall = (TP/(TP + FN))，TP代表真阳性，FP代表假阳性，FN代表假阴性。

3 实现细节:

在自我监督的预训练阶段，Jigsaw，SimCLR和MoCo v2仅设计用于使用ResNet50主干训练DeepLabV3的编码器，在修复和建议的GLCNet训练DeepLabV3 + 的完整编码器-解码器部分。我们使用Adam优化器400个epochs，批次大小为64。初始学习率被设置为与余弦衰减时间表0.01。此外，对于建议的GLCNet方法，我们从样本中选择四个大小为48 × 48的局部区域，即sp = 48和np = 4。为下游任务保存了自监督预训练过程中损失最低的模型。
尽管inpaining和GLCNet方法可以在自监督训练期间训练网络的编码器和解码器，但是用于比较的方法 (例如SimCLR) 被设计为仅训练编码器。因此，默认情况下，我们仅在微调阶段从自监督的预训练阶段加载编码器部分。在微调阶段，我们仅使用有限数量的注释数据进行语义分割训练，例如1% 自我监督的数据量。我们将Adam优化器用于150个时期，批次大小为16。初始学习率被设置为0.001，并在每个时期降低到0.98。

C. 实验结果

在本节中，我们首先将提出的GLCNet与其他自监督方法以及ImageNet在几个RSI语义分割数据集上的预训练方法进行比较。然后，我们探讨了可能影响目标RSI语义分割任务上的自我监督预训练性能的两个因素: 自我监督预训练数据量以及预训练数据集与微调数据集之间的域差异。

与其他方法的比较: 在本节中，我们评估了建议的GLCNet在多个数据集上具有有限注释的RSI语义分割任务上的性能，并将其与其他SSL方法，ImageNet预训练方法和随机初始化方法进行了比较。在每个数据集上用于自监督预训练的数据量如表I所示，并且自监督数据量的1% 用于微调。从表II中的结果中，我们发现与不实施任何预训练策略相比，我们提出的GLCNet方法极大地改善了所有数据集。同时，我们发现不同的自我监督方法的性能差异很大，不合适的自我监督方法会产生负面影响，而我们的方法却达到了最先进的结果。如图7所示，我们还显示了一些可视化结果，其中我们的方法的性能总体上相对更好。同时，为了衡量我们的方法在每个类别中是否具有优势，我们计算单类精度，其结果如图8所示。从图8中，我们发现与多个数据集上的其他自监督方法相比，我们的方法在大多数类中获得了优越的结果。此外，我们的方法在大多数数据集上都优于ImageNet预训练方法，其中ImageNet预训练方法是通过在ImageNet上有数百万个数据的监督训练获得的，这远远超过了我们实验中使用的自我监督数据的数量。这表明，尽管ImageNet预训练方法可以提供显着的改进，但由于自然图像和rsi之间存在较大差异，因此它不是最佳方法。例如，如表II所示，与ImageNet预训练相比，我们在波茨坦数据集上的方法有最明显的改进，可能是因为数据集有四个波段，这与RGB自然图像的差异最大。因此，直接从未标记的rsi训练通用模型更为合理。此外，值得注意的是，在我们的实验中，用于自我监督的预训练的图像与用于下游任务的图像相似，并且两者都来自同一数据集。这种情况是可行的，因为我们可以通过卫星技术轻松地从同一来源获得大量图像。
自我监督数据量的影响: 由于自我监督预训练不需要带注释的数据，并且容易获得大量的图像数据，因此本节主要探讨更多的自我监督预训练数据是否可以提高性能。为此，我们通过随机选择20% 、50% 和100% 的自我监督数据，对ISPRS-波茨坦数据集和湘潭数据集进行实验。结果显示在图9中，其中没有表示没有执行自我监督训练。从结果中，我们发现，在这两个数据集中，随着自我监督数据量的增加，总体上都有增加的趋势，与SimCLR方法相比，我们的方法的改进相对更明显。因此，可以预见，当使用较大的数据集进行自我监督训练时，所提出的方法可能会更有利。
领域差异的影响：在本节中，我们评估领域差异对自监督预训练模型性能的影响。结果如表 III 所示，其中“Supervised_Baseline”表示首先使用预训练数据集进行监督训练，然后将其转移到下游任务。从结果中，我们发现使用与下游任务数据集更相似的自我监督数据集进行训练，导致下游任务的模型性能更好。此外，我们的方法大多优于监督学习，除了在域差异极小的情况下（例如，湖北→湘潭，湘潭→湖北），主要是因为这两个域不仅具有相同的图像分辨率，而且在物理位置，而且至关重要的是，有一个大致一致的分类系统。因此，很难超过监督学习的准确性。尽管我们在 Section III-C2 中发现模型性能随着自监督训练数据量的增加而进一步提高，但在本实验中，我们发现如果自监督预训练数据集是混合了大量与下游任务数据集不太相似的图像。幸运的是，由于自监督预训练不需要标签，因此可以获得大量与目标数据集相似的图像数据是可行的。

D.消融研究

在本节中，我们进行消融实验来研究我们提出的 GLCNet 方法的模块的有效性、使用我们的方法训练的模型的解码器参数的有效性以及不同损失权重 λ 值的影响。

提出的 GLCNet 模块的有效性：在本节中，我们探讨了我们提出的方法中每个模块在四个数据集上的有效性。实验结果如图10所示，其中：1）Ours_noStyle表示全局模块，不使用风格特征，即直接使用传统的全局平均池化特征。 2) Ours_noGlobal 表示全局风格对比学习模块被完全移除。 3) Ours_noLocal 表示局部匹配对比学习模块被完全移除。 4）Ours_noStyle_and_noLocal表示局部匹配对比学习模块被去掉，全局模块不使用风格特征。从结果中，我们发现完整的 GLCNet 实现了最佳性能，并且每个模块在大多数实验中都有一些好处。此外，那些具有局部匹配对比学习模块的方法在大多数数据集上的性能明显高于那些没有的方法。因此，对于实际的 RSI 语义分割任务，局部区分是必要的。然而，令人惊讶的是，Ours_noGlobal 在 DGLC 数据集上取得了最差的结果，这表明全局模块在该数据集上极为重要。这可能是由于该方法仅使用局部匹配对比学习模块时局部区域被过度区分，而DGLC数据集中大约一半的图像在单个图像上只有一个类别，因此该方法仅具有在这种情况下，局部对比学习模块尤其不合适。
使用GLCNet训练的解码器部分的有效性：我们的方法最初是为了训练全语义分割网络而设计的，但是由于大多数用于比较的方法都是为了训练编码器，所以我们只加载了自监督预训练的编码器为了公平比较，在微调阶段之前的实验中。在本节中，为了调查我们方法训练的解码器是否有效，我们在波茨坦和湘潭数据集上进行了实验。实验结果如表 IV 所示，其中 d(1, 2) 表示加载前两层的解码器参数，d(1, 2, 3) 表示加载除最终分类层之外的完整解码器参数。从结果来看，我们发现用我们的方法训练的解码器参数并没有带来显着的提升，这可能是因为语义分割网络的解码器主要用于细节恢复，而我们当前的局部匹配对比学习模块执行平均对局部区域进行池化操作以提取特征，丢失边缘定位等详细信息。
权重λ的消融研究：（8）中的超参数λ被设置为平衡全局风格对比损失和局部匹配对比损失。我们认为全局风格对比学习模块和局部匹配对比学习模块可以学习到对语义分割任务有用的不同信息，这两者都非常重要，因此我们默认设置 λ = 0.5。但是，这可能不是最优的，因此我们在本节中进一步探讨不同 λ 值的影响。实验结果如图11所示。从实验结果来看，不同数据集的最优λ是不同的。此外，当我们的 GLCNet 方法只有一个局部匹配的对比学习模块，即 λ = 0，或者当我们的 GLCNet 方法只有一个全局风格的对比学习模块，即 λ = 1 时，大多数数据集的性能会迅速下降。因此，最终的 GLCNet 应该同时保留全局风格对比学习模块和局部匹配对比学习模块。总体而言，当 λ = 0.5 时，在所有数据集上都取得了良好的性能。

四、讨论

在这项工作中，我们将自我监督机制应用于RSI语义分割数据集，为标注样本不足的RSI语义分割任务带来了显著的改进。我们在本节中进一步讨论我们的实验结果。我们发现，自监督任务的设计对最终的性能有很大的影响，我们提出的方法取得了最优的结果。此外，通过第III-C2节中的实验，我们发现当自监督数据量增加时，微调精度进一步提高。因此，可以得出结论，当更多的图像用于自我监督时，模型性能有望进一步提高。由于大量的RSI极易获得，这将具有很大的实际应用价值。
自我监督训练模型显示了RSI理解的潜力，因为它只依赖于内在的监督信号，而不是任务依赖的标签。如第III-C3节中的实验结果所示，当自监督数据集和微调数据集之间存在一些差异时，我们提出的自监督方法优于监督学习，这说明通过SSL训练的模型更具鲁棒性。在实践中，我们会面临很多局部地区缺乏标签的情况。通过SSL从全局区域的映像中学习通用模型，然后迁移到局部区域，这将是非常有意义的。然而，从实验结果来看，我们发现如果将多个差异较大的数据集混合进行自监督训练，则在迁移到本地数据集时，性能会受到影响。这可能是因为当混合多个域时，执行自监督训练更加困难，因为它倾向于首先区分具有较大差异的不同域中的图像，而区分局部域中的图像的能力可能会降低。如果我们能够随后找到一种方法来混合来自多个领域的图像进行自监督训练，而不降低其在单个领域中的有效性，则将具有很大的实用价值，这样我们就可以通过构建由不同分辨率、不同区域、不同时间等组成的大型图像数据集来执行自监督训练，以获得更通用的模型。
我们发现，我们设计的每个模块都有一些优点，而局部匹配对比学习模块在大多数实验中带来了巨大的改进，这说明了局部尺度判别在语义分割数据集上的重要性。然而，sp和np对于所有数据集都是相同的，没有太多探索，这可能不是最佳设置。此外，由于实际图像中表面特征的分布可能极不均匀，局部区域的随机选择将偏向于更主要的特征类。如果可以使局部区域的选择更加均匀，则可能实现进一步的改进。

五、结论

在这项工作中，我们将自监督对比学习引入 RSI 语义分割任务，以从大量未标记图像中学习一般时空不变特征，以减少对标记样本的依赖。此外，考虑到现有的对比学习方法主要用于图像分类任务以获得图像级表示，这对于需要像素级区分的语义分割任务可能不是最佳的，我们提出了 GLCNet。实验表明，在标记数据有限的语义分割任务中，我们的方法大多优于传统的 ImageNet 预训练方法和其他自监督方法。我们还发现，更多的自监督预训练样本可以带来性能提升，并且在实际情况下，我们可以轻松获得大量的遥感数据，因此我们的方法可能具有很大的实际应用意义。
我们的方法还有一些不足；例如，我们想使用 GLCNet 来更好地学习一般的时间不变性特征。然而，目前，由于缺乏多时相图像数据，我们仅通过随机增强图像的颜色和纹理来模拟时域变换。这不能真正模仿由季节、成像条件等引起的复杂变换。因此，可能无法充分学习真实的时间特征，随后可以通过使用真实的多时间图像来补充。未来，该方法将进一步改进，然后应用于大规模图像数据，以缓解全球土地覆盖等任务中严重缺乏标注的问题。另一个潜在的研究课题是使用对抗性示例 [52]-[54] 来提高预训练模型的鲁棒性。

学习笔记-基于全局和局部对比自监督学习的高分辨率遥感图像语义分割-day2