1 - 半教師ありセマンティックセグメンテーションのための敵対的学習

まとめ:

        我们提出了一个半监督语义分割的方法,使用了对抗网络。设计了一个鉴别器,去区分预测概率图与真实分割分布,同时考虑了空间分辨率。
     我们表明,通过**将对抗性损失与所提出模型的标准交叉熵损失耦合起来**,所提出的鉴别器可以用于提高语义分割精度。
     **此外,鉴别器通过发现未标记图像的预测结果中的可信区域来实现半监督学习,从而提供额外的监督信号。**
     与使用弱标记图像的现有方法相比,我们的方法利用未标记图像来增强分割模型。在PASCAL VOC 2012和Cityscapes数据集上的实验结果证明了该算法的有效性。

1 はじめに

     语义分割旨在为图像中的每个像素指定一个语义标签,例如,人、狗或路。这项任务对于广泛的应用程序至关重要,例如自动驾驶和图像编辑。
     已经提出了许多方法来处理这项任务[17、25、27、28、43、44],并构建了大量基准数据集[5、9、32、45],重点关注不同的场景/对象类别集以及各种现实世界应用程序。然而,由于对象/场景外观变化大、遮挡和缺乏上下文理解,此任务仍然具有挑战性。基于卷积神经网络(CNN)的方法,例如完全卷积网络(FCN)[28],最近在语义分割任务上取得了显著改进,并且大多数最先进的算法都基于FCN和附加模块。
     尽管基于CNN的方法取得了惊人的性能,但它们需要大量的训练数据。与图像分类和目标检测不同,语义分割需要对每个训练图像进行精确的逐像素标注,这可能会花费大量的费用和时间。为了简化获取高质量数据的工作,半监督/弱监督方法被应用于语义分割任务。
     这些方法通常假设在图像级[15、33、34、36、37]、框级[6]或点级[2]上存在附加标注。
     **本文提出了一种基于对抗学习的半监督语义分割算法。**GAN[10]最近的成功促进了在许多任务中有效的无监督和半监督学习。一个典型的GAN由两个子网络组成,即生成器和鉴别器,这两个子网络在训练过程中进行一个最小-最大博弈。生成器获取样本向量并输出目标数据分布的样本,例如人脸,而鉴别器旨在区分生成的样本和目标样本。然后训练生成器通过反向传播混淆鉴别器,从而生成与目标分布相似的样本。**在本文中,我们应用了类似的方法,将分割网络视为GAN框架中的生成器。与训练从噪声矢量生成图像的典型生成器不同,我们的分割网络输出给定输入图像的语义标签的概率图。在这种设置下,我们在空间上强制分割网络的输出尽可能接近地面真值标签地图。**
     **为此,我们采用了一种对抗性学习方案,并提出了一种全卷积鉴别器,该鉴别器学习区分地面真值标签图和分割预测的概率图。结合交叉熵损失,我们的方法使用了一种对抗性损失,它鼓励分割网络以高阶结构生成接近地面真值标签图的预测概率图。**这个想法类似于使用概率图形模型,如条件随机场(CRF)[4,25,44],但在测试阶段没有额外的后处理模块。**此外,在推理过程中不需要鉴别器,因此所提出的框架在测试过程中不会增加任何计算负载。通过使用对抗学习,我们在半监督环境下进一步利用了所提出的方案。**
     **在这项工作中,我们结合了两个半监督损失项来利用未标记的数据。首先,我们利用鉴别器网络生成的置信图作为监控信号,以自学习的方式引导交叉熵损失。置信度图表明预测分布的哪些区域接近地面真值标签分布,以便分割网络可以通过掩蔽交叉熵损失信任和训练这些预测。其次,我们将监督设置中采用的对抗性损失应用于未标记数据,这鼓励模型预测接近地面真实分布的未标记数据的分段输出。**
     **这项工作的贡献总结如下。
     首先,我们开发了一个对抗性框架,它可以提高语义分割的准确性,而不需要在推理过程中增加额外的计算负载。
     其次,我们提出了一个半监督框架,并表明通过添加图像而不添加任何注释可以进一步提高分割精度。
     第三,我们利用未标记图像的鉴别器网络响应来发现有助于分割训练过程的可信区域,从而促进半监督学习。**
     在PASCAL VOC 2012[9]和Cityscapes[5]数据集上的实验结果验证了所提出的半监督语义分割对抗框架的有效性。

2 関連作品

         **语义分割。**
         最近最先进的语义分割方法是基于CNN的进展。如[28]中所建议的,可以将分类CNN(例如AlexNet[21]、VGG[39]或ResNet[12])转换为用于语义分割任务的完全卷积网络(FCN)。然而,使用像素级注释标记图像通常很昂贵且困难。为了减少标记分割基本事实的繁重工作,近年来提出了许多弱监督方法。在弱监督设置中,分割网络不在像素级别上使用完全注释的地面真相进行训练。相反,网络是用各种容易获得的微弱监控信号进行训练的。在最近的方法中,图像-水平标签被用作监控信号。[36]和[35]中的方法使用多实例学习(MIL)来生成用于监督训练的潜在分割标签图。另一方面,Papandreou等人[33]使用图像级别标签来惩罚对不存在对象类的预测,而Qi等人[37]则使用对象定位来细化分割。Hong等人[15]利用标记图像训练分类网络,作为反褶积的特征提取器。除了图像级监控外,分割网络还可以通过边界框[6、19]、点监控[2]或网络视频[16]进行训练。

     然而,这些弱监督方法的性能不如完全监督方法,特别是因为很难从弱监督信号中推断出详细的边界信息。因此,在一些方法中还考虑了半监督学习以提高预测性能。在这种设置中,使用一组完全注释的数据和标记较弱的样本进行训练。Hong等人[15]在编码器-解码器框架中联合训练一个具有图像级监督图像和几个完全注释帧的网络。将[6]和[33]中的方法从弱监督推广到半监督设置,以利用附加的注释图像数据。
     
     **与上述方法不同,我们提出算法可以在模型训练中利用未标记的图像,从而大大减轻了人工标注的任务。我们将完全卷积鉴别器的输出作为监督信号,以补偿图像注释的缺失,并实现半监督语义分割。另一方面,提出的用于分割的自学学习框架与[34]有关,其中未标记图像的预测图被用作基本事实。然而,在[34]中,预测图在训练之前通过几个手工设计的约束条件进行了细化,而我们根据提出的对抗网络模型学习自学的选择标准。**

         **生成性对抗网络**。
        由于提出了具有理论基础的GAN框架[10],它在实现[1、3、8、31、38]和应用方面有了一些改进,引起了极大的关注,包括图像生成[38]、超分辨率[22、24]、光流[23]、对象检测[42]、域适配[13、14、41]和语义分割[29、40]。与我们范围最接近的工作是[29]提出的工作,其中对抗网络用于帮助语义分割的训练过程。然而,与基线方案相比,该方法并没有实现实质性的改进,也无法解决半监督设置。另一方面,Souly等人[40]建议使用GAN生成对抗性示例,用于半监督语义分割。然而,这些生成的示例可能不够接近真实图像,无法帮助分割网络,因为从密集标签合成视图仍然是一个挑战。

ここに画像の説明を挿入
**図 1: 提案された半教師ありセマンティック セグメンテーション システムの概要。損失 LD でトレーニングされた完全畳み込み弁別器ネットワークでは、トレーニング中に 3 つの損失関数を使用してセグメンテーション ネットワークを最適化します。セグメンテーションのグラウンド トゥルースに基づくクロスエントロピー損失 Lce、弁別器を偽装するための敵対的損失 Ladv、および信頼マップです。 -ベースの semi 教師あり損失 Lsemi、弁別器の出力。

3 アルゴリズムの概要

        图1显示了所提出算法的概述。该模型由两个模块组成:分割和鉴别网络。前者可以是任何设计用于语义分割的网络,例如FCN[28]、DeepLab[4]和DilatedNet[43]。给定尺寸为H×W×3的输入图像,分割网络输出尺寸为H x W×C的类概率图,其中C是语义类别的数量。
        我们的鉴别器网络基于一个FCN,它从分割网络或地面真值标签图中获取类概率图作为输入,然后输出大小为H×W×1的空间概率图。鉴别器输出图的每个像素p表示该像素是从地面真值标记(p=1)还是分割网络(p=0)中采样的。与典型的GAN鉴别器不同,它采用固定大小的输入图像(大多数情况下为64×64),并输出单个概率值,我们将鉴别器转换为可以接受任意大小输入的全卷积网络。更重要的是,我们证明了这种转换对于提出的对抗学习方案至关重要。
        在训练过程中,我们在半监督设置下使用标记和未标记图像。当使用标记数据时,分割网络由带有地面真值标记图的标准交叉熵损失Lce和带有鉴别网络的对抗损失Ladv进行监督。注意,我们只使用标记数据训练鉴别器网络。对于未标记的数据,我们使用所提出的半监督方法训练分割网络。在从分割网络中获得未标记图像的初始分割预测后,我们通过将分割预测传递给鉴别器网络来计算置信度图。然后,我们将此置信图作为监控信号,使用自学习方案训练具有masked cross-entropy loss掩蔽交叉熵损失Lsemi的分割网络。该置信图表示预测分割区域的质量,以便分割网络在训练期间可以信任。

4 敵対的ネットワークの半教師ありトレーニング

このセクションでは、セグメンテーションおよび弁別モジュールのネットワーク アーキテクチャと学習スキームを示します。

4.1 ネットワークアーキテクチャ

セグメンテーション ネットワーク
ここに画像の説明を挿入
**図 1: 提案された半教師ありセマンティック セグメンテーション システムの概要。損失 LD でトレーニングされた完全畳み込み弁別器ネットワークでは、トレーニング中に 3 つの損失関数を使用してセグメンテーション ネットワークを最適化します。セグメンテーションのグラウンド トゥルースに基づくクロスエントロピー損失 Lce、弁別器を偽装するための敵対的損失 Ladv、および信頼マップです。 -ベースの semi 教師あり損失 Lsemi、弁別器の出力。

ImageNet データセット [7] および MSCOCO [26] で事前トレーニングされた ResNet-101 [12] モデルを備えた DeepLab-v2 [4] フレームワークをセグメンテーション ベースライン ネットワークとして採用します (図 1 を参照)。**ただし、[4] で提案されているマルチスケール フュージョンは使用しませんでした。これは、単一 GPU のメモリをすべて消費し、弁別器のトレーニングが非現実的になるためです。(使用すれば改善されるでしょうか??) **最近のセマンティック セグメンテーション手法 [4, 43] と同様に、最後の分類層を削除し、最後の 2 つの畳み込み層のストライドを 2 Modified から 1 に変更します。そのため、出力特徴マップの解像度は実質的に入力画像のサイズの 1/8 になります。受容野を拡大するために、conv4 層と conv5 層にそれぞれストライド 2 と 4 の拡張畳み込み [43] を適用します。さらに、最後の層では Atrium Spatial Pyramid Pooling (ASPP) 手法 [4] を使用します。最後に、入力画像のサイズに一致するようにアップサンプリング レイヤーとソフトマックス出力を適用します。

弁別器ネットワーク 弁別
器ネットワークには [38] と同様の構造を使用します。
これは、4×4 カーネルとストライド 2 の {64, 128, 256, 512, 1} チャネルを備えた 5 つの畳み込み層で構成されます。最後の層を除き、各畳み込み層の後にはパラメータ化 0.2 の Leaky ReLU [30] が続きます。モデルを完全な畳み込みネットワークに変換するには、アップサンプリング層を最後の層に追加して、出力を入力マップのサイズに再スケーリングします。
バッチ正規化層 [18] はバッチ サイズが十分に大きい場合にのみ適切に機能するため、使用しないことに注意してください。

4.2 損失関数

ここに画像の説明を挿入
**図 1: 提案された半教師ありセマンティック セグメンテーション システムの概要。損失 LD でトレーニングされた完全畳み込み弁別器ネットワークでは、トレーニング中に 3 つの損失関数を使用してセグメンテーション ネットワークを最適化します。セグメンテーションのグラウンド トゥルースに基づくクロスエントロピー損失 Lce、弁別器を偽装するための敵対的損失 Ladv、および信頼マップです。 -ベースの semi 教師あり損失 Lsemi、弁別器の出力。

    给定大小为H×W×3的输入图像Xn,我们用S(·)表示分割网络,用大小为H x W×C的S(Xn)表示预测概率图,其中C是类别号。
    我们用D(·)表示完全卷积鉴别器,它采用大小为H×W×C的概率图,并输出大小为H x W×1的置信图。在所提出的方法中,鉴别器网络有两个可能的输入:分割预测S(Xn)或独热编码的地面真值向量Yn。

弁別器ネットワーク
弁別器ネットワークをトレーニングするには、次の 2 つの方法を使用して空間クロスエントロピー損失 LD を最小化します: ここで、
ここに画像の説明を挿入サンプルがセグメンテーション ネットワークから抽出された場合は yn = 0、サンプルがグラウンド トゥルース ラベルから取得された場合は yn = 0、その場合、yn=1となります。さらに、D(S(Xn))(h,w) は位置 (h,w) における X の信頼度マップであり、D(Yn)(h,w) も同様に定義されます。離散ラベルを含むグラウンド トゥルース ラベル マップを C チャネル確率マップに変換するには、グラウンド トゥルース ラベル マップでワンホット エンコーディング スキームを使用します。ここで、ピクセル Xn(h,w) がクラス C に属する場合、 Yn (h, w, C) の値は 1 で、それ以外の場合は 0 です。ここに画像の説明を挿入
弁別器ネットワークの潜在的な問題は、ワンホット確率を検出することで、確率マップがグラウンド トゥルースからのものであるかどうかを簡単に区別できることです [29]。

ただし、トレーニング段階ではこの問題は発生しません。理由の 1 つは、空間信頼度を予測するために完全な畳み込みスキームを使用するため、識別器の学習が困難になるためです。
さらに、スケール スキーム [29] を評価します。このスキームでは、グランド トゥルース確率チャネルが、セグメンテーション ネットワーク出力の分布に従って他のチャネルにわずかに拡散されます。ただし、結果に差は見られなかったので、本研究ではこのスキームを採用しません。

セグメンテーション ネットワーク:
マルチタスク損失関数を最小化することによってセグメンテーション ネットワークをトレーニングします。
ここに画像の説明を挿入
ここで、Lce、Ladv、および Lsemi は、それぞれ空間マルチクラス クロスエントロピー損失、敵対的損失、および半教師あり損失を示します。(2) では、λadv と λsemi は、提案されたマルチタスク損失関数を最小化するための 2 つの重みです。

注釈付きデータを使用するシナリオ。
入力画像 Xn、そのワンホット エンコードされたグランド トゥルース Yn、および予測結果 S(Xn) が与えられると、クロス エントロピー損失は次の式で取得されます。
ここに画像の説明を挿入

完全に畳み込み弁別器ネットワーク D( ) が与えられた場合、損失 Ladv を介した敵対的学習手順を使用します。
ここに画像の説明を挿入
この損失を使用して、グランド トゥルース配布デバイスから予測を生成する確率を最大化することで弁別器を欺くようにセグメンテーション ネットワークをトレーニングします。
ここに画像の説明を挿入
**図 1: 提案された半教師ありセマンティック セグメンテーション システムの概要。損失 LD でトレーニングされた完全畳み込み弁別器ネットワークでは、トレーニング中に 3 つの損失関数を使用してセグメンテーション ネットワークを最適化します。セグメンテーションのグラウンド トゥルースに基づくクロスエントロピー損失 Lce、弁別器を偽装するための敵対的損失 Ladv、および信頼マップです。 -ベースの semi 教師あり損失 Lsemi、弁別器の出力。

    给定大小为H×W×3的输入图像Xn,我们用S(·)表示分割网络,用大小为H x W×C的S(Xn)表示预测概率图,其中C是类别号。
    我们用D(·)表示完全卷积鉴别器,它采用大小为H×W×C的概率图,并输出大小为H x W×1的置信图。在所提出的方法中,鉴别器网络有两个可能的输入:分割预测S(Xn)或独热编码的地面真值向量Yn。

ラベルなしデータのトレーニング
この研究では、半教師あり設定での敵対的トレーニングを検討します。ラベルのないデータについては、グラウンド トゥルース アノテーションがないため、Lce は適用されません。敵対的損失 Ladv は、弁別ネットワークのみを必要とするため、引き続き機能します。ただし、データのラベル付けに使用される λadv よりも小さい λadv を選択することが重要であることがわかりました。これは、敵対的損失により、クロスエントロピー損失なしでグランド トゥルース分布に適合するように予測が過剰に修正される可能性があるためです。
さらに、自己学習フレームワーク内でトレーニング済みの識別子とラベルなしのデータを使用します。主なアイデアは、訓練された識別器が、グラウンド トゥルース分布に十分に近い領域を推測するために使用できる信頼度マップ D(S(Xn)) を生成できるということです。次に、この信頼マップをしきい値で 2 値化し、信頼できる領域を強調表示します。
ここに画像の説明を挿入
ここで、I( ) は指標関数、Tsemi は自己学習プロセスの感度を制御する閾値です。トレーニング中、自己学習ターゲット ^Yn と指標関数の値の両方を定数として扱うため、(5) は単純にマスクの空間クロスエントロピー損失と見なすことができることに注意してください。実際に、Tsemi が 0.1 から 0.3 の間にある場合、この戦略は非常に効果的であることがわかりました。

5 実験結果

実験の詳細
PyTorch フレームワークを使用して、提案されたアルゴリズムを実装しました。提案されたモデルを、12 GB のメモリを備えた単一の TitanX GPU でトレーニングします。セグメンテーション ネットワークをトレーニングするには、運動量 0.9、重み減衰 10−4 の確率的勾配降下 (SGD) 最適化法を使用します。初期学習率は、[4] で説明されているように 2.5×10− に設定されます。 0.9 乗 多項式の減衰が減少します。
ここに画像の説明を挿入
弁別器をトレーニングするために、学習率 10−4 とセグメンテーション ネットワークと同じ多項式減衰を備えた Adam オプティマイザー [20] を使用します。このメソッドのハイパーパラメータでは、ラベル付きデータとラベルなしデータでトレーニングする場合、λadv はそれぞれ 0.01 と 0.001 に設定されます。λsemi を 0.1 に、Tsemi を 0.2 に設定します。

半教師ありトレーニングの場合、セクション 4.2 で説明したトレーニング スキームを適用しながら、ラベル付きデータとラベルなしデータをランダムにインターリーブします。モデルが初期のノイズ マスキングと予測による影響を受けないようにするために、ラベル付きデータを使用して 5000 回反復してトレーニングした後、半教師あり学習を開始することに注意してください。セグメンテーション ネットワークとディスクリミネーター ネットワークを共同で更新します。各反復では、グラウンド トゥルース データを含むバッチのみが識別器のトレーニングに使用されます。データセットからラベル付きデータとラベルなしデータの一部をランダムにサンプリングする場合、評価の堅牢性を確保するために、異なるランダム シードを使用した複数の実験の結果を平均します。コードとモデルは https://github.com/hfslyc/AdvSemiSeg で入手できます。

データセットとメトリクスを評価します。
この作業では、PASCAL VOC 2012 [9] と Cityscapes [5] という 2 つのセマンティック セグメンテーション データセットに対して実験を行います。これら 2 つのデータセットでは、評価指標として平均交差結合 (平均 IU) を使用します。

PASCAL VOC 2012 データセットには、毎日の写真に注釈が付けられた 20 個の一般的なオブジェクトが含まれています。さらに、セグメンテーション境界データセット (SBD) [11] からの追加の注釈付き画像を利用し、合計 10582 個のトレーニング画像のセットを取得します。1449 枚の画像の標準検証セットでモデルを評価します。トレーニング中に、サイズ 321×321 のランダムなスケーリングとトリミング操作を使用します。PASCAL VOC データセットで各モデルをバッチ サイズ 10 で 20,000 回の反復でトレーニングします。
Cityscapes データセットには 50 の運転シーンのビデオが含まれており、そこから 297,550,1525 枚の画像が抽出され、トレーニング、検証、テストのためにそれぞれ 19 のクラスで注釈が付けられます。注釈付きの各フレームは 30 フレーム セグメントの 20 番目のフレームであり、トレーニング中には注釈付きの画像のみが考慮されます。ランダムなトリミング/スケーリングを行わずに、入力画像のサイズを 512×1024 に変更します。Cityscapes データセットに対して、バッチ サイズ 2 で 40,000 回の反復で各モデルをトレーニングしました。

2012 パスカル VOC.
表 1 に PASCAL VOC 2012 データセットの評価結果を示します。半教師ありスキームを検証するために、1/8、1/4、1/2 の画像をラベル付きデータとしてランダムにサンプリングし、残りのトレーニング画像をラベルなしデータとしてサンプリングします。提案されたアルゴリズムを FCN [28]、Dilation10 [43]、および DeepLab-v2 [4] の手法と比較します。私たちのベースライン モデルが最先端のスキームと同等であることを実証するため。

ベースライン モデルは、マルチスケール フュージョンを含まない DeepLab-v2 モデルと同等であることに注意してください。敵対的損失により、さまざまな量のトレーニング データに対して一貫したパフォーマンスの向上 (1.6% から 2.8%) がもたらされます。提案された半教師あり学習スキームと組み合わせると、全体的な改善は 3.5% ~ 4.0% になります。図 2 は、この方法で生成されたセグメンテーション結果の視覚的な比較を示しています。ベースライン モデルと比較して、セグメンテーション境界が大幅に改善されていることがわかります。
ここに画像の説明を挿入
ここに画像の説明を挿入
都市空間の
街並み。表 2 に都市景観データセットの評価結果を示します。敵対的損失 Ladv を適用することにより、モデルは半教師あり設定でベースライン モデルに対して 0.5% ~ 1.9% のゲインを達成します。これは、私たちの敵対的トレーニング スキームが、セグメンテーション ネットワークがグラウンド トゥルースの分布から構造情報を学習することを促進できることを示しています。
敵対的学習と提案された半教師ありスキームを組み合わせると、アルゴリズムのパフォーマンス向上は 1.6% ~ 3.3% になります。

最先端の手法と比較してください。
表 3 は、セグメンテーションに敵対的学習を利用する [29] との比較を示しています。[29] と敵対的学習プロセスにおける私たちのアプローチの間には大きな違いがあります。まず、[29] では各データセットのネットワーク構造を使用しながら、さまざまなセグメンテーション タスク用の一般的な識別器を設計します。
第 2 に、弁別器は追加入力として RGB 画像を必要とせず、セグメンテーション ネットワークからの予測マップを直接操作します。表 3 は、[29] の方法と比較して、私たちの方法が平均 IU で 1.2% の増加を達成していることを示しています。
半教師あり設定での結果を表 4 に示します。[33] および [40] との比較のために、オリジナルの PASCAL VOC 2012 シーケンス セット (1464 画像) でモデルをトレーニングし、ラベルなしデータとして SBD [11] セットを使用しました。[33] では画像レベルのラベルが SBD [11] アンサンブルに利用可能であり、[40] では他のラベルのない画像がトレーニングフェーズ中にそのジェネレーターによって生成されることは注目に値します。
ハイパーパラメータ分析
このアルゴリズムは 3 つのハイパーパラメータによって制御されます。(2) のマルチタスク学習のバランスをとるための λadv と λsemi、(5) で説明した半教師あり学習の感度を制御するための Tsemi です。表 8 は、半教師あり設定で PASCAL VOC データセットを使用したハイパーパラメーターの感度分析を示しています。追加の分析と結果は補足資料で提供されます。
ここに画像の説明を挿入
ここに画像の説明を挿入
まず、半教師あり設定のデータ量の 1/8 と λsemi のさまざまな値を比較します。比較のために λadv=0.01 と Tsemi=0.2 を設定します。全体として、提案された方法は 1.9% の利得で 69.5% という最良の平均 IU を達成します。λsemi を 0.1 に設定した場合。次に、λadv=0.01 および λsemic=0.1 を設定して、さまざまな Tsemi 値を実験します。より高い Tsemic の場合、提案されたモデルは、構造的類似性がより高い領域のみをグランド トゥルース分布として信頼します。全体として、提案されたモデルは Tsemi = 0.2 のときに最良の結果を達成し、広い範囲 (0.1 ~ 0.3) で良好にパフォーマンスします。Tsemi=0 の場合、ラベルのない画像内のすべてのピクセル予測が信頼されるため、パフォーマンスの低下につながります。図 3 は、予測確率プロットのサンプル信頼プロットを示しています。

アブレーションの研究。
提案したシステムのアブレーション研究を PASCAL VOC データセットの表 6 に示します。まず、完全畳み込み識別器 (FCD) を使用した効果を調べます。完全に畳み込みではない識別器を構築するには、識別器の最後の畳み込み層を、GAN モデルに典型的な単一ニューロンを出力する完全結合層に置き換えます。FCD を使用しない場合、パフォーマンスはすべてのデータと 8 分の 1 のデータでそれぞれ 1.0% と 0.9% 低下します。これは、FCD の使用が敵対的学習にとって重要であることを示しています。第二に、敵対的損失のない半教師あり学習方法を採用します。結果は、ラベル付きデータに対する敵対的トレーニングが半教師ありスキームにとって重要であることを示しています。セグメンテーション ネットワークが弁別器を欺こうとしない場合、弁別器によって生成された信頼度マップは無意味になり、弱い監視信号が提供されます。

6 結論

この研究では、半教師ありセマンティック セグメンテーションのための敵対的学習スキームを提案します。ラベル付きデータとラベルなしデータを使用してセグメンテーション ネットワークを強化するために、弁別ネットワークをトレーニングしました。ラベル付きデータを使用するセグメンテーション ネットワークの敵対的損失は、後処理なしで高次の構造情報を学習することを目的としています。ラベルのないデータの場合、弁別ネットワークによって生成された信頼マップは、セグメンテーション ネットワークを改良するための自己学習信号として使用されます。PASCAL VOC 2012 と Cityscapes データセットに関する広範な実験により、提案されたアルゴリズムの有効性が検証されました。

付録の図については、原文を直接参照してください。あと4つあります

おすすめ

転載: blog.csdn.net/qq_45583898/article/details/126936891