[論文閲覧] 強弱デュアルブランチネットワークによる半教師ありセマンティックセグメンテーション

[用紙アドレス] [コード] [ECCV 20]

抽象的な

既存の研究では、弱教師付きセマンティック セグメンテーションを推進するためのさまざまな手法が検討されていますが、教師付き手法と比較するとまだ大きなギャップがあります。実際のアプリケーションでは、大量の弱く教師されたデータに加えて、通常、いくつかのピクセルレベルのアノテーションが利用可能であり、これに対する半教師あり追跡がセマンティック セグメンテーションの有望な方法になります。現在のアプローチは、これら 2 つの異なるアノテーション セットを単純にバンドルして、セグメンテーション ネットワークをトレーニングします。しかし、このようなアプローチには問題があり、単に強いラベルを使用するよりもさらに悪い結果が得られることがわかり、弱いラベルの誤用を示唆しています。弱いラベルの可能性を最大限に活用するために、多数の不正確な弱い監視を強い監視から区別する、強-弱いデュアルブランチ ネットワークを介して強いアノテーションと弱いアノテーションを個別に処理することを提案します。我々は、強いアノテーションと弱いアノテーションの共同識別を利用する共有ネットワーク コンポーネントを設計しますが、一方、提案されたデュアル ブランチは、完全教師あり学習と弱教師あり学習を別々に処理し、それらの相互干渉を効果的に排除します。この単純な構造は、トレーニング中に少量の追加の計算コストしか必要とせず、さらに以前の方法に比べて大幅な改善をもたらします。2 つの標準ベンチマーク データセットでの実験により、提案された方法の有効性が実証されています。


イントロ

この記事のタイトルには「セミ」という言葉しかありませんが、これが行うのは半教師ありおよび弱教師ありのセグメンテーションであり、少量の完全なラベル付きデータと大量の弱いラベル付きデータを使用してモデルをトレーニングします。


ここに画像の説明を挿入
著者は、単に強いラベルと弱いラベルを混合してトレーニングするだけでは、弱いラベルだけを使用する場合ほど効果的ではないという事実を初めて発見しました。対応する比較は次のとおりです: 強い 1.4k + 弱い 9k のパフォーマンスはわずかでも優れていることがわかりますWeak 10k よりも低いこの現象は、次の 2 つの観点からさらに理解できます。

  • 弱い 9k に基づいて、1.4k の高品質ラベルを追加した効果は、1k の弱いラベルを追加した場合の品質よりもわずかに高いだけであり、本質的な変更は生じません。
  • Strong 1.4k に基づいて、9k の弱いタグを追加すると、パフォーマンスが大幅に低下することもあります

この状況は、次の 2 つの理由によって発生します。

  • サンプルのバランスが取れていません。つまり、多数の弱いラベルが実際には少数の強いラベルを「汚染」し、ネットワークが弱いラベルをオーバーフィットさせます。
  • 監視が一貫していない。ネットワークは弱いラベルに過剰適合するため、予測結果の品質も弱いラベルの品質に匹敵します。

この文書の対応するソリューションも非常にシンプルで、デュアル デコーダ アーキテクチャを使用して 2 つの監視信号を明示的に分割して処理します。タイトルがデュアル ブランチと呼ばれる理由の 1 つは、いくつかのレイヤーが 2 つのデコーダー間で依然として共有されていることであるようです。


通信網

ここに画像の説明を挿入
この記事の枠組みは上に示したとおりです。このうち、バックボーン | h(x) は VGG16 などのセグメンテーション ネットワークの特徴抽出部分に対応し、ネックは n 個の畳み込み層を含む 2 つのデコーダーの共有畳み込み部分に対応し、残りは非共有ボリュームです。 2 つのデコーダー畳み込み部分。それぞれに (3-n) 畳み込み層が含まれます。強デコーダと弱デコーダの構造は全く同じであり、違いは監視信号が異なるだけである。

上記のハイパーパラメータ n の範囲は 0 ~ 3 であることに注意してください。つまり、2 つの Decoder は情報を共有できず (n=0)、単一分岐ネットワークに直接縮退することもできません (n=3)。

これら 2 つのブランチの損失関数に関しては、次のように、どちらも重み付けなしで標準のクロスエントロピー損失を監視に使用します。 L data = L ce ( ss , ms ) + L ce ( sw , mw ) \mathcal{L} _{\text {データ }}=\mathcal{L}_{ce}\left(s^s, m^s\right)+\mathcal{L}_{ce}\left(s ^w, m^そうですね)Lデータ =L( s _メートル _+L( sメートル


トレーニングとテスト

トレーニングの各入力バッチには、強くラベル付けされたサンプルの半分と弱くラベル付けされたサンプルの半分が含まれています。ここから、各バッチがデータ セットの比率に応じてではなく半分に分割されるため (つまり、各バッチの強いサンプルと弱いサンプルが 1:9 である)、偽装オーバーサンプルが次のように実行されることがわかります。バッチレベル。

次に、各バッチは 2 つの異なる強いブランチと弱いブランチに渡されます。強いブランチでは、バッチ内の強くラベルされたサンプルの損失のみが計算され、勾配逆伝播が実行されます。弱いブランチでは、サンプルの損失のみが計算されます。バッチ内の弱くラベルされたサンプルが計算され、勾配逆伝播が実行されます。

テスト弱いブランチの役割は、トレーニング フェーズでの強いブランチと弱いブランチの共通部分 (ネック) の学習を支援することであるため、テスト フェーズでは強いブランチのみを保持する必要があります。

おすすめ

転載: blog.csdn.net/qq_40714949/article/details/128962285