CVPR 2023 | UniMatch: 半教師ありセマンティック セグメンテーションにおける強一貫性と弱一貫性の再検討

ここでは、CVPR 2023 に採択された私たちの研究「Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation」を皆さんと共有したいと思います。この研究では、半教師ありセマンティック セグメンテーションにおける「強い一貫性と弱い一貫性」アプローチを再検討します。私たちは、強整合性と弱整合性を制約する最も基本的な手法である FixMatch[1] (3 年前の 2020 年に提案) が、現在の SOTA と同等のパフォーマンスを達成できることを初めて発見しました。これに触発されて、私たちは FixMatch の摂動空間をさらに拡張し、デュアルチャネル摂動を使用して元の摂動空間をより完全に探索しました。

私たちの最後の手法である UniMatch は非常にシンプルかつ効果的であり、自然画像(Pascal VOC、都市景観、COCO)、リモート センシング画像変化検出(WHU-CD、LEVIR-CD)、および医療画像において以前よりもはるかに優れた結果を達成しています。 (ACDC).この方法の結果。私たちは、より良い再現を容易にするために、すべてのシナリオのコードとトレーニング ログをオープンソース化し、それがすべての人にとってのベースラインとして役立つことを願っています。
ここに画像の説明を挿入します
記事のリンク (これは CVPR カメラ対応バージョンです。arXiv-V1 と比較して、いくつかの実験結果を追加および更新しました):

https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2208.09910

コードと実験ログのリンク:

https://link.zhihu.com/?target=https%3A//github.com/LiheYoung/UniMatch

また、半教師ありセマンティック セグメンテーションの素晴らしいリストも作成しました。

https://link.zhihu.com/?target=https%3A//github.com/LiheYoung/UniMatch/blob/main/docs/SemiSeg.md

背景

半教師ありセマンティック セグメンテーションでは、より適切なセグメンテーション モデルを学習するために、できるだけ少ないラベル付き画像と多数のラベルなし画像を使用することを目的としています。このうち、ラベル付き画像の学習は一般に完全教師ありセマンティックセグメンテーション(予測結果と手動アノテーション間のクロスエントロピー損失の計算)に似ており、ラベルなし画像をどう活用するかが問題の鍵となります。

ここに画像の説明を挿入します

観察

上記の非常に単純な FixMatch を半教師ありセマンティック セグメンテーションに再現すると、複数の設定で FixMatch が現在の SOTA メソッドに近い、またはそれよりも大幅に優れた結果を達成できることがわかりました。比較結果は次のとおりです
ここに画像の説明を挿入します
。 FixMatch のコアモジュールである強い摂動部分では、以下の表に示すようなアブレーション実験を行いました。半教師ありセマンティック セグメンテーション タスクでは、強い摂動も FixMatch にとって重要であることがわかりました。デフォルトで使用する強い摂動には、カラー ジッター、ブラー、グレースケール、CutMix が含まれます。これらすべての強い摂動が (SP なしで) 除去されると、FixMatch のパフォーマンスが非常に低下します。さらに、CPS[ 3 ] 単一の強い摂動戦略である CutMix のみを使用しますが、CutMix のみを使用した場合 (CutMix と併用)、すべての強い摂動を使用した場合 (SP 全体と併用) に比べて、パフォーマンスも大幅に低下することがわかりました。

FixMatch における強い摂動 (SP) の重要性
ここに画像の説明を挿入します

私たちのUniMatch

統合摂動 (UniPerb)
上記の結果によると、強い摂動はパフォーマンスを大幅に向上させる可能性があります。ただし、FixMatch は入力空間 (画像) で強い摂動のみを実行するため、下の図 (a) に示すように、FixMatch の摂動空間をさらに拡張し、特徴空間で強い摂動を実行するトレーニング ブランチを追加することを提案します。
ここに画像の説明を挿入します
PS-MT [4] のように、画像と特徴に対して同時に強い摂動を実行する研究もいくつかあることに注意してください。しかし、それらはこれらの強い摂動を同じブランチに適用するため、学習が非常に困難になります。異なる性質の強い摂動を異なる枝に分けて学習し、アブレーション実験でこのアプローチの優位性を実証しました。さらに、VAT [5] などの一部の特徴摂動作業と比較して、特徴ドロップアウト戦略がより単純で効果的であることも示します。

デュアルストリーム摂動 (DusPerb)

ここに画像の説明を挿入します

全体的なUniMatch

ここに画像の説明を挿入します

実験

SOTA 手法との比較: Pascal VOC 2012
Pascal VOC 2012 には、21 カテゴリーをカバーする合計 10,582 枚のトレーニング画像が含まれています。このうち、比較的高い注釈品質を備えた画像は 1,464 枚です。したがって、注釈付き画像を選択するには 3 つの異なる戦略があります: (1) 1,464 個の細かく注釈が付いた画像から選択する; (2) 10,582 個の画像からランダムに選択する; (3) さらに多くのラベル付き画像が必要な場合は、1,464 個の細かく注釈が付いた画像からの選択を優先する残りの大まかにラベル付けされた画像から選択します。結果は以下に示すように、さまざまな選択戦略、データ分割、およびバックボーンの下で、私たちの方法は最適なパフォーマンスを達成しました。

最初のデータ分割の結果:

ここに画像の説明を挿入します
2 番目 (w/o) および 3 番目 (w/) のデータ部門の結果:
ここに画像の説明を挿入します
SOTA 手法との比較: Cityscapes
Cityscapes には、19 カテゴリーをカバーする合計 2,975 枚のトレーニング画像が含まれています。
ここに画像の説明を挿入します
SOTA 手法との比較: COCO は
既存の PseudoSeg [8] を踏襲しており、ここで使用するのは COCO-Things データセット (Stuff カテゴリを除く) で、これには合計 81 のカテゴリと 118,287 枚のトレーニング画像が含まれています。
ここに画像の説明を挿入します

より多くのシナリオに拡張: 半教師ありリモート センシング画像変化検出

このシナリオでは、同じ場所の異なる時間のリモート センシング画像を通じて、変化する土地区画を識別する必要があります。これは、おおまかに 2 クラスのセグメンテーション問題とみなすことができます。通常のフレームワークは、エンコーダーを使用して影響を与える 2 つの特徴を抽出し、それらの特徴を減算して予測のためにデコーダーに送信します。
ここに画像の説明を挿入します
私たちは 2 つの主流データセット、WHU-CD と LEVIR-CD で検証し、2 つのネットワーク構造、PSPNet と DeepLabv3+ を試し、すべてのデータ部門で大幅な改善を達成しました。
ここに画像の説明を挿入します

より多くのシナリオに拡張: 半教師あり医療画像セグメンテーション

ACDC データセットで検証を実行し、ラベル付きケース 1/3/7 のみを使用してみました。注釈ケースが 1 つだけの UniMatch は、3 つの注釈ケースを使用する他のメソッドよりもはるかに優れたパフォーマンスを発揮します。
ここに画像の説明を挿入します
アブレーション実験
ここではアブレーション実験の一部のみを掲載していますが、その他のアブレーション実験については論文を参照してください。

FixMatch と比較した UniMatch の利点

以下では、Pascal VOC、Cityscapes、および COCO での FixMatch と比較した UniMatch の優位性を検証しました。
ここに画像の説明を挿入します
ここに画像の説明を挿入しますデュアルチャネルの強い摂動 (DusPerb) のゲインが自明ではなく、バッチ サイズの 2 倍または 2 倍に相当しないことを検証しました。バッチサイズ、トレーニングラウンド数
ここに画像の説明を挿入します

異なる特性を持つ強い摂動を異なるブランチに分離する必要性を検証する
ここに画像の説明を挿入します異なる特徴摂動戦略。
ここに画像の説明を挿入します

要約する

この研究では、半教師ありセマンティック セグメンテーション タスクへの FixMatch 転送の有効性を実証します。アブレーション実験を通じて強い摂動の重要性を検証し、特徴的な強い摂動を通じてFixMatchの摂動空間をさらに拡張し、デュアルパスの強い摂動を通じて元の摂動空間をより完全に探索しました。私たちの最終的な方法は非常にシンプルかつ効果的で、自然画像、リモートセンシング画像変化検出、医療画像セグメンテーションで最適なパフォーマンスを実現します。

おすすめ

転載: blog.csdn.net/qq_39523365/article/details/133140800