セマンティックセグメンテーションの新しいパラダイム-ピクセルコントラスト学習

コード:https//github.com/tfzhou/ContrastiveSeg
紙:https//arxiv.org/pdf/2101.11939.pdf

序文

現在、セマンティックセグメンテーションアルゴリズムの本質は、ディープニューラルネットワークを介して画像ピクセルを高度に非線形な特徴空間にマッピングすることです。ただし、既存のアルゴリズムのほとんどは、ローカルコンテキスト情報(単一の画像内およびピクセル間の位置とセマンティック依存性)にのみ焦点を当てており、トレーニングデータセットのグローバルコンテキスト情報(クロスイメージ、ピクセル間のセマンティック相関)は無視しています。) 、全体的な観点から学習した特徴空間を制約することは困難であり、セマンティックセグメンテーションモデルのパフォーマンスを制限します。

最近、ETHチューリッヒとシャンタンインスティテュートの研究者が、完全に監視された新しいセマンティックセグメンテーショントレーニングパラダイムを提案しました。これは、トレーニングセット内および画像間でのピクセル-ピクセルの使用を強調するピクセル単位の対比学習です。対応(クロスイメージピクセル-従来の画像ごとのトレーニングパラダイムを置き換えるために使用される、構造化された(適切に構造化された)特徴空間を学習するためのピクセル間の関係)。

このトレーニング戦略は、主流のセマンティックセグメンテーションモデルに直接適用でき、モデルの推論段階で追加の計算オーバーヘッドが導入されることはありません。次の図は、Cityscapes検証セットでの主流のセグメンテーションアルゴリズムのパフォーマンスを示しています。DeepLabV3、HRNet、およびOCRでピクセルコントラスト学習を導入した後、より大幅なパフォーマンスの向上が達成されたことがわかります。
ここに画像の説明を挿入

セマンティックセグメンテーションの分野で現在無視されている問題は何ですか?

画像のセマンティックセグメンテーションは、画像内の各ピクセルのセマンティックラベルを予測することを目的としています。これは、コンピュータビジョンの分野における中心的な問題です。Fully Convolutional Network(FCN)[1]の導入以来、主流のセマンティックセグメンテーションアルゴリズムは画像内コンテキストを強調しています。主に2つの側面から開始します:1)拡張畳み込み、空間ピラミッドプーリング、エンコーダーデコーダー、非ローカルアテンションなどの古典的なモデルなど、さまざまなコンテキスト集約モジュールを提案します。コアアイデアは、追加のモデルパラメーターまたは特別な操作を使用することです。画像内のコンテキスト情報のモデリングと抽出; 2)従来のアルゴリズムでは、セマンティックセグメンテーションがピクセルレベルの分類タスクと見なされるため、クロスエントロピー損失はピクセルごとに独立して計算されますが、ピクセル間の差異は完全に無視されます。 。依存関係。したがって、一部の研究者は、ピクセル親和性損失[2]、lovasz損失[3]などの構造認識損失関数を提案しました。これは、セグメンテーション結果の全体的な構造情報をトレーニング目的関数に直接制約します。

ただし、上記の作業は画像内のコンテキスト情報にのみ焦点を当てており、クロスイメージのグローバルコンテキスト情報は無視しています。トレーニングセットでは、下の図(b)に示すように、異なる画像のピクセルにも強い相関関係があります。同じ色のピクセルは、それらが同じセマンティクスを持っていることを示します。
ここに画像の説明を挿入
さらに、現在のセマンティックセグメンテーションアルゴリズムの本質は、ディープニューラルネットワークを介して画像ピクセルを高度に非線形な特徴空間(上記の図cに示す)にマッピングすることです。このプロセスでは、コンテキスト集約モジュールまたは構造化された損失関数のみローカルピクセル間の依存関係を強調しますが、本質的な質問を無視します:理想的なセマンティックセグメンテーション特徴空間とは何ですか?

研究者は、優れたセグメンテーション特徴空間には同時に2つのプロパティが必要であると考えています。

  • 強力な識別能力:この特徴空間では、各ピクセルの特徴は、個々のピクセル埋め込みの強力な分類能力を備えている必要があります。
  • 高度に構造化:類似したピクセルの特徴は非常にコンパクトである必要があり(クラス内コンパクト)、異なるタイプのピクセルの特徴は可能な限り分散されている必要があります(クラス間分散)。

ただし、現在のセマンティックセグメンテーション方法は通常、プロパティ1のみに焦点を当て、2は無視します。さらに、多くの表現学習(表現学習)の作業[4、5]でも、プロパティ2を強調することにより、プロパティ1をより適切に強化するのに役立つことが確認されています。したがって、現在のセグメンテーションセグメンテーションアルゴリズムは優れたパフォーマンスを達成しているものの、プロパティ1と2を同時に考慮することで、より優れた構造化されたセグメンテーション特徴空間を学習し、セグメンテーションセグメンテーションアルゴリズムのパフォーマンスをさらに向上させることができると大胆に想定します。 。

教師なし比較学習からの考え

近年、教師なし学習の分野は驚異的な発展を遂げました。その源泉は、多数のラベルのないトレーニングサンプルの下でのコントラスト学習(対照学習)[6、7]の適用の成功です。画像がラベルのないトレーニングサンプル画像Iの特徴ベクトルであり、画像が画像Iの正のサンプル特徴であるとします。この正のサンプルは、多くの場合、Iに何らかの変換(反転やトリミング操作など)を適用することによって取得されます。 、画像はネガティブサンプルの特徴であり、トレーニングセット内の他の非I画像はネガティブサンプルと見なされます。次に、次のInfoNCE損失[8]などの学習損失関数を教師なしトレーニングと比較することにより、
ここに画像の説明を挿入
目標は、多数の負のサンプルから正のサンプルを識別することです。教師なしトレーニングによって得られた画像の特徴は、強力な一般化能力を示します。これにより、ダウンストリームタスクに優れたネットワーク初期化の重みを提供できます。または、少数のラベル付きサンプルを微調整(微調整)した後でのみ、完全な教師ありトレーニングに近づくことができます。パフォーマンス画像分類モデル。

教師なし比較学習の成功もインスピレーションをもたらします。比較学習はメトリック学習に属します。本質は、データセットの全体的な情報を使用して、強力な表現力を備えた画像表現空間を学習することです。画像セマンティックセグメンテーションの完全教師ありトレーニング条件下で、トレーニング画像の各ピクセルのラベルが付けられています。ポジティブサンプルは同じセマンティックカテゴリに属する​​ピクセルとして扱い、ネガティブサンプルは同じセマンティックに属さないピクセルとして扱うことができます。カテゴリ。、同じトレーニング画像から派生したものかどうかに関係なく。その後、メトリック学習またはコントラスト学習を使用して、従来のクロスエントロピー損失を改善し、すべてのトレーニング画像のピクセル間のグローバルな意味関係をマイニングし、高度に構造化されたセグメンテーション特徴空間を取得して、同時に強調することができます。ネイチャー1と2。したがって、研究者は、ピクセルコントラスト学習、ピクセルごとのコントラスト学習に基づく完全に監視されたセマンティックセグメンテーショントレーニングパラダイムを提案しました。これは、トレーニングデータセットのグローバルコンテキスト情報を使用して全体的な観点から学習することを強調しています。グローバル構造(クラス内のコンパクトさとクラス間の分散)で優れたプロパティを持つように制約されます。

上の図(d)に示すように、アンカーポイントとも呼ばれるトレーニングサンプルのピクセルiが与えられると、研究者はiをセグメント化された特徴空間の他のピクセルと比較し、可能な限りiに近づけます。距離同じタイプのピクセル(正のサンプル)の間で、iを異なるタイプの他のピクセル(負のサンプル)から可能な限り遠ざけるように強制します。したがって、トレーニングパラダイムは、トレーニングセット全体のすべてのピクセルのグローバルな意味的類似性を考慮することができるため、モデルは、より多様で大規模なサンプルを使用して表現学習の能力を向上させ、より良い意味的特徴空間を取得できます。 (図(e)に示すように))。

Pixel-Wiseクロスエントロピーに基づく古典的なセマンティックセグメンテーション損失関数の問題は何ですか?

次に、セマンティックセグメンテーションの分野における古典的なピクセル単位のクロスエントロピーを出発点として、メトリック学習またはコントラスト学習をセマンティックセグメンテーショントレーニングに導入する必要性についてさらに説明します。

前述のように、現在のセマンティックセグメンテーションアルゴリズムは、このタスクをピクセルごとのセマンティック分類問題と見なします。つまり、画像内の各ピクセルiのセマンティックラベルcを予測します。したがって、ピクセル単位のクロスエントロピーがトレーニングターゲットとして使用されここに画像の説明を挿入
ますここでyは、FCNを介して取得されたピクセルiの正規化されていないカテゴリスコアベクトル(ロジットとも呼ばれます)を意味します。cはピクセルiの真のラベルを意味します。 。

ただし、最適化目的関数には2つの欠点があります。

  • ピクセル間の関係を無視して、各ピクセルの予測を個別に制約するだけです
  • ソフトマックス演算を使用しているため、クロスエントロピーの計算は実際にはロジット間の相対的な関係にのみ依存しますが、学習したピクセルの特徴を直接制約することはできません(学習した表現を直接監視することはできません)。

最近のいくつかの構造化損失関数(ピクセルアフィニティ損失、lovasz損失など)は欠点1を認識していますが、同じ画像内のピクセル依存性のみを考慮し、異なる画像間のピクセルの意味的一貫性を無視しています。そして不利な点2、それはセマンティックセグメンテーションの分野ではめったに言及されません。

完全に監視されたピクセル間コントラスト学習に基づくセマンティックセグメンテーショントレーニングパラダイム

この論文で提案されたピクセル単位の対照学習は、クロスエントロピー損失関数の2つの欠点をよりよく解決することができます。トレーニングプロセスでは、任意のピクセル(アンカーポイント)iについて、その正のサンプルは同じタイプの他のピクセルであり、負のサンプルは異なるタイプの他のピクセルです。アンカーiのポジティブサンプルとネガティブサンプルの選択は、同じ画像に限定されないことに注意してください。ピクセルiの場合、コントラスト損失関数は次のように定義されます。ここに画像の説明を挿入
ここで、画像はピクセルiのすべての正のサンプルピクセルの特性を表し、画像はピクセルiのすべての負のサンプルピクセルの特性を表します。上記の式から、ピクセル間のコントラスト学習を通じて、研究者はセマンティックセグメンテーションの特徴空間に同じセマンティックカテゴリに属する​​ピクセルを直接描画し、異なるセマンティックカテゴリのピクセルを互いに遠ざけることがわかります。それにより、クロスエントロピー損失の2つの欠点を同時に強調します。

最終的なセマンティックセグメンテーション損失関数は次のように定義されます。
ここに画像の説明を挿入
クロスエントロピー損失は、セグメンテーションモデルを促進して、識別機能を学習し、分類機能を向上させます(プロパティ1を強調)。ピクセル単位のコントラスト損失は、ピクセル間のグローバルなセマンティック関係を調査して、全体として制約します。特徴空間のセマンティックセグメンテーション(自然2の強調)。

次の図は、クロスエントロピー損失(左の画像)と上記の混合損失関数(右の画像)のみを使用して学習したセグメンテーション機能を視覚化したものです。ピクセル単位のコントラスト損失を導入することにより、類似したピクセル機能がより多くなることがわかります。コンパクト。クラス間の分離が改善される可能性があります。これは、単項クロスエントロピー損失とパリワイズ対照損失の利点を組み合わせることにより、セグメンテーションネットワークがより良い特徴表現を学習できることを示しています。ここに画像の説明を挿入

さらなる議論

画像内のピクセルのローカルコンテキスト情報のみに焦点を当てる現在の主流のアルゴリズムとは異なり、この論文では、トレーニングデータセット内のすべてのピクセルのグローバルな関係をマイニングするための画像間およびピクセル比較損失関数を提案します。これにより、効果的に改善されます。セマンティックセグメンテーションのパフォーマンス。これは、トレーニングサンプル自体の特性だけでなく、グローバルな観点からのトレーニングサンプル間の関係にも焦点を当てて、現在の主流のトレーニングパラダイムを再考するのに役立ちます。

この記事はまた、次のようないくつかの有用な啓蒙をもたらします。

  • コントラスト学習またはメトリック学習は、ポジティブサンプルとネガティブサンプルの品質に依存します。よりスマートなサンプリング戦略は、セグメンテーションネットワークがより迅速かつ効果的に学習するのに役立ちます。
  • メトリック学習の観点から、クロスエントロピー損失は単項損失関数(単項損失)であり、コントラスト損失はペアワイズ損失関数(ペアワイズ損失)であり、高次のメトリック損失関数を探索すると、より大きくなる可能性があります。改善。
  • コントラスト損失は、計算で正と負のサンプルをサンプリングする必要があり、トレーニングでクラスのリバランスをより自然に達成することが可能です。
  • この論文のソリューションは、主流のセマンティックセグメンテーションデータセットで効果的なパフォーマンスの向上を達成し、他の高密度画像予測タスク(2D人間の姿勢推定、医療画像セグメンテーションなど)で利点を発揮することが期待されます。

おすすめ

転載: blog.csdn.net/weixin_42990464/article/details/114401479