論文リンク: https://arxiv.org/pdf/2211.14512.pdf
コードリンク: https://github.com/yyliu01/RPL
トレーニング詳細: https://wandb.ai/yy/RPL?workspace=user-pyedog1976
ガイド
Out-of-Distribution (OoD) Segmentation
オリジナルのクローズド セット セグメンタに基づいたこのモデルには、異常なオブジェクトを識別する機能も備わっています。fine-tuning/retraining
現在の SOTA 手法はすべて、クローズドセット ネットワーク全体をリセットすることに基づいており、これは元のパフォーマンスの低下Segmentation
につながります。inlier object
同時に、ほとんどの OoD 手法は複数の異なる環境にうまく適合させることが難しく、その結果、異なるシナリオで異常なオブジェクトを識別するパフォーマンスに大きな差が生じます。
ここで、ICCV 2023 の中間草案の作業の一部を共有したいと思います。この作業では、現在の OoD セグメンテーションの 2 つの問題を最適化し、一貫したチェックポイントを持つすべてのデータ セットで非常に優れたパフォーマンスを達成しました。
背景
セマンティック セグメンテーション モデルは、ピクセル レベルのサンプルを In Distribution (ID) カテゴリに分類するために使用されます。ただし、オープンワールドに展開する場合、これらのモデルの信頼性は、ID ピクセルを分類する能力だけでなく、分布外 (OoD) ピクセルを検出する能力にも依存します。たとえば、自動運転タスクにおいて、路障
道路上に障害物 (OoD オブジェクトなど) が出現した場合、従来のクローズセット セマンティック セグメンテーションではこれらのオブジェクトをうまく検出できません。元のセグメンテーション モデルではトレーニング中にこれらのカテゴリが定義されていないため、このタイプのオブジェクトは頭部カテゴリ (道路など) として判断され、運転に潜在的な危険を引き起こす可能性があります。
OoD セグメンテーションの方向性の概要:
ロックネットワーク
最も直接的な方法は、セグメンテーションによって出力されたマスク内の潜在的な信頼性の低いピクセルをsoftmax
、 またはenergy
の結果を通じて直接 OoD として判断することです。この方法の利点は、ID のセグメンテーション パフォーマンスに影響を与えず、ネットワークのトレーニングを必要としないことですが、複雑なインライアまたはアウトライアに遭遇すると、上の図 (a) に示すようにパフォーマンスが大幅に低下します。
再訓練する
最新の方法は、Outlier Exposure (OE) を通じて無関係な OoD データ セットを ID データ セットに追加し、その後、トレーニングされたfine-tune
クローズセット セグメンテーション モデルを追加することです。この微調整プロセスでは、新しく追加された OoD オブジェクトを使用して、異常に対する元のセグメンテーション モデルの感度が強制的に高められ、OoD セグメンテーションのパフォーマンスが大幅に向上します。ただし、この種の方法を再トレーニングすると、図 (b) に示すように、元の ID カテゴリのセグメンテーションのパフォーマンスに不可逆的な干渉が発生します。
これら 2 つの点を動機として、図 © に示すように、元のインライア分類パフォーマンスを維持しながら、安定した効果的な OoD セグメンタを取得したいと考えています。
方法
残留パターンブロック (RPL)
これまでの直接ネットワーク セグメンテーションとは異なり、軽量のRPL ブロック (f rpl )fine-tuning/retraining
を元のネットワークに追加しました。その後、元のセグメンテーション モデルは全体でロックされます。基本的な考え方は、f rplブロックは ID ピクセルには影響を与えませんが、潜在的な OoD ピクセルに妨害を与えるため、対応する信頼度が大幅に低下し、最終的なブロックによって異常かどうかが判断されるというものです。地図。energy
トレーニング プロセスでは、最初に元のネットワークを使用して y_tilde (ID 疑似ラベル) を生成します。
次に、RPL で摂動した後の元のネットワークの結果は次のようになります。
ID のピクセルについては、ペナルティとしてクロスエントロピーを使用して OE の元の OoD オブジェクトを確保し、次のエネルギー コスト関数を使用してそのエネルギーを制限します
トレーニング プロセス中、RPL は元のセグメンテーション モデルのパフォーマンスに影響を与えず、潜在的な OoD ピクセルを効率的にセグメント化できます。
コンテキストロバストな対照学習 (CoroCL)
現時点では、さまざまなシナリオにおけるすべての OoD セグメンテーションのパフォーマンスは不安定で、たとえば、ほとんどのセグメンタは都市部のシーンではオブジェクトをうまく検出できますが、次のような田舎の環境 (コンテキスト) では直接失敗します。
この問題に対処し、複数のコンテキストに対するネットワークの堅牢性を高めるために、教師あり対照学習を参照します。RPL に基づいて投影レイヤーのレイヤーを追加し、次の 4 種類のサンプルをランダムに抽出しました。
-
1.) & 2.) ID シーンのインライアと異常ピクセル:
-
3.) & 4.) OoD シーンのインライアと異常ピクセル:
InfoNCE を使用して、さまざまなシナリオのインライア機能を集約し、異常な機能を排除します
実験
試験結果
(wandb 視覚化: https://wandb.ai/yy/RPL?workspace=user-pyedog1976 )
私たちの結果は、複数のベンチマークで最も安定した結果を獲得し、以前の SOTA FPR を 10 ポイント以上、AuPRC を 20 ポイント上回りました。
アブレーション研究
アブレーション実験では、最初にエントロピーとエネルギーを損失として使用した結果を比較し、次に RPL を使用した場合とバイナリ OoD 検出器を直接使用した場合 (最後の行) を比較することができ、RPL とエネルギーは安定した改善をもたらします。ただし、RPL には、さまざまなコンテキストにおける以前の OoD セグメンテーションに共通する問題もあります。つまり、FS-Static\L&F の都市環境ではうまく機能しますが、SMIYC&RoadAnomaly (25.65 & 17.74) や CoroCL などの他のコンテキスト ベンチマークではパフォーマンスが低下します。この問題は非常によく軽減されました。
RPLのアブレーション
上の図では、元の近接集合セグメンテーション モデル mIoU [39] と他の再トレーニング ベースの OoD ([3]、[9]、および [31]) のパフォーマンスを比較していますclose-set
。私たちの方法とフリーズモデル方法[13]はIDデータセットでは変更されていませんが、私たちの方法はOoDピクセルを識別する際のパフォーマンスが向上しています(セクション1.)に示すように)。
同時に、上の表に示すように、RPL ブロックはすべてのベンチマークで他の OoD メソッドをさらに改善できます。
CoroCLのアブレーション
アンカーセットと対照セットの選択において、さまざまな組み合わせをテストしました。最終的に、アンカーをインライアおよび (OE) アノマリーとして使用し、すべてのタイプとしてコントラストを設定した場合に最適に機能することがわかりました。
この組み合わせでは、InfoNCE は異なる種類の ID を互いに近づけるだけで、OoD を遠ざけます。以前の方法とは異なり、2 つの OoD 間の距離は無視されます。
学習された RPL 機能
私たちは自己注意を使用します。
torch.einsum(’abc,bca->bc’, r, r.permute(1,2,0))
RPL の出力によって学習された OoD パターン ® を視覚化します。上の図からわかるように、RPL は潜在的な OoD オブジェクトに妨害を出力し、ID のピクセルは 0 出力に適合します。
最終的な視覚化
上の図ではさまざまなシナリオでモデルを視覚化し、優れた視覚効果を実現しました。
色が赤くなるほど異常の可能性が高くなります
最後に書きます
もっと面白い作品があって友達と共有したい場合は、WeChat アカウント cv_huber を追加するか、画面下部の QR コードをスキャンして編集者に連絡してください。