[論文の解釈] カモフラージュされたオブジェクトの検出

カモフラージュ検出

SINet には 2 つのバージョンがあります

CVPR2020で公開されたSINet-v1

論文アドレス: Camouflaged_Object_Detection_CVPR_2020

コードアドレス:SINet-v1コード

IEEE TPAMI 2021で公開されたSINet-v2

論文アドレス:隠蔽されたオブジェクトの検出

コードアドレス:SINet-V2

v2 バージョンと比較して、v1 バージョンはネットワーク
構造にいくつかの変更があります。

v1 ネットワーク構造:

ここに画像の説明を挿入

v2 ネットワーク構造:

ここに画像の説明を挿入

SINet v1

SINet の主な貢献は、COD10K データ セットの作成と、カモフラージュ オブジェクト認識のピットです。

SINet v1 はネットワーク構造にあまり革新がなく、構造は主に CPD フレームワークに基づいています。

v1 構造を読む前に、この記事を読むことをお勧めします。

  • 高速で正確な顕著な物体検出のためのカスケード部分デコーダー

この記事は、2019 年の CVPR からの顕著なターゲット検出に関する記事です。

本稿では主に、高速かつ正確な顕著なオブジェクト検出のための新しいカスケード部分デコーダ (CPD) フレームワークを提案します。

SINetで使用するRFモジュール、SAモジュール、PDCモジュールはすべてCPDフレームワークをコピーしたモジュール

また、SINetv1 で使用される二重分岐構造は、コピーされた CPD の二重分岐構造でもあります。

基本的な構造は同じですが、低レベルの機能は破棄されません。

CPD フレームワークに関する別のブログを読むことができます: PDC モジュール、F モジュール、および SA モジュールはすべてここで説明されています

https://zpf1900.blog.csdn.net/article/details/127429430

ネットワーク全体の構造も CPD の構造をモデルにしており、2 つの分岐があります。

著者はそれを 2 つの部分に分けて Search Module (SM) と Identification Module (IM) と名付けましたが、実際には CPD の二重分岐構造です。

だから、命名は芸術です

バックボーン ネットワークは ResNet50 を使用し、5 つの畳み込みブロックの機能は破棄されません

最初の分岐では、PDC を使用して、RF モジュールを介して 5 つの畳み込みブロックの機能を融合します。

2 番目の分岐は、3 番目のモジュールの特徴マップを SA に送信し、次に、4 番目と 5 番目の畳み込みブロックの特徴マップと共に RF モジュールを通過し、それを PDC に送信して拡張マップを取得します。

クロスエントロピー損失関数を使用して、2 つのブランチを共同でトレーニングします。

特定のネットワークの詳細については CPD ブログに書いているので、ここでは説明しません。CPD の説明

さらに、CPD 記事の著者は、使用したモジュールの特定のネットワーク図を描いていません。

SINet は 2 つの絵を描く

RF モジュール:

ここに画像の説明を挿入

PDC モジュール:

ここに画像の説明を挿入

SINet v2

v2 と v1 の最大の違いは注意部分で、v2 はグループ反転注意を使用します。

特徴抽出

ResNet50 は引き続き使用されますが、v1 とは異なり、ここでは最後の 3 つのステージの機能のみが必要であり、低レベルの機能は破棄されます (CPD フレームワークの処理は参照用に引き続き使用されます)。

テクスチャ強化モジュール テクスチャ強化モジュール

3 段階で抽出された特徴はすべて TEM を通過します.これは v1 の RF モジュールですが、名前は変更されており、コードは変更されていません。

近隣接続デコーダー 近隣接続デコーダー

これは v1 の PDC モジュールで、名前が変更されただけです。説明なし

C 6 C_6を取得C6

グループ逆アテンション グループ逆アテンション

このグループは注意を逆転させます。その目的は、認識されたオブジェクトを消去し、ネットワークがフォローアップして他の領域の情報に集中できるようにすることです。

ここに画像の説明を挿入

公開中のラフ画ですC 6 C_6C6、最初に否定し、これをyyとして記録しますy

次に、バックボーン ネットワークによって抽出された特徴p 1 5 p^5_1p15、 xxとして記録×

全体のプロセスは、x をチャネルごとにいくつかのグループに分割し、そこに y を挿入してから、畳み込みと融合を行うことです。

例: p 1 5 p^5_1p15は○○ですx、入力は 32 チャネル、合計 3 つの GRA が実行され、最初はグループに分割されます。これは、x、32 チャネル、および逆 C 6 C_6 に直接等しくなりますC6yyy、33 チャネルを取得し、3x3 畳み込みの後、32 チャネルに戻してから、再度 ReLU を実行すると、新しいxxxと y は、この新しいxxx、畳み込み、チャネルは 1 次元に圧縮されます。これが新しいyyy、アテンション スコアとも呼ばれます。

次に、新しい x と y で 2 番目の GRA を実行します。今回は、入力 x は 32 チャネルで、4 つのグループに分割されます。つまり、各グループには 8 つのチャネルがあり、各グループの後に y を挿入します。つまり、各グループすべて9 チャネルになり、一緒に畳み込みに送信され、32 チャネルに戻され、新しい x として記録されます。同様に、チャネルを圧縮した後に得られた注意スコアが、新しい y として記録されます。

次に、3 番目の GRA では、32 のグループ、つまりチャネルのグループに分割し、各チャネルに y を追加して、64 チャネルにします. 同様に、畳み込みが 32 チャネルに戻り、圧縮されたチャネルが注目されました。スコア。最終的に得られる y は、図のr 4 5 r^5_4です。r45. C 6 C_6C6さらに、サイズを復元するために別のアップサンプリングを行った後、C 5 C_5を取得します。C5

C4C_4C4C 3 C_3C3それも同じです。

全体のプロセスは、実際には、C 6 C_6C6は我々が発見したターゲットで、C 6 C_6 を図に入れます。C6排除し、ネットワークに再びターゲットを検索させ、3 回の検索を行った後、C 6 C_6を配置します。C6塗りつぶし。C6C_6以外はパーフェクトと同等C6その他の情報。

次に、バックボーン ネットワークの 3 つの段階で取得された特徴マップに対してこのプロセスを繰り返します。これは、各段階で詳細を補足することと同じです。

最後に、出力グラフが取得され、ネットワーク全体の構造は次のようになります。

GRA モジュールの作成者は、次のように絵を描きました。

ここに画像の説明を挿入

要約する

この論文の主な貢献は、カモフラージュされた物体検出の体系的な研究課題を提案することです。

COD10K データセットを作成しました。

カモフラージュされたオブジェクトを検出するために SINet が提案されています。

SINetv1はあまり革新的ではなく、基本的には以下の記事のネットワーク設計に基づいています

  • 高速で正確な顕著な物体検出のためのカスケード部分デコーダー

SINetv2 は v1 の構造を変更し、アテンション モジュールをグループ反転アテンション モジュールに置き換えました。著者は、次の論文に触発されたと述べています。

  • Pranet: ポリープ セグメンテーションのための並列逆アテンション ネットワーク,2020
  • 敵対的消去によるオブジェクト領域マイニング: セマンティック セグメンテーション アプローチへの単純な分類,2017
  • 顕著物体検出の逆注意,2018

おすすめ

転載: blog.csdn.net/holly_Z_P_F/article/details/127560119