I. 概要
U2Net は、SOD タスク用に設計されたネットワークです (SOD タスク: 画像内で最も魅力的なターゲット/領域をセグメント化します。つまり、前景と背景の 2 つの部分のみがあり、これは 2 つのカテゴリの問題です)。
2. ネットワーク構造
1. 特徴抽出ネットワーク
エンコーダ段階では、各ブロックは 2 回ダウンサンプリングされ (maxpool)、デコーダ段階では、各ブロックの前に 2 回サンプリングされます (バイリニア)。
EN_1 と DE_1 で使用するモジュールはRSU-7 (ダウンサンプリング 5 回、アップサンプリング 5 回、合計圧縮率 32) であり、その構成は下図に示されています。
EN_2 と DE_2 は、RSU-7 と比較してアップサンプリングとダウンサンプリングが 1 つ少ない RSU-6 を使用し、合計の圧縮率は 16 倍になります。EN_3 と DE_3 は RSU-5 を使用します (RSU-6 の 2 倍の圧縮率よりも低い)。 EN_4 および DE_4 は RSU-4 を使用します (圧縮率は RSU-5 の 2 分の 1)
ただし、EN_5、EN_6、DE_5 はRSU-4F構造を使用しており (下図参照)、RSU-4 と比較して、この構造にはダウンサンプリング構造がありません。この構造を採用する理由は、数回のダウンサンプリングの後、特徴マップのサイズがすでに非常に小さくなっているためです。再度ダウンサンプリングすると、一部の情報が失われます。
2. 機能融合ネットワーク
DE_1、DE_2、DE_3、DE_4、DE_5、および EN_6 の出力特徴マップをそれぞれ取得し、それぞれ 3x3 畳み込みを実行します (カーネル = 1、畳み込み後のチャネル数は 1)。
次に、双一次補間によって特徴マップを入力マップのサイズに復元します。
最後に、6 つの特徴マップが連結ステッチされます。結合された特徴マップは、1x1 畳み込みカーネル シグモイド活性化関数の対象となり、最終的な予測が取得されます。
3. ネットワーク構成パラメータ
上が標準ネットワーク、下が軽量ネットワークです。対応するパラメータを次の図に示します。
4. 損失関数
損失関数は 2 つの部分に分割できます。6つの特徴マップと、ラベル付きの Ground Turth 計算損失(バイナリ クロス エントロピー損失 )を表します。各損失の重みを表します。これは、最終結果と Ground Turth の間の損失です。すべての重みのデフォルトは 1 です。
5. 評価指標
1.F値
値の範囲は 0 ~ 1 で、値が大きいほど効果が高くなります。
2.前