序文
前回のブログ投稿で紹介しましたがFocal Loss
、原理は比較的単純なので、理解できない場合は、前のブログ投稿にジャンプして学習してください。焦点損失の概要。このブログ投稿のソースを見てみましょうFocal Loss
: Focal Loss for Dense Object DetectionRetainNet
、この論文はone-stage
ネットワークを超えたネットワークを提案していますtwo-stage
。
1. RetainNetネットワーク
まずパフォーマンスを見てみましょう。ネットワークよりもRetainNet
はるかに優れていることがわかります。もう一度ネットワーク構造を見てみましょう :同様の構造も採用されていることがわかりますが、主に 3 つの違いがあります。知らない方は、以前のブログ投稿 ( FPN ネットワークの紹介)にジャンプしてください。 :Faster R-CNN
RetainNet
RetainNet
FPN
FPN
FPN
C2
ビルドが使用されるかP2
、ビルドがRetainNet
使用されないか。論文ではその理由として、より多くのコンピューティングリソースが計算されるためとしている。4 つの低レベルの機能があるため、解像度は比較的高くなります。C2
P2
C2
C2
FPN
inP6
は最大スケール ダウンサンプリング層によってダウンサンプリングされ、RetainNe
t は畳み込み層によってダウンサンプリングされます。FPN
これは からP2-P6
、RetainNet は からP3-P7
、活性化関数 U に基づいてP7
おり、畳み込みによって取得されます。P6
ReL
ではFPN
、各予測フィーチャ レイヤーは 1scale
と 3のみを使用しratios
、RetainNe
t の各予測フィーチャ レイヤーは 3scale
と 3を使用しますratios
。と次の表をRetainNet
参照してください。scale
ratios如
レイヤー | ストライド | アンカーサイズ | アンカーアスペクト比 | 生成されたアンカーの数 (3 を掛けると 3 つの比率を意味します) |
---|---|---|---|---|
P2 | 4(2 ( ^)2) | 32 | 0.5、1、2 | (1024//4) ( ^)2×3=196608 |
P3 | 8(2 ( ^)3) | 64 | 0.5、1、2 | (1024//8) ( ^)2xx3=49152 |
P4 | 16(2 ( ^)4) | 128 | 0.5、1、2 | (1024//16)^^2xx3=12288 |
P5 | 32(2 ( ^)5) | 256 | 0.5、1、2 | (1024//32) ( ^)2xx3=3072 |
P6 | 64(2 ( ^)6) | 512 | 0.5、1、2 | (1024//64) ( ^)2×3=768 |
RetainNet の予測子部分をもう一度見てみましょう。
予測子は 2 つの分岐に分かれており、1 つはカテゴリを予測し、もう 1 つはターゲット境界ボックス回帰パラメーターです。最終出力 K は検出対象(背景を除く)のカテゴリ数、A はanchor
各予測特徴層の数を表します。FasterRCNN
中央では、予測レイヤーについて、それぞれがカテゴリanchor
ごとに境界ボックス回帰パラメーターのセットを生成します。これは、ここでの予測とはわずかに異なり、ここでも同じですSSD
。現在、サンプルは基本的にこのカテゴリでは利用できません。既知の予測方法では、ネットワーク トレーニング パラメータを削減できます。
2. 損失の計算
まず、anchor
事前にマークされた GT ごとに照合、つまり計算を実行します。iou
ルールは次のとおりです。
- 如果 i o u > = 0.5 iou>=0.5 私はあなたです>=0.5、陽性サンプルとしてマーク
- iou < = 0.4 iou<=0.4私はあなたです<=0.4、陰性サンプルとしてマークされています
- iou ∈ [ 0.4 , 0.5 ) iou \in[0.4, 0.5)私はあなたです∈[ 0.4 、0.5 )、破棄
合計損失では、次のように分類損失と回帰損失が引き続き使用されます。
Loss = 1 NPOS ∑ i L clsi + 1 NPOS ∑ j L regj \text { Loss } =\frac{1}{N_{POS}} \sum_i L_ { cls}^i+\frac{1}{N_{POS}} \sum_j L_{reg}^j 損失 =NPOS1私∑Lクラス_ _私は+NPOS1j∑Lレグ_j
- L cls L_{cls}Lクラス_ _: シグモイド焦点損失については、前回のブログ投稿で紹介しました。理解できない場合は、戻って参照してください:焦点損失の概要。
- L reg L_{reg}L規則_:L1ロス
- iii : すべての正および負のサンプル
- 一言もないj : すべての陽性サンプル
- N 位置 N_{位置}Npos _: 陽性サンプルの数
以上、RetainNet
ネットワークについての紹介でしたが、間違いがあればご指摘ください!