基本的
フィーチャネットワーク
入出力
入力416*416*3 416*416*3416∗416∗3 つのサイズの画像 (一意ではありませんが、画像サイズは 32 の倍数である必要があります)、それぞれ 3 つのスケールの出力特徴マップ13 ∗ 13 ∗ 255 13*13*25513∗13∗255,26*26*255 26*26*25526∗26∗255,52 * 52 * 255 52*52*25552∗52∗255、つまり13 ∗ 13 13*1313∗13、26 ∗26 26*2626∗26、52 ∗52 52*5252∗52 個のグリッド セル。
各グリッド セルは 3 つのアンカーを生成します。各アンカーは予測ボックスに対応します。各予測ボックスには5 + 80 5 + 805+80个パラメータ,{ ( x , y , w , h , c ) , 80 種類のクラス } \{(x,y,w,h,c),80 \space 種類 \space クラスの \space\}{
(x 、よ、w、h、c )、80種類のクラス} _ _ _ _ _ _
出力分析
(この写真はZhihu)
13*13*255 13*13*25513∗13∗255,26*26*255 26*26*25526∗26∗255,52 * 52 * 255 52*52*25552∗52∗255 はそれぞれ大、中、小のオブジェクトを予測します。
13*13*255 13*13*25513∗13∗255 は32 回のダウンサンプリングによって得られた特徴です;
26*26*255 26*26*25526∗26∗255 は16 倍のダウンサンプリングで、13*13 13*1313∗13ワンタイムアップサンプリングを組み合わせて得られる特徴;
52 ∗ 52 ∗ 255 52*52*25552∗52∗255は 8 回ダウンサンプリングされ、26 ∗ 26 26*2626∗1 回のアップサンプリングを組み合わせて得られる26 個の特徴。
ポジティブ サンプルとネガティブ サンプル: ポジティブ
サンプルは、アンカーとリアル ボックス間の IOU が指定されたしきい値および最大 IOU より大きいアンカーです。ネガティブ サンプルは、
アンカーとリアル ボックス間の IOU が指定されたしきい値より小さいアンカーです。
損失関数は、
正のサンプルの場合は座標損失、信頼損失とカテゴリ損失、および負のサンプルの場合は信頼損失で構成されます。
λ coord ∑ i = 0 S 2 ∑ J = 0 B 1 i , jobj [( bx − bx ^ ) 2 + ( by − by ^ ) 2 + ( bw − bw ^ ) 2 + ( bh − bh ^ ) 2 ] + ∑ i = 0 S 2 ∑ J = 0 B 1 i , jobj [− log ( pc ) + ∑ i = 1 n BCE ( ci , ci ^ ) ] + λ noobj ∑ i = 0 S 2 ∑ J = 0 B 1 i , jnoobj [ − log ( 1 − pc ) ] \lambda_{coord} \sum_{i=0}^{S^2}\sum_{J=0}^{B}1_{i,j}^{ obj}[(b_x-\hat{b_x})^2+(b_y-\hat{b_y})^2+(b_w-\hat{b_w})^2+(b_h-\hat{b_h})^2 ]\\+\sum_{i=0}^{S^2}\sum_{J=0}^{B}1_{i,j}^{obj}[-log(p_c)+\sum_{i= 1}^{n}BCE(c_i,\hat{c_i})]\\+\lambda_{noobj}\sum_{i=0}^{S^2}\sum_{J=0}^{B}1_ {i,j}^{noobj}[-log(1-p_c)]私コーディネート_i = 0∑S2J = 0∑B1私、jああBJ[( b×−b×^)2+( bはい−bはい^)2+( bw−bw^)2+( bふ−bふ^)2 ]+i = 0∑S2J = 0∑B1私、jああBJ[ − l o g ( pc)+i = 1∑ん紀元前( c私は、c私は^)]+ lいや、ベジi = 0∑S2J = 0∑B1私、jいや、ベジ[ − l o g ( 1−pc)]
S 2 S^2S2はグリッド セルの総数、BBBは、各グリッド セル内のアンカーの数です。
1 行目は、陽性サンプルの座標損失と実際のフレームの座標損失を計算し、2 行1 i , jobj 1_{i,j}^{obj}
の信頼性とカテゴリ損失を計算します。1私、jああBJ陽性サンプルかどうかを示します; − log ( pc ) -log(p_c)− l o g ( pc)、pc p_cpc1に近づくほど、−log ( pc ) -log(p_c)− l o g ( pc)は 0 に近く、カテゴリ損失では、検出された 80 個のカテゴリごとに、バイナリ エントロピー損失演算が実行されます。
3 行目は、負のサンプルの信頼性損失です。- log ( 1 − pc ) -log(1-p_c)− l o g ( 1−pc) PC p_c内pc0に近いほど式が小さくなり、0に近づきます。
パフォーマンス