ターゲット検出のためのYOLOv3アルゴリズムの分析

基本的

フィーチャネットワーク
ここに画像の説明を挿入します

入出力
入力 $416 * 416 * 3 つ$ のサイズの画像 (一意ではありませんが、画像サイズは 32 の倍数である必要があります)、それぞれ 3 つのスケールの出力特徴マップ $13 * 13 * 255$ ， $26 * 26 * 255$ ， $52 * 52 * 255$ 、つまり $13 * 13、26$ 26 $26 * 26、52$ ∗ $52 * 52 個の$ グリッドセル。
各グリッドセルは 3 つのアンカーを生成します。各アンカーは予測ボックスに対応します。各予測ボックスには $5 + 80$ 个パラメータ， $\{（x,y,w,h,c）,80 \space 種類 \space クラスの \space\}$

出力分析
(この写真はZhihu)
ここに画像の説明を挿入します

$13 * 13 * 255$ ， $26 * 26 * 255$ ， $52 * 52 * 255 は$ それぞれ大、中、小のオブジェクトを予測します。
$13 * 13 * 255 は$ 32 回のダウンサンプリングによって得られた特徴です;
$26 * 26 * 255 は$ 16 倍のダウンサンプリングで、 $13 * 13$ ワンタイムアップサンプリングを組み合わせて得られる特徴;
$52 * 52 * 255$ は 8 回ダウンサンプリングされ、 $26 *$ 1 回のアップサンプリングを組み合わせて得られる $26 個の特徴。$

ポジティブサンプルとネガティブサンプル: ポジティブ
サンプルは、アンカーとリアルボックス間の IOU が指定されたしきい値および最大 IOU より大きいアンカーです。ネガティブサンプルは、
アンカーとリアルボックス間の IOU が指定されたしきい値より小さいアンカーです。

損失関数は、
正のサンプルの場合は座標損失、信頼損失とカテゴリ損失、および負のサンプルの場合は信頼損失で構成されます。
$\lambda_{coord} \sum_{i=0}^{S^2}\sum_{J=0}^{B}1_{i,j}^{ obj}[(b_x-\hat{b_x})^2+(b_y-\hat{b_y})^2+(b_w-\hat{b_w})^2+(b_h-\hat{b_h})^2 ]\\+\sum_{i=0}^{S^2}\sum_{J=0}^{B}1_{i,j}^{obj}[-log(p_c)+\sum_{i= 1}^{n}BCE(c_i,\hat{c_i})]\\+\lambda_{noobj}\sum_{i=0}^{S^2}\sum_{J=0}^{B}1_ {i,j}^{noobj}[-log(1-p_c)]$
$S^2$ はグリッドセルの総数、 $B$ は、各グリッドセル内のアンカーの数です。
1 行目は、陽性サンプルの座標損失と実際のフレームの座標損失を計算し、2 行 $1_{i,j}^{obj}$
の信頼性とカテゴリ損失を計算します。 $1_{私、 j}^{ああ}$ 陽性サンプルかどうかを示します; $log(p_c)$ 、 $p_c$ 1に近づくほど、 $log(p_c)$ は 0 に近く、カテゴリ損失では、検出された 80 個のカテゴリごとに、バイナリエントロピー損失演算が実行されます。
3 行目は、負のサンプルの信頼性損失です。 $log(1-p_c)$ $p_c$ 内 $p$ 0に近いほど式が小さくなり、0に近づきます。

パフォーマンス
ここに画像の説明を挿入します

ターゲット検出のためのYOLOv3アルゴリズムの分析

基本的

おすすめ