ターゲット検出: YOLOV3

CVPR2018にて発表されました。YOLOV3 自体にはそれほど多くの革新性はなく、主に当時の主流ネットワークの利点を統合しています。

1. YOLOV3 のバックボーンの改善:

imagenetにおける各バックボーンネットワークの運用効果。Darknet-53 を ResNet-152 と比較すると、top1 と top5 は似ていますが、2 倍高速です。

Darknet-53 ネットワーク構造 (53 畳み込み層)

Darknet53 は主に残留ブロックを積み重ねることによって形成されますが、Darknet53 には最大プーリング層がなく、ダウンサンプリングは畳み込み層によって実現されます。この操作により、Darknet53 の畳み込み層は 53 個のみになりますが、ResNet152 の 152 個の畳み込み層の効果が得られる可能性があります。

図の各畳み込みには、Conv2d、BN、LeakyReLU の 3 つのステップが含まれています。Conv2d にはバイアスが含まれていないため、BN レイヤーを使用する場合、バイアスは影響を受けません。

図内の各ボックスは、以下に示す残差構造です。

2. YOLOV3 モデルの構造:

YOLO v3 では、スケールの異なる 3 つの特徴マップがオブジェクト検出にさらに使用されます。トレーニング セット内のすべてのターゲット bbox の位置は、k-means 法によってクラスター化され、対応するアンカー (スケールごとに 3 つずつ、合計 9 つのアンカー) が取得されます。

COCO データセット内の以前の 9 フレームは次のとおりです。

分布に関しては、より大きな以前のフレーム (116x90)、(156x198)、(373x326) が最小の 13 * 13 特徴マップ (最大の受容野を持つ) に適用され、より大きなオブジェクトの検出に適しています。中サイズのオブジェクトの検出に適した、中程度の 26 * 26 特徴マップ (中程度の受容野) に中程度の事前フレーム (30x61)、(62x45)、(59x119) を適用します。より小さな以前のフレーム (10x13)、(16x30)、(33x23) が、より大きな 52 * 52 特徴マップ (より小さな受容野) に適用され、より小さな物体の検出に適しています。

各予測特徴レイヤーの予測結果のベクトル次元は、N*N*[(4+1+C)*K] です。ここで、N は特徴マップのサイズ、C はカテゴリの数、COCOデータセットは 80、K アンカーの数は 3 です。

YOLOV3 の全体的なネットワーク モデルは次のとおりです。

各特徴マップがネットワーク内でアップサンプリングされた後、元のサイズの特徴マップとの融合方法は連結、つまり深さ方向のスプライシングです。以前の FPN ネットワークは要素ごとの加算を使用していました。

通常、大きなサイズの特徴マップは小さなサイズのターゲットを予測でき、中サイズの特徴マップは通常中サイズのターゲットを予測でき、小さなサイズの特徴マップは通常大きなサイズのターゲットを予測できます。

予測を生成する最後の 3 つのレイヤーはすべて Conv2d のみであり、BN と LeakyReLU は含まれていないことに注意してください。

3. YOLOV3 でのターゲット境界ボックスの予測:

YOLOV3のターゲットバウンディングボックスの予測はYOLOV2と同じ仕組みを採用しており、中心点はグリッドユニットに対する相対位置を直接予測します(シグモイド関数により0と1の間で変化します)。

YOLOv3 ネットワーク予測の中心点は、より高速な rcnn および SSD とは少し異なり、より高速な rcnn および SSD ネットワークの中心点予測の回帰パラメーターはアンカーに相対的です。YOLOv3 の中心点の回帰パラメータは、グリッドの左上隅を基準としています

  

上の図は、オブジェクト境界ボックスの回帰プロセスを示しています。図の点線の四角形はアンカー テンプレート ((pw,ph) のみに注目) 情報であり、実線の四角形はネットワークによって予測されたオフセットによって計算された予測された境界ボックスです (アンカー テンプレートの左上隅を基準としたもの)。グリッドセル)。ここで、(cx, cy) は対応するグリッド セルの左上隅の座標、(pw, ph) はフィーチャ レイヤーにマッピングされたアンカー テンプレートの幅と高さ、ネットワーク出力 (tx, ty, tw) です。 , th) は、ネットワーク予測ボックスの中心オフセット (tx, ty) と幅と高さのスケーリング係数 (tw, th) の境界です。(bx, by, bw, bh) は、( (tx, ty, tw, th) から (bx,by,bw,bh) の式が図の右側に示されています。ここで、σ(x) 関数は予測オフセットをスケーリングすることを目的としたシグモイド関数です。 0 から 1 の間 (各グリッド セルの予測された境界ボックスの中心座標が現在のセルに制限されるようにするため、著者はこれによりネットワークの収束を高速化できると述べています)。

4. YOLOV3 の正と負のサンプル マッチング:

各 GT はすべてのアンカー テンプレートと比較されます。

GT とアンカー テンプレートの左上隅を一致させるために使用し、その IOU を計算します。その後、IOU>0.3 などのしきい値を設定することで、すべてが陽性サンプルとして設定されます。グラフの 2 番目のみが条件を満たします。次に、GT を GRID グリッドにマッピングし (またはフィーチャ レイヤーを予測し)、どのグリッド セルが GT の中心点であるかを決定します。このグリッド セルのアンカー テンプレート 2 がポジティブ サンプルになります。GT および複数のアンカー テンプレートの IOU がしきい値より大きい場合、現在指定されているグリッド セルに対応する複数のアンカー テンプレートは陽性サンプルとみなされます。これによりサンプル数が増加します。実践すると効果がさらに高まることがわかりました。

5. 損失の計算:

YOLOv3 の損失関数は主に、ターゲット信頼性損失、ターゲット分類損失、およびターゲット測位オフセット損失の 3 つの部分に分かれています。このうち、λ 1 、λ 2 、λ 3 はバランス係数である。

おすすめ

転載: blog.csdn.net/wanchengkai/article/details/124408697
おすすめ