ターゲット検出: YOLOV4

CVPR は 2020 年に出版されたもので、オリジナルの YOLO シリーズの著者ではありません

YOLOV3 と比較すると比較的大きな改善が見られますが、YOLOV3-SPP と比較すると改善は比較的小さいです。

1. YOLOV3 のネットワーク構造改善との比較:

1. CSP構造の導入: DARKNET53->CSPDARKNET53

著者は、CSP の役割は次のとおりであると考えています。

1) CNN ネットワークの学習能力を強化します。

2) 計算のボトルネックを取り除く。

3) メモリのオーバーヘッドを削減します。

CSP モジュールは次のとおりです。

2. SPP構造の導入:マルチスケール問題を解決します。これは YOLOV3-SPP と同じです。

3. PAN構造を導入します。

元の機能の PANET 機能の融合は要素ごとの追加ですが、ここでは YOLOV4 は連結操作です。

4. CSPDARKNET53の全体的なネットワーク構造

1. YOLOV3 最適化戦略の改善との比較:

1. GRID のグリッド感度を削除します。

ターゲットの中心点がたまたま GRID 上にある場合、σ(tx) または σ(tx) は 0 または 1 であり、tx または ty は ±∞ でなければなりませんが、この極端な数値ネットワークを実現することは通常は不可能です。著者の方法は、次の図に示すように、スケーリング係数を乗算することです。通常、スケーリング係数は 2 です。

このときオフセットは-0.5~1.5まで拡張されていますが、0~1の間であればtxとtyは下図の点線の間であれば実現可能です。

2.モザイクデータの強化: YOLOV3-SPP と同様、複数の画像を結合し、トレーニングのためにネットワークに送信するプロセス

3.正のサンプル IOUしきい値:

以前の YOLOV3 陽性サンプルの方法は、各 GT をすべてのアンカー テンプレートと比較することでした。GT とアンカー テンプレートの左上隅を一致させるために使用し、その IOU を計算します。その後、IOU>0.3 などのしきい値を設定することで、すべてが陽性サンプルとして設定されます。グラフの 2 番目のみが条件を満たします。次に、GT を GRID グリッドにマッピングし (またはフィーチャ レイヤーを予測し)、どのグリッド セルが GT の中心点であるかを決定します。このグリッド セルのアンカー テンプレート 2 がポジティブ サンプルになります。GT および複数のアンカー テンプレートの IOU がしきい値より大きい場合、現在指定されているグリッド セルに対応する複数のアンカー テンプレートは陽性サンプルとみなされます。これによりサンプル数が増加します。実践すると効果がさらに高まることがわかりました。

YOLOV4 では、下図の 3 つのグリッド セルに対応する AT2 がすべて陽性サンプルとみなされます。GRID グリッドの感度を除去する操作により、現在のサンプルの中心点は、上と左のグリッド セルの -0.5 ~ 1.5 の間にあります。これにより、陽性サンプルの数がさらに増加する可能性があります。

さらに 5 つのケース:

4.アンカーテンプレートの最適化

512*512 サイズについては、再最適化されていますが、より良いサイズがあるかどうかはわかりません。

5.CIOUの使用

YOLOV3-SPP と同じです。

おすすめ

転載: blog.csdn.net/wanchengkai/article/details/124512263