ターゲット検出におけるアンカーベースとアンカーフリーについて理解する

导读

ターゲット検出モデルはアンカーに応じてアンカーベースとアンカーフリーの2つに分類され、
そのうちアンカーベースの代表的なアルゴリズムとしては、より高速なr-cnn、ssd、retinaNet、yolo v2、yolo v3などがあります。 ..
アンカーフリーの代表的なアルゴリズムには、yolo v1、CornerNet、CenterNet...があります。

anchor based

現在、主流のターゲット検出アルゴリズムは、2 段階および 1 段階を含むアンカーベースがほとんどです。いわゆるアンカーとは何ですか?端的に言うと、手動やクラスタリングなどの手法であらかじめ設定された、サイズや縦横比の異なる箱のことです。これらのボックスは、検出漏れを防ぐために画像全体をカバーします。モデルのトレーニング プロセス中、アンカーの長さ、幅、位置は、アンカーとグラウンド トゥルース間の IoU (交差対結合比) 損失に従って回帰され、グラウンド トゥルースに近づき、次のカテゴリを予測します。回帰中のアンカー、そして最終的にこれらの回帰分類されたアンカーを出力します。2 段階法では、1 段階法に比べてスクリーニングおよび最適化するアンカーの数がはるかに多く、スクリーニング手順がより厳密であるため、時間はかかりますが、精度は高くなります。一般的に使用される検出ベンチマークでは、SOTA メソッドは一般にアンカーベースです。

  • One-Stage
    One-Stage の考え方は、画像を S×S の小さなグリッドに分割すること、つまり、特徴マップ上のアンカーに対して回帰とカテゴリ予測を直接実行することです。このアプローチでは、領域候補を取得するためのランダム検索が回避され、畳み込み演算の繰り返しが回避されるため、計算効率が非常に高く、検出速度が非常に高速になりますが、探索領域候補 (つまり、バックグラウンド スクリーニング) が不足しているため、精度はあまり高くありません。その理由の 1 つは、画像内の小さなオブジェクトや、画像内で互いに接近している複数のオブジェクトが検出ミスを引き起こすことです。1 段階手法の継続的な最適化と反復により、CSPDarknet、さまざまなデータ拡張機能 (モザイク...)、FPN、SPP など、優れたパフォーマンスを備えた多くのバックボーンとトリックが提案されていますが、これらは一部の検出を犠牲にする可能性があります。同時に(犠牲にすることなく)検出精度を向上させます。現在、1 段階法の精度は 2 段階法と同等の結果に達しています。
  • 2 段階
    高速 r-cnn の出現により、2 段階のアンカーベースの検出器の優位性が確立されました。Faster r-cnn は、rpn ネットワークと地域別予測ネットワーク (R-CNN) で構成され、ターゲットを予測します。それ以来、構造の再設計、注意メカニズム、マルチスケールトレーニング、トレーニング戦略と損失関数、特徴の融合と強化、候補フレームのバランスなど、パフォーマンスを向上させるために多くのアルゴリズムが提案されてきました。現在、標準的な検出ベンチマークでは、SOTA の結果は依然として 2 段階のアンカーベースの手法が大半を占めています。

anchor free

FPN と Focal Loss の出現により、不十分な特徴の意味情報とポジティブサンプルとネガティブサンプル間の不均衡の問題が効果的に解決され、多くのアンカーフリーアルゴリズムが登場しました。アンカーフリー検出器は、2 つの異なる方法でオブジェクトを検出します。1 つは、まず複数の事前定義されたキー ポイントまたは自己学習キー ポイントを見つけてから、オブジェクトの空間範囲を制限することであり、これはキーポイント ベースの方法と呼ばれます。もう 1 つは、キーポイント ベースの方法と呼ばれます。中心点または中心ターゲット領域を使用して陽性サンプルを定義し、ターゲットの 4 つの側面までの距離を予測します。これは、中心ベースの方法と呼ばれます。アンカーフリーの方法では、ターゲット検出のプロセスがさらに簡素化され、関連するハイパーパラメータが削減され、ネットワークの構築とトレーニングが容易になり、より強力な汎化能力が得られます。

  • KeyPoint ベースなどのアンカーフリーの方法で
    は、最初に事前定義されたキー ポイントまたは自己学習キー ポイントの位置が特定され、次にオブジェクトを検出するためのフレームが生成されます。CornerNet は、一対のキー ポイント (左上と右下) を通じてオブジェクトの境界ボックスを検出します。CornerNet-Lite は、速度を上げるために CornerNet-Saccade と CornerNet-Squeeze を導入します。Grid R-CNN の第 2 段階では、FCN の位置に敏感な利点を利用してグリッド点を予測し、フレームを判断してオブジェクトの位置を特定します。ExtremeNet は、オブジェクトの 4 点 (最上部、最左部、最下部、最右端) と中心点を検出して、オブジェクトの境界ボックスを生成します。Zhuらは、キーポイント推定を使用してオブジェクトの中心点を見つけ、サイズ、3D位置、向き、姿勢などの他の属性を回帰分析しました。CenterNet は CornerNet を拡張して、2 点ではなく 3 点で精度と再現率を向上させます。RepPoints はオブジェクトをサンプル ポイントのコレクションとして表し、オブジェクトの空間範囲を制限し、意味的に重要な局所領域を強調することによって学習します。

  • 中心ベースの
    方法では、オブジェクトの中央領域 (中心点または領域) を前景とみなし、ポジティブ サンプルを定義し、オブジェクトの 4 つの側面までの距離を予測します。YOLOは画像をS×Sのグリッドに分割し、物体の中心点が特定のグリッド内に収まれば、そのグリッドが対象物体を検出します。DenseBox は、オブジェクトの中心にある円領域を使用して陽性サンプルを定義し、円からオブジェクト境界までの 4 つの距離を予測します。GA-RPNは、オブジェクトの中央領域のピクセルをポジティブサンプルとして定義し、Faster R-CNNのオブジェクト候補ボックスの位置、幅、高さを予測します。FSAF は、RetinaNet 上にアンカーフリー ブランチとオンライン特徴選択メカニズムを追加します。このブランチは、オブジェクトの中央領域をポジティブ サンプルとして定義し、オブジェクトの 4 つの側面までの距離を使用してオブジェクトの位置を特定します。FCOS は、オブジェクト境界ボックス内のすべての位置をポジティブ サンプルとして定義し、4 つの距離値と 1 つの中心性スコアを通じてオブジェクトを検出します。CSP はオブジェクトの中心点のみをポジティブ サンプルとして定義し、固定アスペクト比を通じて歩行者を検出します。FoveaBox は、オブジェクトの中央部分の位置を陽性サンプルとして定義し、各位置には検出用の 4 つの距離があります。

总结

上記は、現在のターゲット検出アルゴリズムの分類 (アンカーの有無と検出段階による) を要約し、アンカーベースの方法における 2 段階と 1 段階の長所と短所を分析し、現在の主流を示しています。アンカーフリーの方法、皆さんに読んでいただければ、たまに得することもあります 何か得したと感じたら、ブックマークやいいねをしていただければ幸いです 同時に、皆さんもコメント欄で交流してください。

参考引用

https://zhuanlan.zhihu.com/p/139476476

おすすめ

転載: blog.csdn.net/Just_do_myself/article/details/118520732