ターゲット検出 -> SSD アルゴリズム

ターゲット検出アルゴリズムは、一般に、領域ベースのアルゴリズムと回帰ベースのアルゴリズムに分けられます。

1) 領域ベースのアルゴリズム: RCNN、Fast RCNN、Faster RCNN、Mask RCNN など。検出プロセス全体は 2 つの段階に分けられます。第 1 段階では、検出器はいくつかの仮想領域 (ROI) を見つける必要があり、第 2 段階では、検出器はこれらの仮想領域で分類と位置回帰 (境界ボックス回帰) を実行する必要があります。

2) 回帰ベースのアルゴリズム: YOLOシリーズなど 検出は、オブジェクトのカテゴリと場所を直接回帰するエンド ツー エンドのプロセスです。

SSD (Single Shot MultiBox Detector) は、1 段階の検出アルゴリズムです。Faster RCNN と YOLO の組み合わせと見なすことができます。回帰ベースのモデル (YOLO に似ています) を使用して、ネットワーク内のオブジェクトのカテゴリと位置を直接返すため、検出速度が非常に高速です。同時に、領域ベースの概念 (Faster RCNN と同様) も使用されます. 検出プロセス中に、多くの候補領域が ROI として使用されます。

Faster RCNN のレビュー:

Faster RCNN の問題点:

1) 小さなターゲットに対する検出効果は非常に低い (予測は 1 つのフィーチャ レイヤーでのみ実行されます。このフィーチャ レイヤーは多くの畳み込みレイヤーを通過しています。パスが多くなるほど、抽象化レベルが高くなり、画像の詳細な情報が少なくなります。影響が悪いほど、比較的低いレベルで特徴を予測する必要があります)

2) モデルが大きく、検出速度が遅い (2 つの予測、2 段階法の共通の問題)

SSD ネットワーク

異なるフィーチャ スケールで異なるスケールのオブジェクトを予測する

バックボーン ネットワーク:

SSD のバックボーン ネットワークは、従来の画像分類ネットワークに基づいており、vgg16 のネットワークの一部が基本ネットワークとして使用されます。図に示すように、10 の畳み込み層 (conv 層) と 3 つのプーリング層 (最大プーリング) を処理した後、サイズが 38×38×512 の特徴マップ (Conv4_3 特徴マップ) を取得できます。次のステップでは、この特徴マップで回帰を実行して、オブジェクトの場所とカテゴリを取得する必要があります。

回帰:

YOLO の回帰操作と同様に、まず、特徴マップの各位置に候補ボックス (デフォルト ボックス) が 1 つだけある場合を考えます。

1) 位置回帰:検出器は、画像サイズの幅と高さ (w、h) に対するフレーム中心オフセット (cx、cy) を与える必要があり、合計 4 つのパラメーターを返す必要があります。(Fast RCNN では、合計 (N+1)*4 個のパラメーターを持つ、各カテゴリの回帰ボックスが必要です)

2) 分類:境界ボックスごとに、20 カテゴリ + 1 背景カテゴリのスコアを与える必要があります。

位置ごとに、検出されたオブジェクトの位置とカテゴリ情報を格納するために 25 次元のベクトルが必要です。38×38 の特徴マップの場合、この情報を格納するために 38×38×25 のサイズのスペースが必要です。したがって、検出器は、特徴マップ (38×38×512) から検出結果 (38×38×25) へのマッピング関係を学習する必要があります。この変換ステップでは、畳み込み操作を使用します。25 個の 3×3 畳み込みカーネルを使用して、特徴マップを畳み込みます。ここまでで、ボックスを各位置に回帰させる操作が完了しました。

3) 複数の候補ボックス: SSD は、各位置で異なるサイズに基づいて k 個のボックスを返すことを望んでいます。したがって、これらのボックスの回帰および分類情報を格納するには、各位置に 25×k 次元の空間が必要です。そのため、畳み込み演算は、38×38×25k 次元テストを取得するために 25×k 3×3 畳み込みカーネルを使用することになります。結果マップ(スコアマップ)。

4) 複数の特徴マップ:ニューラル ネットワークの場合、浅い特徴マップにはより詳細な情報が含まれており、小さなオブジェクトの検出に適していますが、より深い特徴マップにはよりグローバルな情報が含まれており、大きなオブジェクトの検出に適しています。したがって、さまざまな特徴マップでさまざまなサイズの候補ボックスを回帰することにより、さまざまなサイズのオブジェクトに対してより良い検出結果を得ることができます。

SSDの検出精度と速度は優れており、76.8 mAP 22 FPSはFaster RCNNYOLOを上回っています  

おすすめ

転載: blog.csdn.net/wanchengkai/article/details/124377589