【OpenMMLab AI Combat Camp Phase IIメモ】6日目のターゲット検出とMMDetection

1. 物体検出とは何ですか?

ここに画像の説明を挿入します

物体検出と画像分類

ここに画像の説明を挿入します

ターゲット検出アプリケーション

(1) 顔認識
(2) スマートシティ
(3) 自動運転
(4) 下流の視覚タスク: シーンテキスト認識、人体の姿勢推定

物体検出技術の進化

ここに画像の説明を挿入します
ここに画像の説明を挿入します

2. 基礎知識

ボックス、境界ボックス

フレームとは通常、画像上の水平方向と垂直方向の境界線を持つ長方形のフレームを指します。
境界ボックスは通常、対象のオブジェクトを密に取り囲むボックスを指します。検出タスクでは、画像に表示される各オブジェクトの境界ボックスを予測する必要があります。

ユニオン上の交差点

定義: 2 つの長方形ボックスの交差領域結合領域の比率は、長方形ボックスの重なりの程度の尺度です。
ここに画像の説明を挿入します

受容野

定義: ニューラル ネットワークにおいて、ニューロンが見ることができる元の画像の領域
ここに画像の説明を挿入します

受容野の中心とステップサイズ

受容野の中心:

  • 一般的な結論はさらに複雑です。
  • サイズ 3x3 およびパッド = 1 の畳み込み (またはプーリング) でスタックされたモデルの場合、受容野の中心 = 特徴マップ上のニューロンの座標 x 受容野のステップ サイズ

受容野のステップ サイズ (= ダウンサンプリング レート = 特徴マップ サイズの縮小率):

  • ニューラルネットワークの特定の層上の隣接する2つのニューロンの受容野間の距離
  • ステップ サイズ = このレイヤーの前のすべてのストライドの積
    ここに画像の説明を挿入します

有効なRF

受容野は一般に大きいですが、活性化値に対する各ピクセルの寄与は異なります。つまり、活性化値は受容野内のピクセルの導関数であり、サイズが異なります。通常、比較的影響の大きい画素は中央領域に集まっており、対応するニューロンが有効受容野範囲内の特徴を抽出していると考えられる。言い換えれば、受容野の端はあまり寄与せず、中心がより重要です。
ここに画像の説明を挿入します

アンカー ボックスに基づく場合とアンカー ボックスなしの場合の比較

ここに画像の説明を挿入します

非最大抑制

通常、スライディング ウィンドウ アルゴリズムでは、オブジェクトの周囲に複数の同様の検出ボックスが表示されます。これらのボックスは、実際には同じオブジェクトを指します。その中で最も信頼度が高いものだけを保持する必要があります。
ここに画像の説明を挿入します
非最大抑制アルゴリズムの実装:
ここに画像の説明を挿入します

信頼スコア

信頼度: モデルが自身の予測結果を認識する度合い。通常、ボックスごとに信頼レベルを予測する必要があります。私たちは予測結果を高い信頼度で認識する傾向があります。たとえば、2 つの繰り返し予測結果がある場合、信頼度の低いものは破棄されます。

  • 一部のアルゴリズムは、オブジェクトが特定のカテゴリに属する​​とモデルが予測する確率を直接取得します。
  • 一部のアルゴリズムでは、モデルが独立して信頼レベルを予測できます (トレーニング中に GT を使用すると、監視として関連情報を取得できます)。
    ここに画像の説明を挿入します

正のサンプルと負のサンプルの間の不均衡の問題

ここに画像の説明を挿入します

3. ターゲット検出の基本的な考え方

問題の発見が難しい

(1) 何をどこで同時に解決する必要があるか
(2) 画面内のオブジェクトの位置、量、スケールがさまざまに変化する

スライドウィンドウ

(1) 固定サイズのウィンドウを設定します
(2) 画像のすべての位置を横断し、分類モデル (トレーニング済みであると仮定) を使用して、どこにいてもウィンドウ内のコンテンツを識別します (3) オブジェクトを検出するに
はさまざまなサイズと形状、さまざまなサイズとアスペクト比のウィンドウを使用して画像をスキャンできます
短所: 効率の問題と高い計算コスト。
改善アイデア 1: ヒューリスティック アルゴリズムを使用してブルート フォース トラバーサルを置き換え、比較的低計算の方法を使用してオブジェクトが含まれる可能性のある場所を大まかに選別し、畳み込みネットワークを使用して予測します。初期に使用されていた 2 段階の方法は外部アルゴリズムに依存しており、システムの実装は複雑でした。
改善アイデア 2 : 冗長な計算を減らし、畳み込みネットワークを使用して、現在一般的に使用されている高密度予測を実現します。

スライディング ウィンドウの二重カウントを分析する

下図の重なっている部分は同じ畳み込みカーネルで畳み込まれており、計算が冗長になります。
ここに画像の説明を挿入します

アイデアを改善する

畳み込みを使用して画像全体のすべての特徴を一度に計算し、対応する位置の特徴を抽出して分類を完了します。元の画像の
ここに画像の説明を挿入します
スライディング ウィンドウと比較して、このような特徴マップ スライディング ウィンドウは畳み込み特徴を 1 回だけ計算しますウィンドウの数に関係なく、オーバーラップ領域に表示されます。

特徴マップ上の高密度予測

ここに画像の説明を挿入します

境界ボックス回帰

問題: 通常、スライディング ウィンドウとオブジェクトの正確な境界との間には偏差があります。
解決策: モデルにオブジェクトのカテゴリを予測させながら、スライディング ウィンドウに対する境界ボックスのオフセットも予測させます。この 2 つの予測を行うこの方法は、以下に基づいています同じ機能に関する学習は、マルチタスク学習とも呼ばれます。
ここに画像の説明を挿入します

高密度予測モデルを使用した推論

基本的なプロセス:

  • モデルを使用して集中的な予測を行い、予測マップを取得します。各位置には、カテゴリ確率と境界ボックス回帰の予測結果が含まれています。
  • 予測されたカテゴリが背景ではないボックスを保持する
  • ボックスの中心とバウンディング ボックスの回帰結果に基づいて、バウンディング ボックスのデコード
  • 後処理: 非最大抑制

トレーニング方法

ニューラル ネットワークをトレーニングするための一般的なルーチン:

  • モデルは現在のパラメータに基づいて予測を行います。
  • 計算損失: 予測がどの程度優れているかを測定する
  • 損失を逆伝播し、パラメータの
    密な予測を更新するトレーニング プロセス:
  • 検出ヘッドは各位置(オブジェクトの存在、カテゴリー、位置オフセット)で予測を生成します。
  • 予測値を何らかの真の値と比較して損失を生成する必要があり、その後、検出器をトレーニングできます。
  • しかし、この真の値はデータ アノテーションには存在せず、アノテーションはオブジェクトが存在する場所をマークするだけです。
  • 疎なアノテーション ボックスに基づいて密な予測結果の真の値を生成する必要があります。このプロセスはマッチング (割り当て) と呼ばれます。
    ここに画像の説明を挿入します
    マッチングの基本的な考え方は次のとおりです。
    ここに画像の説明を挿入します

高密度予測の基本パラダイム

ここに画像の説明を挿入します

4. 高密度予測パラダイムの改善: マルチスケール予測

スケールの問題

画像内のオブジェクトのサイズは大きく異なる場合があります。
単純な密集パラダイムでは、モデルがバックボーン ネットワークの最後の層または最後から 2 番目の層の特徴マップに基づいて予測できる場合、次のようになります。

  • 構造(受容野)によって制限され、中型のオブジェクトのみが得意
  • 高レベルの特徴マップが複数回サンプリングされると、位置情報が層ごとに失われ、小さなオブジェクトの検出能力が弱く、位置精度が低くなります。

解決

方法 1: アンカー ボックスに基づく
ここに画像の説明を挿入します
方法 2: 画像ピラミッド
ここに画像の説明を挿入します
方法 3: 階層特徴に基づく
ここに画像の説明を挿入します
方法 4: 特徴ピラミッド ネットワーク 特徴ピラミッド ネットワーク
ここに画像の説明を挿入します

マルチスケールの密な予測パラダイム

ここに画像の説明を挿入します

5. 単一段階ターゲット検出アルゴリズムに関する厳選された講義

地域提案ネットワーク(2015)

ここに画像の説明を挿入します

RPN バックボーン ネットワーク図 (VGG 上、resnet 上)
ここに画像の説明を挿入します

YOLO:You Only Look Once(2015)

ここに画像の説明を挿入します
YOLO のマッチングとボックス エンコーディング
ここに画像の説明を挿入します
YOLO の損失関数 (現在はあまり一般的ではありません)
ここに画像の説明を挿入します
YOLO の長所と短所
ここに画像の説明を挿入します

SSD:シングルショットマルチボックス検出器 (2016)

マルチレベル特徴マップ SSD を使用した最初のマッチング ルール
ここに画像の説明を挿入します

ここに画像の説明を挿入します

レティナネット(2017)

FPN が主要な構造となり、
ここに画像の説明を挿入します
Focal loss は主に 1 段階アルゴリズムが直面する正と負のサンプルの不均衡問題を解決するために提案されています
ここに画像の説明を挿入します
損失関数に対する異なる負のサンプルの寄与の改善
ここに画像の説明を挿入します
: 単純な負のサンプルの損失を削減します
ここに画像の説明を挿入します
Focal損失
ここに画像の説明を挿入します

YOLO v3(2018)

ここに画像の説明を挿入します
ここに画像の説明を挿入します

YOLO v5(2020)

ここに画像の説明を挿入します

6. アンカーフリー物体検出アルゴリズム

アンカー ボックスを使用しないと、重なり合うオブジェクトの検出が特に不十分になりますが、FPN の助けを借りて、さまざまなレベルの特徴予測を使用できます。

FCOS、完全畳み込み一段(2019)

ここに画像の説明を挿入します
FCOS 予測ターゲットとマッチング ルール
ここに画像の説明を挿入します
FCOS マルチスケール マッチング
ここに画像の説明を挿入します
中心性 中心性
ここに画像の説明を挿入します
FCOS 損失関数
ここに画像の説明を挿入します

センターネット(2019)

ここに画像の説明を挿入します

YOLO X(2021)

ここに画像の説明を挿入します

YOLO V8(2022)

ここに画像の説明を挿入します

7. シングルステージアルゴリズムとアンカーフリーアルゴリズムの概要

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/qq_41776136/article/details/131112555