1. 物体検出とは何ですか?
物体検出と画像分類
ターゲット検出アプリケーション
(1) 顔認識
(2) スマートシティ
(3) 自動運転
(4) 下流の視覚タスク: シーンテキスト認識、人体の姿勢推定
物体検出技術の進化
2. 基礎知識
ボックス、境界ボックス
フレームとは通常、画像上の水平方向と垂直方向の境界線を持つ長方形のフレームを指します。
境界ボックスは通常、対象のオブジェクトを密に取り囲むボックスを指します。検出タスクでは、画像に表示される各オブジェクトの境界ボックスを予測する必要があります。
ユニオン上の交差点
定義: 2 つの長方形ボックスの交差領域と結合領域の比率は、長方形ボックスの重なりの程度の尺度です。
受容野
定義: ニューラル ネットワークにおいて、ニューロンが見ることができる元の画像の領域
受容野の中心とステップサイズ
受容野の中心:
- 一般的な結論はさらに複雑です。
- サイズ 3x3 およびパッド = 1 の畳み込み (またはプーリング) でスタックされたモデルの場合、受容野の中心 = 特徴マップ上のニューロンの座標 x 受容野のステップ サイズ
受容野のステップ サイズ (= ダウンサンプリング レート = 特徴マップ サイズの縮小率):
- ニューラルネットワークの特定の層上の隣接する2つのニューロンの受容野間の距離
- ステップ サイズ = このレイヤーの前のすべてのストライドの積
有効なRF
受容野は一般に大きいですが、活性化値に対する各ピクセルの寄与は異なります。つまり、活性化値は受容野内のピクセルの導関数であり、サイズが異なります。通常、比較的影響の大きい画素は中央領域に集まっており、対応するニューロンが有効受容野範囲内の特徴を抽出していると考えられる。言い換えれば、受容野の端はあまり寄与せず、中心がより重要です。
アンカー ボックスに基づく場合とアンカー ボックスなしの場合の比較
非最大抑制
通常、スライディング ウィンドウ アルゴリズムでは、オブジェクトの周囲に複数の同様の検出ボックスが表示されます。これらのボックスは、実際には同じオブジェクトを指します。その中で最も信頼度が高いものだけを保持する必要があります。
非最大抑制アルゴリズムの実装:
信頼スコア
信頼度: モデルが自身の予測結果を認識する度合い。通常、ボックスごとに信頼レベルを予測する必要があります。私たちは予測結果を高い信頼度で認識する傾向があります。たとえば、2 つの繰り返し予測結果がある場合、信頼度の低いものは破棄されます。
- 一部のアルゴリズムは、オブジェクトが特定のカテゴリに属するとモデルが予測する確率を直接取得します。
- 一部のアルゴリズムでは、モデルが独立して信頼レベルを予測できます (トレーニング中に GT を使用すると、監視として関連情報を取得できます)。
正のサンプルと負のサンプルの間の不均衡の問題
3. ターゲット検出の基本的な考え方
問題の発見が難しい
(1) 何をどこで同時に解決する必要があるか
(2) 画面内のオブジェクトの位置、量、スケールがさまざまに変化する
スライドウィンドウ
(1) 固定サイズのウィンドウを設定します
(2) 画像のすべての位置を横断し、分類モデル (トレーニング済みであると仮定) を使用して、どこにいてもウィンドウ内のコンテンツを識別します (3) オブジェクトを検出するに
はさまざまなサイズと形状、さまざまなサイズとアスペクト比のウィンドウを使用して画像をスキャンできます
短所: 効率の問題と高い計算コスト。
改善アイデア 1: ヒューリスティック アルゴリズムを使用してブルート フォース トラバーサルを置き換え、比較的低計算の方法を使用してオブジェクトが含まれる可能性のある場所を大まかに選別し、畳み込みネットワークを使用して予測します。初期に使用されていた 2 段階の方法は外部アルゴリズムに依存しており、システムの実装は複雑でした。
改善アイデア 2 : 冗長な計算を減らし、畳み込みネットワークを使用して、現在一般的に使用されている高密度予測を実現します。
スライディング ウィンドウの二重カウントを分析する
下図の重なっている部分は同じ畳み込みカーネルで畳み込まれており、計算が冗長になります。
アイデアを改善する
畳み込みを使用して画像全体のすべての特徴を一度に計算し、対応する位置の特徴を抽出して分類を完了します。元の画像の
スライディング ウィンドウと比較して、このような特徴マップ スライディング ウィンドウは畳み込み特徴を 1 回だけ計算しますウィンドウの数に関係なく、オーバーラップ領域に表示されます。
特徴マップ上の高密度予測
境界ボックス回帰
問題: 通常、スライディング ウィンドウとオブジェクトの正確な境界との間には偏差があります。
解決策: モデルにオブジェクトのカテゴリを予測させながら、スライディング ウィンドウに対する境界ボックスのオフセットも予測させます。この 2 つの予測を行うこの方法は、以下に基づいています同じ機能に関する学習は、マルチタスク学習とも呼ばれます。
高密度予測モデルを使用した推論
基本的なプロセス:
- モデルを使用して集中的な予測を行い、予測マップを取得します。各位置には、カテゴリ確率と境界ボックス回帰の予測結果が含まれています。
- 予測されたカテゴリが背景ではないボックスを保持する
- ボックスの中心とバウンディング ボックスの回帰結果に基づいて、バウンディング ボックスのデコード
- 後処理: 非最大抑制
トレーニング方法
ニューラル ネットワークをトレーニングするための一般的なルーチン:
- モデルは現在のパラメータに基づいて予測を行います。
- 計算損失: 予測がどの程度優れているかを測定する
- 損失を逆伝播し、パラメータの
密な予測を更新するトレーニング プロセス: - 検出ヘッドは各位置(オブジェクトの存在、カテゴリー、位置オフセット)で予測を生成します。
- 予測値を何らかの真の値と比較して損失を生成する必要があり、その後、検出器をトレーニングできます。
- しかし、この真の値はデータ アノテーションには存在せず、アノテーションはオブジェクトが存在する場所をマークするだけです。
- 疎なアノテーション ボックスに基づいて密な予測結果の真の値を生成する必要があります。このプロセスはマッチング (割り当て) と呼ばれます。
マッチングの基本的な考え方は次のとおりです。
高密度予測の基本パラダイム
4. 高密度予測パラダイムの改善: マルチスケール予測
スケールの問題
画像内のオブジェクトのサイズは大きく異なる場合があります。
単純な密集パラダイムでは、モデルがバックボーン ネットワークの最後の層または最後から 2 番目の層の特徴マップに基づいて予測できる場合、次のようになります。
- 構造(受容野)によって制限され、中型のオブジェクトのみが得意
- 高レベルの特徴マップが複数回サンプリングされると、位置情報が層ごとに失われ、小さなオブジェクトの検出能力が弱く、位置精度が低くなります。
解決
方法 1: アンカー ボックスに基づく
方法 2: 画像ピラミッド
方法 3: 階層特徴に基づく
方法 4: 特徴ピラミッド ネットワーク 特徴ピラミッド ネットワーク
マルチスケールの密な予測パラダイム
5. 単一段階ターゲット検出アルゴリズムに関する厳選された講義
地域提案ネットワーク(2015)
RPN バックボーン ネットワーク図 (VGG 上、resnet 上)
YOLO:You Only Look Once(2015)
YOLO のマッチングとボックス エンコーディング
YOLO の損失関数 (現在はあまり一般的ではありません)
YOLO の長所と短所
SSD:シングルショットマルチボックス検出器 (2016)
マルチレベル特徴マップ SSD を使用した最初のマッチング ルール
レティナネット(2017)
FPN が主要な構造となり、
Focal loss は主に 1 段階アルゴリズムが直面する正と負のサンプルの不均衡問題を解決するために提案されています
損失関数に対する異なる負のサンプルの寄与の改善
: 単純な負のサンプルの損失を削減します
Focal損失
YOLO v3(2018)
YOLO v5(2020)
6. アンカーフリー物体検出アルゴリズム
アンカー ボックスを使用しないと、重なり合うオブジェクトの検出が特に不十分になりますが、FPN の助けを借りて、さまざまなレベルの特徴予測を使用できます。
FCOS、完全畳み込み一段(2019)
FCOS 予測ターゲットとマッチング ルール
FCOS マルチスケール マッチング
中心性 中心性
FCOS 損失関数