要点:
-
Fast R-CNN は2 段階検出器に属します
回帰損失のリファレンス: https://www.cnblogs.com/wangguchangqing/p/12021638.html
2 つの高速 R-CNN アルゴリズム
-
1枚の画像で1K~2K の候補領域を生成 ( 選択的検索法を 使用 )
-
画像をネットワークに入力して対応する 特徴マップを取得し 、 SSアルゴリズム によって生成された候補フレームを 特徴マップに投影して対応する 特徴 行列を取得します
-
ROI プーリング層を介して 各特徴行列を7x7 特徴マップ にスケーリングし 、その後、完全に接続された一連の層を介して特徴マップを平坦化して、予測結果を取得します
2.1画像全体の特徴を
Fast-RCNN は画像全体をネットワークに送信し、特徴画像から対応する候補領域を抽出します。これらの候補領域の特徴を再計算する必要はありません。
2.2 RoIプーリング層
RoI プーリング層 (関心領域プーリング層) は、畳み込み特徴マップから関心領域を抽出するためのメカニズムです。RoI は、関心領域 (関心領域) を指し、入力画像内のターゲット検出アルゴリズムによって取得された境界ボックスを指します。
RoI プーリング層の役割は、異なるサイズの RoI 領域を同じサイズの出力にマッピングすることです。具体的には、まず各 RoI 領域を固定サイズのサブ領域に分割し、次に各サブ領域に対して最大プーリング操作を実行して固定サイズの出力を取得します。この利点は、異なるサイズの RoI 領域を確実に処理し、それらを同じサイズの出力特徴マップにマッピングできることです。これは、後続の分類および回帰タスクに便利です。入力画像のサイズを制限しません
2.3 分類子
N+1カテゴリ(Nは検出対象の種類、1は背景)合計N+1ノードの確率を出力
2.4 境界ボックスリグレッサー
N+1 カテゴリ、合計 (N+1)x4 ノードに対応する候補境界ボックス回帰パラメータ(dx、dy、dw、dh) を出力します。
境界ボックスリグレッサー
N+1 カテゴリ(合計 (N+1)x4 ノード)に対応する候補境界ボックス回帰パラメータ ( ) を出力します。
これらはそれぞれ、候補ボックスの中心の x、y 座標、幅と高さです。
最終的に予測される境界ボックスの中心の x、y 座標、幅と高さのそれぞれ
2.5マルチタスクの 損失
2.6 クロスエントロピー損失 クロスエントロピー損失
1. 多分類問題の場合 (ソフトマックス出力、すべての出力確率の合計は 1)
2. バイナリ分類問題(シグモイド出力、各出力ノードは互いに無関係)の場合
2.7 高速 R-CNNフレームワーク