06- アルゴリズム解釈高速 R-CNN (ターゲット検出)

要点:

  • Fast R-CNN は2 段階検出器に属します

回帰損失のリファレンス: https://www.cnblogs.com/wangguchangqing/p/12021638.html


2 つの高速 R-CNN アルゴリズム

Fast R-CNN は、 R-CNNに続く著者Ross Girshickのもう 1 つの傑作 です。 また、ネットワークのバックボーンとしてVGG16を使用すると、R-CNN と比較して、トレーニング時間は 9 倍、テスト推論時間は 213 倍高速になり、精度率は 62% から 66% に向上しました ( Pascal VOC)データセット)
Fast R-CNN アルゴリズムの プロセスは 3 つの ステップ。
  • 1枚の画像で1K~2K の候補領域を生成 選択的検索法を 使用
  • 画像をネットワークに入力して対応する 特徴マップを取得し SSアルゴリズム によって生成された候補フレームを 特徴マップに投影して対応する 特徴 行列を取得します
  • ROI プーリング層を介して 各特徴行列を7x7 特徴マップ にスケーリングし 、その後、完全に接続された一連の層を介して特徴マップ平坦化して、予測結果を取得します

2.1画像全体の特徴を

R-CNNは 候補フレーム領域を畳み込みニューラルネットワークに順次入力して特徴量を取得します。

Fast-RCNN は画像全体をネットワークに送信し、特徴画像から対応する候補領域を抽出します。これらの候補領域の特徴を再計算する必要はありません。

2.2 RoIプーリング

RoI プーリング層 (関心領域プーリング層) は、畳み込み特徴マップから関心領域を抽出するためのメカニズムです。RoI は、関心領域 (関心領域) を指し、入力画像内のターゲット検出アルゴリズムによって取得された境界ボックスを指します。

RoI プーリング層の役割は、異なるサイズの RoI 領域を同じサイズの出力にマッピングすることです。具体的には、まず各 RoI 領域を固定サイズのサブ領域に分割し、次に各サブ領域に対して最大プーリング操作を実行して固定サイズの出力を取得します。この利点は、異なるサイズの RoI 領域を確実に処理し、それらを同じサイズの出力特徴マップにマッピングできることです。これは、後続の分類および回帰タスクに便利です。入力画像のサイズを制限しません

2.3 分類子

N+1カテゴリ(Nは検出対象の種類、1は背景)合計N+1ノードの確率を出力

2.4 境界ボックスリグレッサー

N+1 カテゴリ、合計 (N+1)x4 ノードに対応する候補境界ボックス回帰パラメータ(dx、dy、dw、dh) を出力します。

境界ボックスリグレッサー

dx、d_y、d_w、d_hN+1 カテゴリ(合計 (N+1)x4 ノード)に対応する候補境界ボックス回帰パラメータ ( ) を出力します。

G^x = P_wd_x (P) + P_x

G^y = P_h d_y (P) + P_y

G^w = P_w exp(d_w (P))

G^h = P_h exp(d_h (P))

P_x 、 P_y 、 P_w 、 P_h  これらはそれぞれ、候補ボックスの中心の x、y 座標、幅と高さです。

G^x 、 G^y 、 G^w 、 G^h 最終的に予測される境界ボックスの中心の x、y 座標、幅と高さのそれぞれ

2.5マルチタスクの 損失

 

 2.6 クロスエントロピー損失 クロスエントロピー損失

1. 多分類問題の場合 (ソフトマックス出力、すべての出力確率の合計は 1)

 2. バイナリ分類問題(シグモイド出力、各出力ノードは互いに無関係)の場合

 

2.7 高速 R-CNNフレームワーク

 

 

おすすめ

転載: blog.csdn.net/March_A/article/details/130567541