ターゲット検出の RCNN 分析の高速化

基本的なプロセス

ここに画像の説明を挿入します

  1. 画像はネットワークに入力され、特徴マップが取得されます。
  2. RPN を使用して候補ボックスを生成し、候補ボックスを特徴マップに投影して特徴行列を取得します。
  3. 特徴行列で ROI プーリングを使用して特徴マップを取得し、それを平坦化して予測結果を取得します。

主要な分析
ネットワークにおけるRPNの位置

ここに画像の説明を挿入します
上の図では、機能マップ層から上位層を指す 2 つの矢印があり、左の矢印は RPN 構造である領域提案ネットワークを指し、右の矢印は Roi プーリングを指します。速いrcnn。

RPN構造

ここに画像の説明を挿入します
特徴マップで3 ∗ 3 3*3を使用する33 つのスライディング ウィンドウ、各位置は 256 次元のベクトル (一意ではありません。ここでのバックボーン出力の深さは 256) を取得し、完全に接続された層を通じて 2k の分類スコアが取得されます (右、それぞれアンカーの 2 つのパラメーターは前景確率と背景確率を表し、位置ボックス回帰の 4k パラメーターを表します。

特徴マップのアンカーと元の画像の対応:
元の画像と特徴マップのスケーリング係数に基づいて、元の画像に対応する特徴マップのアンカー中心の座標を計算し、系列を計算します。指定されたサイズのアンカーが元の画像上に生成されます。
元の画像では、アンカーの各位置に 9 つの異なるサイズがあり、3 つの領域 { 128 ∗ 128 128*128 128128、256256 256*256256256512 ∗ 512 512*512512512 }、3 つのアスペクト比 { 1:1 1:1 1:1、1 : 21:21:2、21 2:12:1 }

2k パラメータ (2 つの各グループは、(前景確率、背景確率) を表します):

( 0.2 0.8) (0.7 0.3) (0.4 0.6) (0.9 0.1)

4k パラメーター (4 つの各グループは、k 番目のアンカー ( dxk、dyk、dwk、dhk d_x^k、d_y^k、d_w^k、d_h^k) の予測回帰を表しますdバツdydwdh)):

( 0.12 0.21 0.74 0.33) (0.54 0.16 0.09 0.21)

RPN損失関数

これは、分類損失と境界ボックス損失で構成されます。
ここに画像の説明を挿入します
ここで、
pi p_ip私はi 番目のアンカーが実際のラベルであると予測される確率
pi ∗ p_i^*ですp正のサンプルは 1、負のサンプルは 0 です
t私はは、i 番目のアンカーの境界ボックスを予測するパラメーター
ti ∗ t_i^*ですt実ボックスのパラメータ
N cls N_{cls}ですNクラス_ _バッチ内のサンプル数
N reg N_{reg}N規則_アンカー位置の数です

R-CNN トレーニングの高速化

ここに画像の説明を挿入します
この論文では、RPN Loss + Fast R-CNN Loss 共同トレーニング方法を採用しています。

  1. 事前トレーニングされた分類モデルを使用して畳み込みネットワーク パラメーター (つまり、上図の CNN 層) を初期化し、RPN ネットワークを個別にトレーニングします (上図の左側の矢印部分)。
  2. RPNネットワークの畳み込み層と全結合層のパラメータを固定し、RPNネットワークが生成したターゲットボックスを使用してFast RCNNネットワークを学習します(上図右側の矢印部分)
  3. トレーニング済みの Fast RCNN ネットワーク パラメーターを修正し、RPN ネットワーク パラメーターを微調整します。
  4. RPN ネットワークの畳み込み層と全結合層パラメータを修正し、Fast RCNN ネットワーク パラメータを微調整しました (Roi プーリング層以降)

おすすめ

転載: blog.csdn.net/qq_44116998/article/details/128427879