1. 序文と関連著作
図 1 は、対象を絞った提案を生成するためのさまざまなスキームの比較を示しています。(a) 回転 RPN は、さまざまなスケール、スケール、角度の回転アンカーを密に配置します。(b) RoI Transformer+ は水平 RoI から方向提案を学習します。これには、RPN、RoI アラインメント、および回帰が含まれます。(c) 当社の提案指向の RPN は、ほとんどコストをかけずに高品質の提案を生成します。方向RPNのパラメータ数はRoI Transformer+の約1/3000、回転RPNの約1/15です。
(a) 回転 RPN:異なる角度、スケール、アスペクト比 (3 スケール×3 比率×6 角度) を持つ 54 個のアンカー ポイントを各位置に配置します。
回転 RPN の長所:回転アンカーの導入により再現率が向上し、指向性オブジェクトがまばらに分散している場合に優れたパフォーマンスを示します
回転 RPN 短所:アンカーの数が多いと、大量の計算とメモリ使用量が発生します。
(b) RoI Transformer: RPN、RoI アラインメント、および回帰を含む複雑なプロセスを通じて水平 RoI からオリエンテーション提案を学習します。
RoI Transformer の利点:有望な方向スキームを提供し、回転アンカーの数を大幅に削減します。
RoI Transformer の欠点:また、高価なコンピューティング コストもかかります。
本稿では、Oriented R-CNN と呼ばれる効果的かつシンプルな指向性物体検出フレームワークを提案します。これは、精度と効率が優れた汎用の 2 段階指向性検出器です。具体的には、第一段階として、ほぼコストフリーで高品質志向の提案を直接生成する地域志向型提案ネットワーク(RPN型)を提案します。第 2 段階は、指向性 R-CNN ヘッドです。これは、指向性関心領域 (roi 指向性) を改良し、それらを識別するために使用されます。
2. 指向性 R-CNN
第 1 段階では、Oriented RPN を通じて指向性のある提案が生成され、第 2 段階では提案が分類され、Oriented R-CNN ヘッドを通じてその空間的位置が調整されます。この論文で提案する物体検出方法は Directed R-CNN と呼ばれ、Directed RPN と Directed RCNN ヘッドで構成されます (図 2 を参照)。これは 2 段階の検出器であり、第 1 段階ではほぼコストのかからない方法で高品質指向の提案が生成され、第 2 段階では提案の分類と回帰のための指向性 RCNN ヘッドが生成されます。FPN バックボーンは、5 つのレベルの機能 {P2、P3、P4、P5、P6} を生成します。わかりやすくするために、RPN 指向では、FPN のアーキテクチャと分類ブランチは示されていません。
2.1 ダイレクト RPN
これは、FPN の 5 つのレベルの特徴 {P2、P3、P4、P5、P6} を入力として受け取り、同じ設計のヘッド (3×3 畳み込み層と 2 つの兄弟の 1×1 畳み込み層) を特徴の各レベルに接続します。3 つのアスペクト比 {1:2、1:1、2:1} を持つ 3 つの水平アンカーを、すべてのレベル フィーチャの各空間位置に割り当てます。{ } 上のアンカーポイントのピクセル領域はそれぞれ です。各アンカー ポイント a は 4 次元ベクトル a = ( ) で表されます。ここで ( ) はアンカー ポイントの中心座標であり、アンカー ポイントの幅と高さを表します。1×1 畳み込み層の 2 つのブランチのうちの 1 つは回帰ブランチです。出力は、アンカー の提案に関して δ = ( ) だけオフセットされます。特徴マップの各位置で A 個のプロポーザルを生成します (A は各位置のアンカーの数であり、この作業では 3 に相当します)。そのため、回帰ブランチには 6A の出力があります。回帰出力をデコードすることにより、方向解が得られます。デコードプロセスは次のように説明されます。
ここで、は予測候補フレームの中心座標、は予測候補フレームの外接長方形の幅と高さ、は外接長方形の上端と右端の中点に対するオフセットです。
2.1.1 中心点オフセット表現
(a) 中点オフセットの概略図。(b) 中点オフセット表現の例
図 3 に示すように、中点オフセット表現と呼ばれます。黒い点は、指向性バウンディング ボックス O の外側の長方形である水平ボックスの各辺の中点であり、オレンジ色の点は、指向性バウンディング ボックス O の頂点を表します。
によれば、各候補フレームの 4 つの頂点座標セットが取得でき、4 つの頂点座標は次のように表されます。
各方向候補の回帰は、その外側の長方形のパラメータ (x、y、w、h) を予測し、その中点オフセットのパラメータ (Δα、Δβ) を推測することによって実現されます。
3.1.2 損失関数
黒い点は上と右の中点で、オレンジ色の点は方向付けされた境界ボックスの頂点です。(a) アンカー。(b) 真実の箱。(c) 予測ボックス。
ポジティブ サンプルを指定します: ① .②
ネガティブ サンプル:
非ポジティブおよび非ネガティブ アンカーは無効なサンプルです。グラウンド トゥルース ボックスは、指向性のある候補ボックスの外側の長方形を参照していることを強調します。
L1 損失を次のように定義します。
は、方向性 RPN 分類ブランチの出力であり、候補ボックスが前景に属する確率を示します。最初のアンカーの真のラベルです。は、有向 RPN 回帰分岐の出力であり、候補ボックスのバイアスを表します。それが本当の偏見です。
3.2 配向 RCNN ヘッド
方向 R-CNN ヘッドは、入力として特徴マップ {P2、P3、P4、P5} と一連の方向提案を受け取ります。各方向の提案について、回転 RoI アライメント (回転 RoIAlign と呼ばれます) を使用して、対応する特徴マップから固定サイズの特徴ベクトルを抽出します。
各特徴ベクトルは 2 つの全結合層 (FC1 および FC2、図 2 を参照) に供給され、その後に 2 つの兄弟の全結合層が続きます。K+1 クラス (K オブジェクト クラスと 1 つの背景クラス) の出力提案、もう 1 つは、 K 個のオブジェクト クラスの各提案のオフセット
3.2.1 回転 RoIAlign
回転 RoIAlign は、各方向の提案から回転不変の特徴を抽出する操作です。
生成された方向候補ボックスの平行四辺形の頂点は、計算の都合上、各平行四辺形を方向のある長方形に調整する必要がある。これは、短い方の対角線を長い方の対角線と同じ長さに延長することによって行われます。この簡単な操作の後、平行四辺形から有向長方形が得られ、次に、有向長方形をステップ サイズ s で特徴マップ F に投影し、次の操作で定義される回転 RoI を取得します。
3.3 実装の詳細
有向 R-CNN は、有向 RPN ヘッドと有向 R-CNN ヘッドを共同で最適化することにより、エンドツーエンドの方法でトレーニングされます。推論中に、指向性 RPN によって生成された指向性提案には、通常、高い重複が含まれます。冗長性を減らすために、第 1 段階では FPN レベルごとに 2000 のボックス提案を保持し、その後に非最大抑制 (NMS) を行います。推論速度を考慮し、IoU閾値0.8の水平NMSを採用しています。すべてのレベルの残りの提案がマージされ、上位 1000 の提案が分類スコアに従って第 2 段階の入力として選択されます。第 2 段階では、予測クラス確率が 0.05 を超えるバウンディング ボックス指向のバウンディング ボックスに対して、各オブジェクト クラスに対してポリシー NMS が実行されます。Polyynms の IoU しきい値は 0.1 です。