ボックス境界認識ベクトル (BBAVector) を使用した航空画像内の指向性オブジェクト検出により、リモート センシング画像回転フレーム ターゲット検出を実現

この記事は元の論文と個人的な理解を組み合わせて解釈されます。

論文アドレス: https://arxiv.org/pdf/2008.07043.pdf
コードアドレス: GitHub - yijingru/BBAVectors-Oriented-Object-Detection: [WACV2021] Box Boundary-Aware Vectors を使用した航空画像における指向性オブジェクト検出

まず第一に、なぜリモートセンシング画像のターゲット検出では、検出に回転フレームを使用することが熱望されているのかというと、リモートセンシング (航空) 画像内のオブジェクトまたはターゲットは通常任意の方向に表示され、ターゲットは密集して配置されており、密集した予測を行う必要があるためです。達成される。回転フレームによるリモートセンシング画像のターゲット検出により、集中予測による過小検出や見逃しの状況を大幅に軽減します。

いくつかの専門用語:

OBB: 方向付けされたバウンディング ボックス
HBB: 水平方向のバウンディング ボックス
RBB: 回転されたバウンディング ボックス (RBB は、水平方向のバウンディング ボックスを除くすべての方向付けされたバウンディング ボックスを指します)

ボックス境界認識ベクトルを使用した航空画像内の指向性オブジェクト検出この記事では、ボックス境界認識ベクトルに基づいた航空画像内の指向性オブジェクト検出を提案します。

論文の簡単な紹介

中心+w+\シータ回転フレームの決定に基づいて,本論文では,回転フレームを生成するためにフレーム境界認識ベクトルを返すボックス境界認識ベクトル(BBAVector)を提案した。

中心+w+\シータ短所:

(1) 小さな角度の変化はトレーニングの総損失にはほとんど影響しませんが、予測されたボックスとグラウンド トゥルース ボックスの間のIOUに大きな差が生じる可能性があります。実際の評価フレーム検出インデックスにはIoUが使用されIoUSmooth L1 は同等ではないため、複数の検出フレームが同じサイズの Smooth L1 Loss を持つ可能性があります。図 1 に示すように。(2) 回転後は常に新しい座標系で学習します。これは、ネットワークがすべてのボックス パラメーターを共同で学習するのが困難です。図2(a)に示す回転フレーム方式。
なんだ
 

図 1 同じ損失額の IOU は大きく異なります

上記の欠点を解決するために、ボックス境界認識ベクトル (BBAVectors) によって提案された方法:

(1) すべての任意の向きのオブジェクトは同じ座標系を共有し、4 つの象限で 4 つのベクトルを学習し、一部の局所的な特徴がぼやけて弱い場合に、より多くの相互情報を共有します。図2(b)。
(2) (1)のみではxy軸にほぼ一致したフレームを捉えることが難しい問題を解決するため、(1)をベースにパラメータなんだを追加します。\アルファ図2(c)。

図 2 中心点法 (a) と BBAVectors (b) (c) 法

 図 2 は以下を示しています。 (a) center+wh+θ と呼ばれる、ベースライン メソッドの Oriented Bounding Box (OBB) の説明。ここで、w、h、θ は OBB の幅、高さ、および角度です。OBB の w と h はオブジェクトごとに異なる回転座標系で測定されることに注意してください; (b) 提案された方法、t、r、b、l は上、右、下、左のボックス境界を意識したベクトルです。すべての任意の向きのオブジェクトについて、ボックス境界を意識したベクトルは、デカルト座標系の 4 つの象限で定義されます。(c) は、ベクトルが xy 軸に非常に近い特殊なケースを示しており、これは HBB メソッドで検出できます。

 この論文の貢献:
(1) まずオブジェクトの中心キーポイントを検出し、次にこれに基づいてボックス境界認識ベクトル (BBAVector) を回帰して、指向性バウンディング ボックスをキャプチャします。すべての任意の向きのオブジェクトについて、ボックス境界知覚ベクトルは、デカルト座標系の 4 つの象限に分布します。
(2) コーナーケースにおけるベクトルの学習の困難を軽減するために、方向付けされたバウンディング ボックスはさらに水平バウンディング ボックスと回転バウンディング ボックスに分類されます。
(3) 実装では、ボックス境界を意識したベクトルを学習する方が、指向性のある境界ボックスの幅、高さ、および角度を直接予測するよりも優れたパフォーマンスを発揮することが示されています。

2つの方法の紹介

図3 BBAVectorsのネットワーク構成図

図 3 に示す図: メソッドの一般的なアーキテクチャと Oriented Bounding Box (OBB) の説明。入力画像は、ネットワークに送信される前に 608×608 にサイズ変更されます。アーキテクチャは U 字型ネットワーク上に構築されています。アップサンプリング中に、スキップ接続を使用して特徴マップが結合されます。このアーキテクチャの出力は、ヒートマップ P、オフセット マップ O、ボックス パラメーター マップ B、および方向マップ α の 4 つのマップで構成されます。中心点の位置は、ヒートマップとオフセット マップから推測されます。中心点では、ボックス境界認識ベクトル (BBAVector) が学習されます。出力マップの解像度は 152×152 です。HBB は水平バウンディング ボックスを指します。RBB は、HBB を除くすべての指向性バウンディング ボックスを表します。記号 t、r、b、l は BBA ベクトルの上、右、下、左のベクトルを指し、we と he は OBB の外側の幅と高さを表します。デコードされた OBB は赤い境界ボックス内に表示されます。

1. 特徴抽出ネットワーク

ResNet101の畳み込み層1~畳み込み層5をモデルのバックボーンネットワークとして使用します。まず、リモート センシング画像が 608×608 のサイズに調整されて ResNet101 ネットワークに送信され、次に 4 倍のダウンサンプリング後に出力画像の特徴が 608×608×3 から 152×152×C に変更されます。 C は畳み込み出力チャネルの数を表します。そして、4回のダウンサンプリングと3回のアップサンプリングを経て、152×152×256のサイズの特徴マップが出力される。

得られた 152×152×256 の特徴マップをバツ4 つのブランチに分割し、それぞれに対応するパラメータを取得します。
(1) 特徴マップバツに 3×3 畳み込みと 1×1 畳み込みを行った後、256 チャネルが N チャネルに削減されます。 N は特徴マップに含まれるカテゴリの数です;
(2) 特徴マップがバツ3×3 畳み込みと 1×1 畳み込みを受けた後、256 チャネルが 2 チャネルに削減され、その (x, y) 偏差値が中心点が取得されます;
(3) 特徴マップはバツ2 つの 7×7 畳み込みを受け、256 チャネルを 10 チャネルに削減し、4 つの象限と検出フレームのベクトル値なんだ、合計 10 個のパラメーターを学習します;
(4)特徴マップバツを 3×3 と 1×1 で畳み込み、256 チャネルを 1 チャネルに削減し、HBB を使用するか RBB を使用するかを判断するためのパラメータを取得します\アルファ

2. ヒート マップ (ターゲットのキー ポイントと中心点を特定するために使用)

ヒートマップは、入力画像内の特定のキーポイントを特定するためによく使用されます。この論文では、ヒートマップを使用して、航空画像内の任意の向きのオブジェクトの中心点を検出します。この論文で使用されるヒートマップには K 個のチャネルがあり、各チャネルはオブジェクトのカテゴリに対応します。各チャネルのマ​​ッピングはシグモイド関数を介して渡されます。特定の中心点で予測されたヒートマップ値をオブジェクト検出の信頼度として考慮します。

c=(c_{x},c{_{y}})有向バウンディングボックスの中心点であると仮定しc、各中心点の周囲に 2D ガウスを配置してグラウンド トゥルース ヒート マップを作成し、中心点の位置を設定します。極限の喪失については詳しくは説明しませんが、非常に奥深い基本スキルであり、ガウスを使用して中心点を設定する方法を理解しやすくするために、以下の図 4 を参照してください。

図 4 では、ガウス曲面フィッティングを使用して中心点を決定しています。中心点は整数です。

3. 中心点のずれ(量子化浮動小数点数の中心点と整数の中心点を補償するため)

予測ヒートマップPからピーク点をオブジェクトの中心点位置として抽出します。これらの中心点はc整数です。ただし、入力イメージから出力ヒートマップにポイントをダウンスケーリングすると、浮動小数点が生成されます。量子化浮動小数点数の中心点と整数の中心点の差を補償するには、スケーリングされた浮動小数点数の中心点と量子化整数の中心点の間の直接の差がより小さくなるようにオフセット マップを予測します。これにより、中心点が確実にヒートマップによってより正確に取得されます。

定義スケーリングの浮動中心点と量子化中心点の間のオフセットは次のとおりです。

o=(\frac{\bar{c_{x}}}{s}-\left \lfloor \frac{\bar{c_{x}}}{s} \right \rfloor,\frac{\bar{c_ {y}}}{s}-\left \lfloor \frac{\bar{c_{y}}}{s} \right \rfloor)

スムーズな L1 損失関数によりオフセットを最適化します。

4.ボックスパラメータ

中心+w+\シータこの方法の次の欠点に対処するには
: (1) 小さな角度の変化はトレーニングの総損失にわずかな影響を与えますが、予測されたボックスとグラウンド トゥルース ボックスの間に大きな IOU の差が生じる可能性があります。
(2) 各オブジェクトについて、その OBB の合計が、y 軸に対してある角度で個別の回転座標系で測定されますwネットワークがすべてのオブジェクトのボックス パラメーターを共同で学習することは困難です。OBB を記述するためにボックス境界を意識したベクトルを使用することを提案します。h\シータ

BBAVector の提案: (1)
オブジェクトの中心点からt上、右r、下b、左のベクトルが含まれており私、これら 4 つのベクトル パラメーターはデカルト座標系の 4 つの象限に分布します。どの方向のすべてのターゲットも同じ座標系を共有するため、ターゲット情報の相互転送が容易になり、モデルの汎化能力が向上します。
(2) 局所的な特徴が曖昧で弱い場合に、より多くの相互情報の共有を促進するために、単に上下または左右に設定するのではなく、意図的に 4 つのベクトルを設計tますbr私

 ボックス パラメーターは として定義されますb=[t,r,b,l,w_{e},h_{e}]。ここで、 up t、 right r、 down b、 left私ベクトルは BBAV ベクトルで、私たちは}OBB彼}の外側の水平ボックス サイズです。私たちは}したがって、4つのベクトルと2つのパラメータの2×4の彼}合計10個のパラメータが構成される。これらの 10 個のパラメータは、図 3 の 3 番目のブランチによって学習された 10 個のチャネルに対応し、10 個のパラメータを表します。パラメーターの最適化には引き続きスムーズな L1 損失を使用します。

 5.Orientation 方向判定 

物体がxy軸にほぼ一致している場合、つまり対象方向が直交座標系の高さに対して水平または垂直の場合は、回転フレーム検出の必要がなく、RBBでも検出漏れが発生します。図 5(b) に示すように、図 5(c) は使用した HBB アッセイです。

図5 入力画像(a)とRBB(b)の検出とHBB(c)の検出効果

 RBB を使用して角度変化のないオブジェクトを検出できない理由は、象限の境界ではベクトルの種類を区別することが難しいためです。この問題を解決するために、OBB を 2 つのカテゴリに分けて別々に処理します。ボックスには HBB と RBB の 2 種類があり、RBB には水平ボックスを除くすべての回転された境界ボックスが含まれます。この並べ替え戦略の利点は、角度が小さいケースを水平ケースに変換し、扱いやすいことです。ネットワークがコーナー状況に遭遇した場合、方向カテゴリと外部サイズは、ネットワークが正確な OBB をキャプチャするのに役立ちます。

したがって、パラメータが定義され\アルファ、図 3 の 4 番目のブランチからの畳み込みによって学習されます。
次のように定義された方向クラス パラメータを作成します\アルファ

\hat{\alpha}=\left\{\begin{matrix}1(RBB) \rightarrow IOU(OBB,HBB)<0.95 & & \\0(HBB)\rightarrow それ以外の場合& &\end{matrix}\right。

 方向性バウンディング ボックス (OBB) と水平バウンディング ボックス (HBB) の間の交差和集合が 0.95 未満の場合、回転されたバウンディング ボックス RBB が検出に使用され、それが 0.95 以上の場合、水平バウンディング ボックスHBB は検出に使用され、バイナリ クロスエントロピー損失はトレーニングの最適化に使用されます。

 3つの実験結果

 実験検証には DOTA データセットと HRSC2016 データセットが使用されます。

DOTA データセットの実装結果マップは 75.36 に達します。

 HRSC2016 データセットでは、結果はマップ 88.6 を達成しました。

 4 つの結論

ボックス境界を意識したベクトルと中心点検出に基づくオブジェクト指向検出方法を提案する。このメソッドは 1 段階であり、アンカー ボックスは含まれません。方向性のある境界ボックスの幅、高さ、および角度を直接学習するベースライン方法と比較して、ボックス境界認識ベクトルに基づく提案された方法は、方向性のある境界ボックスをキャプチャする際に優れたパフォーマンスを発揮します。HRSC2016 および DOTA データセットの結果は、提案された方法が最先端の方法よりも優れていることを示しています。

この記事では、採用された方法と原理の解釈に焦点を当てています。詳細な実験結果については、論文を直接参照してください。ご質問がある場合は、コメント エリアでお知らせください。

おすすめ

転載: blog.csdn.net/weixin_42715977/article/details/130407821