【ICCV2023】ARS-DETR: 変圧器を用いたアスペクト比高感度指向物体検出

ARS-DETR: 変圧器を使用したアスペクト比高感度指向物体検出、ICCV2023

論文: https://arxiv.org/abs/2303.04989

コード: https://github.com/httle/ARS-DETR

解釈: ARS-DETR: リモート センシング分野における DETR (ICCV2023) - Zhihu (zhihu.com)

まとめ

既存の物体検出方法では、通常、メトリック AP50 を使用してモデルのパフォーマンスを測定します。この論文は、AP50 の角度偏差の許容範囲が比較的大きく、本質的に回転ターゲットの検出には適していないと考えています。したがって、この論文では、AP75 などの高精度のメトリクスを使用してモデルのパフォーマンスを測定することを推奨しています。(紙の検出器は AP75 ではより良く機能しますが、AP50 では機能しません)

本稿では、高精度指向の物体検出において競争力のあるパフォーマンスを実現する、ARS-DETRと呼ばれるTransformerベースのアスペクト比に敏感な回転物体検出器を提案します。具体的には:

  • Aspect Ratio-Aware Circular Smooth Labeling (AR-CSL) と呼ばれる角度分類の新しいアプローチは、より合理的な方法で角度ラベルを平滑化し、以前の研究で導入されたハイパーパラメータ (CSL など) を破棄するために提案されています
  • 回転変形可能なアテンション モジュールは、サンプリング ポイントを対応する角度で回転するように設計されており、地域の特徴とサンプリング ポイントの間の位置ずれを排除します。
  • 角損失は、アスペクト比に応じた動的重み係数を使用して計算されます

序章

AP50 はオブジェクト指向検出で最も一般的に使用される指標であり、多くの研究で AP50 に基づいてパフォーマンスが比較されています。しかし、この論文は懐疑的です。AP50 は指向性物体検出器の性能をよく反映しているのでしょうか? 視覚的な分析によると、アスペクト比が小さいオブジェクトは角度偏差の影響を受けにくいですが、アスペクト比が大きいオブジェクトは比較的敏感です。また、リモートセンシングの分野では回転フレームの角度に注目しており、AP50と比較してAP75は回転フレームの角度をより正確に測定できます。

これらのボックスの中心はターゲットに近いものの、角度はかなり異なりますが、これらのボックスの AP50 は悪くありません

図 1 は、いくつかの検出器の視覚化を示しています。一部の境界ボックスの中心点、長さ、幅はオブジェクトに非常に近いですが、角度の偏差が大きいことがわかります。それでも、それらのほとんどは依然として陽性反応を示し、AP50 という点で高いパフォーマンスを達成します。したがって、この異常により、この論文は、パフォーマンスを評価し、より有意義な高精度指向のオブジェクト検出に焦点を当てるために、より厳格なメトリクス (AP75 など) の使用を提唱するようになりました。

さまざまなアスペクト比での SkewIoU と角度偏差の関係。ar はアスペクト比を示します。

 アスペクト比が異なる境界ボックスの SkewIoU 変動傾向は、次の 2 つのタイプに明確に分けられます。

  • ar ≤ 1.5、図 b、アスペクト比が 1.5 未満の場合、角度偏差に関係なく、SkewIoU は常に 0.5 より大きくなります。
  • ar > 0.5、図 c、アスペクト比が 1.5 より大きい場合、角度偏差が増加するにつれて SkewIoU は急速に減衰します。

要約すると、アスペクト比が小さいオブジェクトは角度偏差の影響を受けにくいですが、アスペクト比が大きいオブジェクトは比較的敏感です。

 

AP50 で小さなギャップを持つ検出器は、AP75 で大きなギャップを示します (-H は、予測結果を水平の外接する四角形に変換することを意味します)

リモート センシングの分野では、回転フレームの角度がより重視されており、AP75 は回転フレームの角度をより適切に測定できます。

 

角度は、方向性のある物体検出における固有のパラメータとして、高精度の検出において重要な役割を果たします。高精度指向の物体検出に対する分類ベースの手法の大きな可能性。しかし、角度と境界ボックス間の相関関係を完全に無視したり、ハイパーパラメータ(CSL [36] のウィンドウ半径など)を導入したりするなど、まだいくつかの問題があります。したがって、角度予測の精度がある程度損なわれることになる。

DETR はオブジェクト検出をアンサンブル予測タスクとして扱い、二部グラフ マッチングを通じてラベルを割り当てます。これにより、Faster RCNN などの分類検出器と同等のパフォーマンスが実現されます。既存の DETR バリアントは、検出パフォーマンスと収束速度を大幅に向上させており、高精度の物体検出に対する Transformer の大きな可能性を示しています。いくつかの DETR ベースのオブジェクト指向検出方法が提案されていますが [4]、それらは依然として角度を予測するために回帰を使用しており、境界の不連続性によって引き起こされる問題を考慮していません。同時に、彼らは素朴な方法で角度を予測し、ベッド角度情報を DETR に供給する方法を検討していません。オブジェクト指向検出において DETR をより自然に使用する方法は、まだ研究課題です。

 

この論文では、 ARS-DETRと呼ばれる、アスペクト比に敏感な変形可能な DETR ベースの物体検出を提案します具体的には、ハイパーパラメータフリーのアスペクト比対応円形スムージング ラベル (AR-CSL) は、オブジェクトのアスペクト比に応じて隣接する角度の関係を表現するように設計されています。さまざまなオブジェクトの角度感度を考慮して、AR-CSL は、角度ラベルを平滑化するために、各角度偏差の下で異なるアスペクト比を持つオブジェクトの SkewIoU を使用します。次に、形成された角度を DETR ベースの検出器に埋め込んで特徴を位置合わせする、回転変形可能アテンション モジュールも提案されています。
最後に、アスペクト比を意識した損失およびマッチング戦略が採用されているため、検出器のトレーニングを動的に調整でき、モデルのトレーニングの負担を大幅に軽減できます。広範な実験により、ARS-DETR はさまざまなデータセットでの高精度指向の物体検出において実際に優れた検出器であることが示されています。

貢献は次のとおりです。

  • 指向性オブジェクト検出における角度バイアスの影響と、現在の指向性オブジェクト検出メトリクス (AP50 など) の欠点の詳細な概要を提供し、モデルのパフォーマンスを評価するためにより厳格なメトリクス (AP 75 など) の使用を推奨します。高精度指向の物体検出に重点を置いています。
  • アスペクト比を考慮した円形スムージング ラベリング (AR-CSL) と呼ばれる新しい角度分類方法は、各角度偏差で異なる視野角比を持つオブジェクトの SkewIoU 値を採用して、より合理的な方法で角度ラベルを平滑化します。前作で導入されたハイパーパラメータは廃止されました。
  • 角度を埋め込んだ回転変形可能なアテンション モジュールを提案し、新しい角度分類技術 (AR CSL)、ノイズ除去戦略 (DN)、アスペクト比を考慮した重み付け (ARW) およびマッチング (ARM) と組み合わせて、特徴を位置合わせします。パフォーマンスをさらに向上させます。
  • 3 つの公開データセット DOTA-V.0、DIOR-R、OHD-SJTU に対する広範な実験により、提案されたモデルの有効性が実証されました。ARS-DETR は、AP75 上のすべてのデータセットで最先端のパフォーマンスを実現します。

ARS-DETR法

 回帰ベースの損失関数を使用する代わりに、角度予測が分類タスクに変わるため、境界問題は自然に解消されます。CSL では角度を 180 のカテゴリに分割し、最初の角度カテゴリと最後の角度カテゴリを隣接する角度カテゴリとして取り、境界の不連続性の影響を排除します。次に、隣接する角度カテゴリ間の相関を反映するためにガウス窓関数を平滑化に使用し、角度推定誤差に対して一定の許容範囲を持たせます。

CSL には 2 つの問題があります。

  • ラベル機能を修正しましたCSL は、固定半径のガウス関数を使用して、オブジェクトのアスペクト比に関係なく、隣接する角度間の相関関係を学習し、ラベルを平滑化します。アスペクト比が異なるオブジェクトの SkewIoU は隣接する角度で大きく変化するため、隣接する角度間の相関関係は固定されるべきではありません。
  • ハイパーパラメータの導入ウィンドウ関数の半径は、最終的なパフォーマンスに大きく影響します。ハイパーパラメータとして、データセットの使用量が変化する場合、半径の最適値を決定するのは難しい問題です。

AR-円形スムーズラベル

固定ウィンドウ関数とハイパーパラメータ (つまり、半径) は、分類ベースのオブジェクト検出器の適用性を多少損ないます。このセクションでは、コーディング形式の観点から上記の問題を扱います。
SkewIoU が異なるオブジェクトの隣接する角度間の相関を動的に反映できることを考慮して、ラベルを平滑化するための固定ウィンドウ関数の代わりに SkewIoU を使用して、より合理的な角度前処理を行うアスペクト比を意識した円形スムージング ラベル (AR-CSL) 手法が設計されています。具体的には、各角度偏差の下での境界ボックスの SkewIoU が式 1 に従って計算され、計算された値が現在の角度カテゴリ ビンのラベルとして使用されます。

 AR-CSL には 2 つの利点があります。

  • 動的ラベル機能。オブジェクトのアスペクト比に基づいて動的に計算されるスムージング値
  • ハイパーパラメータを減らします。ハイパーパラメータが導入されていないため、このメソッドはより使いやすくなっています。

回転変形可能なアテンション モジュール

DETR で角度情報を反復する 2 つの方法。(a) 角度情報は各層の後に繰り返し更新されますが、DETR には埋め込まれません。(b) 私たちの方法では、角度情報は各レイヤーの後に新しい値に置き換えられ、角度情報はフィーチャの位置合わせに役立ちます。

 

  • 回転したバウンディング ボックスの推定を実現するために、頭部に追加の角度パラメータを追加するだけの単純な方法です。ただし、このアプローチでは、特に変形可能なアテンション モジュールにおいて、検出器全体での機能の位置ずれが発生します。
  • 私たちの回転変形アテンション モジュールは、埋め込まれた角度情報に従ってサンプリング ポイントを回転させ、サンプリング ポイントがフィーチャと位置合わせされるようにします。レイヤーごとの調整角度はありませんが、各レイヤーの後に新しい角度が独立して作成されます。予測した。

以下の図は、回転バウンディング ボックス推定を実現するために頭部に角度パラメータを追加するだけの DETR ベースの方向検出器 (単純な方法) を示しています。ただし、検出器の可能性を最大限に活用するために角度情報を検出器に埋め込むことはありません。このアプローチは、図 6(a) および図 7(b) に示すように、検出器全体で、特にその変形可能なアテンション モジュールでの機能の位置ずれを引き起こします。

(a) 水平基準フレームを使用して、サンプリング ポイントが基準フレーム内に制限されます。 (b) 回転基準フレームを使用して、サンプリング ポイントがターゲットに適合します。

図 7(a) に示すように、変形可能なアテンション モジュールのサンプリング ポイントは、対応する参照フレームに従って調整され、サンプリング ポイントが参照フレーム内に限定され、可能な限りオブジェクトの内側に収まるようになります。しかし,図 7 (b) に示すように,対象物が指向型の場合,水平基準枠をそのまま使用すると,サンプリング点を対象物に正確に合わせることができません。この目的のために、この論文は、図 7(c) および図 7(d) に示すように、埋め込まれた角度情報に従ってサンプリング ポイントを回転させ、サンプリング ポイントが特徴と位置合わせされるようにする回転可能な変形注意モジュールを設計しました。 。位置合わせされたサンプリング点の視覚化も図 6(b) に示されています。さらに、この論文では、層ごとに角度を調整するのではなく、図 5(b) に示すように、各層の後の新しい角度を独立して予測します。

ノイズ除去トレーニング

DETR ベースのモデルのパフォーマンスをさらに向上させるために、DINO のノイズ除去 (DN) トレーニング戦略が採用されています。ただし、ノイズθ0が物体に付加される角度には若干の違いがあります。クラスラベルを他のラベルにランダムに反転するためにクラスで使用されるメソッドではなく、ノイズスケールとして λ を定義します。

 アスペクト比に応じた重み付けとマッチング

DETR の角度損失関数とマッチング コストを変更しました。

 変更後は、アスペクト比の大きなオブジェクトがより類似した角度の境界線と照合されるようになり、角度損失の計算により角度精度の要件も高まります。したがって、モデルは、アスペクト比が異なるオブジェクトのトレーニング戦略を柔軟に調整できます。

実験

比較実験

 

 検出効果の視覚化:

アブレーション実験

 

おすすめ

転載: blog.csdn.net/m0_61899108/article/details/131915662