Co-DETR

この論文では、複数のラベル割り当てからより効率的かつ効果的な DETR ベースの検出器を学習するための、新しい協調混合割り当てトレーニング スキーム Co-DETR を提案します。COCO test-dev で 66.0 AP の新記録を樹立し、COCO test-dev で 66.0 AP を超えた最初のモデルです。

論文リンク: https://arxiv.org/pdf/2211.12860.pdf

ソースリンク: https://github.com/Sense-X/Co-DETR

オブジェクトの検出はコンピューター ビジョンの基本的なタスクであり、オブジェクトの位置特定と分類が必要です。RCNN ファミリと一連のバリアント (ATSS、RetinaNet、FCOS など) は、物体検出タスクに大きな進歩をもたらします。1 対多のラベル割り当てがその中心的なスキームであり、プロポーザル ボックス、アンカー ボックス、またはウィンドウ センターと連携して、各 GT ボックスが教師付きターゲットとして検出器出力の複数の座標に割り当てられます。これらの検出器は優れたパフォーマンスを備えていますが、NMS やアンカー ボックスの生成など、人間が設計した多くのコンポーネントに大きく依存しています。より柔軟なエンドツーエンド検出器を実現するために、物体検出をアンサンブル予測問題として扱い、Transformer エンコーダ/デコーダ アーキテクチャに基づいた 1 対 1 のアンサンブル マッチング方法を導入する DETR が提案されています。このようにして、各 GT ボックスは、事前知識をエンコードする人間が設計した複数のコンポーネントを必要とせずに、特定のクエリにゴールド カップを割り当てます。この一連の方法では、柔軟な検出フレームワークが導入され、多くの DETR 亜種のさらなる改善が促進されます。ただし、一般的なエンドツーエンドの検出器のパフォーマンスは、1 対多のラベル割り当てを備えた従来の検出器よりも依然として劣っています。この観察は、シンプルだが効果的な方法、すなわち、協調ハイブリッド課題トレーニング (Co-DETR) を提案する動機となっています。Co-DETR の主な概要は、一般的な 1 対多のラベル割り当てを使用して、エンコーダのトレーニング効率とデコーダのトレーニング効率と有効性を向上させることです。より具体的には、補助ヘッダーは Transformer エンコーダー出力と統合されています。これらのヘッドは、多用途の 1 対多のラベル割り当て (ATSS、FCOS、Faster RCNN など) によって監視できます。さまざまなラベルの割り当てにより、エンコーダー出力の監視が強化され、トレーニングの収束のためにこれらのヘッドをサポートするのに十分な識別力が必要になります。デコーダのトレーニング効率をさらに向上させるために、アンカー ボックスやポジティブ プロポーザル ボックスを含む、これらの補助ヘッド内のポジティブ サンプル座標が注意深くエンコードされます。これらは、事前に割り当てられたカテゴリと境界ボックスを予測するためのポジティブ クエリのセットとしてデコーダに渡されます。各補助ヘッドの正の座標は、他のグループから分離された別個のグループとして扱われます。一般的な 1 対多のラベル割り当てでは、デコーダのトレーニング効率を向上させるために、多数の (ポジティブ クエリ、GT) ペアを導入できます。さらに、推論中に元のデコーダのみが使用されるため、提案されたトレーニング スキームはトレーニング中に追加の計算オーバーヘッドを導入するだけです。

本稿での手法

共同混合タスク トレーニングカスタム ポジティブ クエリの生成Co-DETR パフォーマンス向上の理由

Co-DETR は DETR と比較して大幅に改善できます。以下では、その有効性を定性的および定量的の両方で調査することを試みます。

豊富なエンコーダ監視とフォアグラウンド オーバーラップ エリア (IoF) は次のように説明できます。

ハンガリアンマッチングの不安定性を軽減することによるインターリーブ注意学習の改善

ハンガリアン マッチは 1 対 1 のセットマッチであり、コアシナリオです。クロスアテンションは、クエリを転送して、ターゲット情報を充実させる重要な操作をエンコードするのに役立ちます。このプロセスを達成するには十分なトレーニングが必要です。同じ画像内の特定のクエリに割り当てられた GT がトレーニング中に変化するため、ハンガリーのマッチング アルゴリズムでは制御不能な不安定性が生じることが観察されています。不安定な比較を図 5 に示します。この論文の方法は、より安定したマッチング プロセスの実現に役立つことがわかります。

実験

表 2 は、この論文の方法と DETR シリーズの方法の実験結果の比較を示しています。協調ハイブリッド タスクは、まず C5 機能を備えた単一スケール DETR に適用されます。Conditional-DETR と DAB-DETR は両方とも、長いトレーニング期間に基づいて 2.4% と 2.3% の AP ゲインを達成します。マルチスケール機能を備えた Deformable-DETR の場合、検出パフォーマンスは 37.1% から 42.9% に大幅に向上しました。トレーニング エポックを 36 エポックに増やしても、全体的な改善は維持されます。whaosoft  aiot  http://143ai.comは Deformable DETR++ に基づいており、この文書ではバックボーン容量を ResNet-50 から Swin Transformer までさらに拡張します。表 3 は、この論文の方法が 56.9% AP を達成し、Swin-L と比較して大きな利点でベースライン (+1.7% AP) を上回っていることを示しています。 表 4 は、Deformable DETR++ に適用された K=2 メソッドと SOTA メソッドの間のパフォーマンスの比較を示しています。比較した方法と比較して、私たちの方法はより速く収束します。たとえば、Co-DINO-Deformable-DETR は、ResNet-50 バックボーンで 12 サイクルのみを使用した場合、51.2% の AP を容易に達成します。Swin-L を使用した DINO-Deformable-DETR のパフォーマンスは、AP の 58.5% から 59.5% に改善できます。さらに重要なのは、この論文の最良のモデルである Co-DINO-Deformable-DETR++ は、36 エポック トレーニングで ResNet-50 で 54.0% の AP、Swin-L で 60.0% の AP を達成し、同じバックボーンを持つ既存のすべての Detector を上回るパフォーマンスを示していることです。大きな利点 

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/132032169