マルチスケールの特徴マップと特定のローカル制約がなければ、DETR は苦労せずに増加できます。マイクロソフト アジア研究所は、DETR の最強の改善戦略を提案しました。これは、元の DETR 検出器を改良しながら、その「シンプルな」特性を維持します。つまり、マルチスケールの特徴マップやクロスアテンション計算のローカル設計はありません。
この論文では、「シンプルな」特性を維持する改良された DETR 検出器を提案しています。以前の主要な DETR ベースの検出器とは対照的に、特定のローカル制約なしで単一スケールの特徴マップとグローバル クロスアテンション計算を使用します。後者は、マルチスケールおよびローカル アーキテクチャを再導入しています。デコーダへの誘導バイアス。著者らは、マルチスケールの特徴マップと局所性制約の欠点を補うために、「単純な」設計内で驚くほどうまく機能する 2 つの単純な手法を実証します。
-
1 つ目は、BBox からピクセルへの相対位置バイアス (BoxRPB) 項をクロスアテンション式に追加することです。この項は、コーディングの柔軟性を提供しながら、各クエリが対応するターゲット領域に焦点を当てるように適切にガイドできます。
-
2 つ目は、マスク イメージ モデリング (MIM) に基づくバックボーンの事前トレーニングです。これは、微細な位置特定機能を備えた表現を学習するのに役立ち、マルチスケール フィーチャ マップへの依存を補うのに重要です。
これらの技術と、トレーニングと問題の定式化における最近の進歩を統合することにより、改良された「単純な」DETR は、元の DETR 検出器に比べて大幅な改善を示しています。事前トレーニングに Object365 データセットを活用することで、Swin-L Backbone を使用して 63.9 の mAP 精度を達成します。これは、競合する最先端の検出器の中でも非常に競争力があり、そのすべてがマルチスケールの特徴マップと領域ベースの特徴抽出。
コード: https://github.com/impiga/Plain-DETR
NLP 分野における最近の革命的な進歩により、タスク固有のヘッドまたはデコーダーを可能な限り汎用的、シンプル、軽量に保ち、より強力な大規模な基礎モデルの構築に主要な取り組みを移行することの重要性が浮き彫りになりました。しかし、コンピューター ビジョン コミュニティは、タスク固有のヘッドの調整と複雑さに焦点を当て続けることが多く、その結果、設計はますます面倒で複雑なものになっていきます。
DETR ベースのターゲット検出方法の開発もこの軌道に沿っています。オリジナルの DETR 手法は、特定の物体検出問題の専門的な理解を必要とするマルチスケールの特徴マップや領域ベースの特徴抽出などの複雑でドメイン固有の設計を放棄しているため、印象的です。しかし、その後のこの分野の開発により、これらの設計が再導入され、トレーニングの速度と精度は向上しましたが、「誘導バイアスが少ない」という原則にも違反しました。
この研究では、著者らは、マルチスケール特徴マップやクロスアテンション計算のための局所性設計などの「単純な」特性を維持しながら、元の DETR 検出器を改良することを目指しています。物体検出器はさまざまなスケールや位置にある物体を処理する必要があるため、これは困難です。表 1 に示すように、最近のトレーニングと問題の定式化ではある程度の進歩が見られますが、通常の DETR 手法は、マルチスケールの特徴マップと領域ベースの特徴抽出を使用して設計された最先端の検出器に依然として大きく遅れています。では、作成者は、マルチスケールで任意の場所のターゲットに対処する際に、アーキテクチャ上の「誘導バイアス」をどのように補正するのでしょうか? 著者の調査により、完全に新しいわけではありませんが、この状況では 2 つの単純なテクニックが驚くほどうまく機能することが明らかになりました。
-
BBox からピクセルまでの相対位置偏差 (BoxRPB)
-
マスク イメージ モデリング (MIM) の事前トレーニング
BoxRPB は、ピクセル間の幾何学的関係をエンコードし、平行移動の不変性を強化するビジュアル トランスフォーマーの相対位置バイアス (RPB) 用語からインスピレーションを得ています。BoxRPB は RPB を拡張して、4D ボックスと 2D ピクセル間の幾何学的関係をエンコードします。著者らはまた、完全な項を使用する場合と比較して精度を損なうことなく効率的に計算を行うための軸分解法も提案しています。
著者の実験では、BoxRPB 項がクロスアテンション計算をうまく誘導して個々のターゲットに焦点を当てることができ (図 4 を参照)、検出精度が +8.9 mAP 大幅に向上し、COCO ベンチマークでは 37.2 mAP に達することが示されました。 Common DETR Baseline (表 2 を参照してください)。
MIM 事前トレーニングの利用は、通常の DETR のパフォーマンスを向上させるもう 1 つの重要なテクノロジーです。著者の結果は、MIM 事前トレーニングが通常の DETR ベースライン (表 2 を参照) に基づいて +7.4 mAP を大幅に改善できることも示しており、これはその精細な位置特定機能に起因すると考えられます。MIM 事前トレーニングは他の検出器のパフォーマンスをわずかに向上させることが示されていますが、一般的な設定ではその影響は広範囲に及びます。
さらに、この技術は、バックボーンからマルチスケールの特徴マップを使用する必要性を排除し、それによって階層的なバックボーンまたは単一スケールのヘッドからの検出器を活用する重要な要素であることが証明されています。
これらの技術と、トレーニングと問題の定式化における最近の進歩を統合することにより、図 1 に示すように、著者が改良した「単純な」DETR は、元の DETR 検出器に比べて大幅な改善を達成しました。さらに、著者らの方法は、Object365 データセットで事前トレーニングされた場合に 63.9 mAP の精度を達成し、マルチスケールの特徴マップや領域ベースの特徴抽出技術に依存する最先端の物体検出器に匹敵します。カスケード R-CNN や DINO など) は非常に競争力があります。
これらの結果に加えて、私たちのアプローチは、検出固有のマルチスケールおよび局所的な設計に依存するのではなく、タスク固有のヘッドまたはデコーダーを設計するときにアーキテクチャ上の「誘導バイアス」を最小限に抑える方法を示しています。著者らの研究は、DETR などの汎用トリビアル デコーダを使用して最小限の労力でより広範囲の視覚問題を解決するという将来の研究を刺激し、それによってこの分野が大規模な基本視覚の開発にさらに多くの努力を移せるようにすることを望んでいます。モデルは、NLP 分野の状況と同様です。
最新の共通 DETR ベースライン
オリジナルの DETR のレビュー
元の DETR 検出器は 3 つのサブネットワークで構成されています。DETR フレームワークには、次のようないくつかの利点があります。
-
概念的に直観的であり、普遍的に適用可能です。画像ピクセルを問題のオブジェクトにデコードするという一般的な概念を使用して、オブジェクト検出をピクセルからオブジェクトへの「変換」タスクとして扱います。
-
エンドツーエンドのアンサンブル マッチング損失が使用されるため、カスタム ラベルの割り当てや手動で設計された非最大抑制など、最小限のドメイン知識が必要です。
-
ドメイン固有のマルチスケール特徴マップと領域ベースの特徴抽出は回避されます。
拡張された通常の DETR ベースライン
基本設定
著者の基本セットアップは、以下の調整を除いて、ほとんど元の DETR フレームワークに従っています。次に、著者は、最近のトレーニングと問題定式化の進歩を基本セットアップに組み込み、表 1 に示すように、検出精度を徐々に向上させます。
Transformer エンコーダをバックボーン ネットワークに組み込む
バックボーン ネットワークと Transformer エンコーダの役割は、画像の特徴をエンコードすることです。著者らは、Vision Transformer Backbone ネットワークを活用することで、Transformer エンコーダの計算量を Backbone ネットワークに組み込むことができ、おそらく事前トレーニングされたパラメータが増えたため、パフォーマンスがわずかに向上したことを発見しました。
具体的には、作成者は Swin-S Backbone ネットワークを使用し、Transformer エンコーダを削除しました。このメソッドは、オリジナルの Swin-T と 6 層の Transformer エンコーダと同様に FLOP を計算します。この方法では、バックボーン (エンコーダ) とデコーダ ネットワークのみを含む DETR フレームワーク全体が簡素化されます。
焦点損失を使用したより良い分類
デフォルトのクロスエントロピー損失を焦点損失に置き換えると、検出精度が 23.1 mAP から 31.6 mAP に向上します。
反復最適化
著者らは、各 Transformer デコーダ層内で独立した予測を使用するオリジナルの DETR とは異なり、各デコーダ層が前のデコーダ層によって生成された最新のバウンディング ボックスに対して増分バウンディング ボックス予測を行う反復最適化スキームに従います。この戦略により、検出精度が +1.5 mAP 向上し、33.1 mAP になります。
コンテンツベースのクエリ
画像コンテンツに基づいてターゲット クエリを生成します。最も信頼度の高い 300 個の予測が、後続のデコード プロセスのクエリとして選択されます。セット マッチング ロスを使用してターゲット クエリを生成するため、ドメイン固有のラベル割り当て戦略が必要ないという利点が維持されます。この修正により、検出精度が +0.9 mAP 向上し、34.0 mAP になりました。
二度楽しみにしてください
著者らは、先読み 2 回戦略を採用して、以前の Transformer デコーダ層からの洗練されたバウンディング ボックス情報を利用して、隣接する Transformer デコーダ層間のパラメータをより効率的に最適化します。この変更により、mAP が +0.8 向上しました。
混合クエリの選択
元の 1 対 1 セット マッチングは、陽性サンプルのトレーニングにはうまく機能しません。補助的な 1 対多セットのマッチング損失を通じてパフォーマンスを向上させる方法がいくつかあります。著者らは、手作業でラベル付けされたノイズや割り当て設計を追加する必要がないという利点を維持できるため、ミックスマッチアプローチを選択しました。この修正により検出精度が +2.0 mAP 向上し、最終的には 37.2 mAP に達しました。
BBox からピクセルまでの相対位置偏差
このセクションでは、著者らは、マルチスケール機能と明示的なローカル クロスアテンション計算の欠如を補うために重要な、BBox からピクセルへの相対位置バイアス (BoxRPB) という単純な手法を紹介します。
元の DETR デコーダは標準のクロスアテンション計算を使用します。ここで、X と O はそれぞれ各ターゲット クエリの入力と出力の特徴であり、Q、K、V はそれぞれクエリ、キー、値の特徴です。
図 4 に示すように、元のクロスアテンション計算は通常、通常の DETR フレームワーク内のターゲットに無関係な画像領域に焦点を当てます。著者らは、これがマルチスケールの明示的なローカル設計よりも精度がはるかに低い理由の 1 つである可能性があると推測しています。ビジュアル Transformer アーキテクチャにおけるピクセル間の相対位置バイアスの成功に触発され、著者らはクロスアテンションの計算に BBox からピクセルの相対位置バイアス (BoxRPB) を使用することを検討しています。ここで、B は BBox 間の幾何学的関係です。およびピクセル 決定された相対位置偏差。
2D 相対位置で定義された元の相対位置バイアス (RPB) とは異なり、BoxRPB はより大きな 4D 幾何学的空間を扱う必要があります。次に、著者は 2 つの実装バリアントを紹介します。
シンプルな BoxRPB 実装
著者らは、連続 RPB 法を適用して 4D BBox からピクセルまでの相対位置偏差を計算しました。オリジナルの連続 RPB 手法は、対応する 2D 相対座標にメタネットワークを適用することにより、相対位置構成ごとにバイアス項を生成します。このメソッドを BoxRPB に拡張する場合、作成者は左上隅と右下隅を使用して BBox を表し、これらの隅の点と画像ピクセルの間の相対位置をメタネットワークの入力として使用します。著者の実験では、表 3a に示すように、この単純な実装がすでに非常に効果的であることが示されています。ただし、大量の GPU 計算とメモリ バジェットを消費するため、現実的ではありません。
分解された BoxRPB 実装
ここで、著者は BoxRPB のより効率的な実装を提案します。著者らは、4D 入力のバイアス項を直接計算する代わりに、バイアス計算を 2 つの項に分解することを検討しています。表 3a に示すように、分解により、計算の FLOP とメモリ消費量の両方が大幅に削減され、精度はほぼ同じままです。この分解ベースの実装は、著者の実験におけるデフォルトでした。図 4 は、BBox からピクセルへの相対位置偏差がクロスアテンション計算に及ぼす影響を示しています。全体として、BoxRPB の用語ではターゲットと境界により注意が集中しますが、BoxRPB を使用しないクロスアテンションは多くの無関係な領域に焦点を当てる可能性があります。これは、表 2 に示すように、BoxRPB エントリが 8.9 mAP を大幅に改善する方法を説明する可能性があります。
さらなる改善
このセクションでは、著者は、一般的な DETR フレームワークをさらに改善できる 2 つの追加テクニックを紹介します。
MIM事前トレーニング
著者らは、マスク画像モデリングの事前トレーニングに最近の最先端技術を利用しており、より良い局所性を示しています。具体的には、著者らは、ラベルなしで ImageNet 上で学習された SimMIM 事前トレーニング済み重みを使用して Swin Transformer Backbone ネットワークを初期化します。表 2 に示すように、MIM 事前トレーニングは、著者の通常の DETR ベースラインと比較して +7.4 mAP の改善をもたらしました。他の検出器と比較して、通常の DETR フレームワークでの MIM 事前トレーニングの大幅な利点は、通常の DETR フレームワークの学習位置特定能力の重要性を強調する可能性があります。
すでに BoxRPB が含まれているより高いベースラインでは、MIM 事前トレーニングにより +2.6 mAP の増加が得られ、48.7 mAP に達します。
さらに、著者らは、表 5b および 5c に示すように、MIM の事前トレーニングも、精度をほとんど損なうことなくマルチスケールのバックボーン機能を放棄できるようにするために重要であると指摘しています。
再パラメータ化された境界ボックス回帰
著者が強調したいもう 1 つの改善点は、バウンディング ボックス回帰を実行する際のバウンディング ボックスの再パラメータ化です。
元の DETR フレームワークとそのバリアントのほとんどは、境界ボックスの中心とサイズを [0,1] に直接スケーリングします。大きなターゲットが損失計算の大半を占めるため、小さなターゲットを検出するのが困難になります。代わりに、著者らは境界ボックスの中心と l 番目のデコーダ層のサイズを次のように再パラメータ化します。アブレーションの研究と分析
BBox相対位置偏差の重要性
表 3 では、著者らは BoxRPB スキームにおける各要素の影響を調査し、以下の議論で詳細な比較結果を報告しています。軸方向分解の影響表 3a で、著者らは 2 つの方法を比較し、軸方向分解スキームが同等のパフォーマンス レベル (50.9 対 50.8) に達しながら、必要なメモリ フットプリント (9.5 G 対 26.8 G) とより少ない計算量を必要とすることを発見しました。オーバーヘッド (5.8G フロップ対 265.4G フロップ)。
BBox ポイントの影響
表 3b は、中心点または 2 つの隅点のみを使用した比較を示しています。著者らは、中心点を適用するだけでベースライン (表 2 の 4 行目) が +1.7 AP 向上することを発見しました。ただし、コーナーポイントを 2 つ使用するほどパフォーマンスは良くありません。
特に、2 つの方法では同等の AP50 結果が得られますが、コーナー ポイントを活用すると AP75 が +2.2 向上します。これは、相対的な位置の偏差を正確にモデル化するには、クエリ ボックスの位置 (中心) だけでなくスケール (高さと幅) も重要であることを示しています。
隠れた次元の影響
著者らは、式 5 の隠れ次元の影響を研究しました。表 3c に示すように、隠れ次元が 128 と小さくなると、パフォーマンスが 0.5 低下します。これは、位置関係が単純ではなく、モデル化するには高次元の空間が必要であることを示しています。
他の方法との比較
著者らは、式 2 の変調項 B を計算するために他のオプションを選択した場合の影響を研究しました。著者らは次の代表的な方法と比較しました。
-
条件付きクロスアテンション スキーム。条件付き空間 (位置) クエリ エンベディングと空間クリティカル クエリ エンベディング間の内積に基づいて変調項を計算します。
-
DAB クロス アテンション スキーム。条件付きクロス アテンションに基づいており、さらにボックスの幅と高さの情報を使用して位置アテンション マップを調整します。
-
空間変調クロスアテンション スキーム (SMCA) は、事前に手作りのクエリ空間を設計し、2D ガウスのようなウェイト マップを使用して実装し、ターゲット クエリの初期推定値付近で注目される特徴を制限します。
表 3d に詳細な比較結果を示します。著者らの方法は、すべての方法の中で最も優れたパフォーマンスを示しました。具体的には、条件付きクロスアテンション モジュールは、中心点のみを使用して、著者の設定 (表 3b の最初の行) と同様のパフォーマンスを達成します。DAB クロスアテンションと SMCA は、条件付きクロスアテンション モジュールよりもわずかに優れていますが、依然として BoxRPB よりもそれぞれ 2.5 AP と 2.2 AP 遅れています。
著者らはまた、公式オープンソース コードに基づいて BoxRPB と DAB ベースのクロスアテンションを比較しました。DAB 位置モジュールを BoxRPB に置き換えると、+1.8 mAP のパフォーマンス向上が達成されました。
ローカルアテンションスキームとの比較
このセクションでは、グローバル アテンション モデルを、変形可能なクロス アテンション、RoIAlign、RoI サンプリング (関心領域内の固定点のサンプリング)、BBox マスクなどの他の代表的なローカル クロス アテンション メカニズムと比較します。著者は、これらのアプローチの主な違いについて詳しく説明します。表 4 に示すように、私たちの方法はすべてのローカル クロスアテンション バリアントよりも優れています。さらに、著者らは、ターゲットが大きいほど著者のアプローチが大幅に改善されることを観察しました。同様の観察は DETR でも報告されており、これはグローバルな注意パターンに基づいたより効果的な長距離コンテキスト モデリングによるものと考えられます。
MIM 事前トレーニングについて著者は、MIM 事前トレーニングの有無にかかわらず、バックボーンとデコーダーの機能マップを使用するさまざまな方法を調査します。図 3 に示すように、著者らは 3 つの異なるアーキテクチャ構成のパフォーマンスを評価しました。著者らは以下の結果について議論し、分析しています。
MIM 事前トレーニングが、マルチスケール特徴マップを除去できるデコーダーの 著者らは、この発見が将来の検出フレームワークの設計を簡素化することを期待しています。
Backbone からのマルチスケール フィーチャ マップは必要ありません
表 5b と表 5c の結果を比較することで、著者らはバックボーンからマルチスケール特徴マップを削除した場合の影響を分析しています。監視済みの事前トレーニング済みバックボーンを使用する場合、バックボーンから最後の機能マップのみを取得すると、パフォーマンスが低下します。これらの結果は、MIM 事前トレーニングによってマルチスケールの特徴マップへの依存を軽減できることを示しています。
バックボーンから単一スケールの特徴マップを取得し、デコーダーから単一スケールの特徴マップを取得するだけで十分です
上記の観察に基づいて、著者らは、驚くべきだが重要な単純な結論を導き出すことができます。つまり、著者らによって提案された BoxRPB スキームと MIM 事前トレーニングを使用することにより、Backbone および Transformer デコーダにおけるマルチスケールの特徴マップの必要性を軽減できるということです。完全に排除されました。
純粋な ViT に適用
このセクションでは、著者の方法を純粋な ViT に適用することにより、シンプルで効果的な全純粋ターゲット検出システムを構築します。著者のシステムは、マルチスケール設計や処理を行わずに、純粋な Transformer エンコーダ/デコーダ アーキテクチャで単一解像度の特徴マップのみを使用します。私たちの手法を、COCO データセット上の最先端のカスケード マスク R-CNN と比較します。公平な比較のために、著者は MAE によって事前にトレーニングされた ViT-Base をバックボーンとして使用し、オブジェクト検出器を 50 エポックまでトレーニングします。
表 8 に示すように、著者の方法は、さまざまなターゲット スケールをより適切に局所化するためにマルチスケール特徴マップに依存することなく、カスケード マスク R-CNN と同等の結果を達成します。
著者らのメソッドは、一般にオブジェクト検出に有益であると考えられているインスタンス マスク アノテーションを使用してトレーニングされていないことに注意してください。
クロスアテンションマップの可視化
図 4 は、BoxRPB を使用したモデルと使用しないモデルのクロス アテンション マップを示しています。BoxRPB を備えたモデルの場合、クロスアテンションは 1 つのターゲットに集中します。対照的に、BoxRPB を使用しないモデルのクロスアテンションは、類似した外観を持つ複数のターゲットに焦点を当てます。
システムレベルの結果
SOTAの比較
このセクションでは、私たちの方法を他の最先端の方法と比較します。表 7 は結果を示しています。この表で報告されているすべての実験はバックボーンとして Swin-Large を使用しています。他の作品では通常、エンコーダを適用してバックボーン機能を強化しているため、公平な比較のために、著者らはバックボーンの上に 12 個のウィンドウベースのシングルスケール Transformer レイヤー (機能次元 256) もスタックしています。36 のトレーニング エポックを通じて、著者のモデルは COCO テスト開発セットで 60.0 AP を達成し、DINO-DETR 1.4 AP を超えました。さらに、事前トレーニング データ セットとして Objects365 を導入したことで、著者の方法はテスト開発セットで 63.9 の AP を達成しました。これは、DINO-DETR や DETA よりも大幅に改善されました。これらの強力な結果は、完全に純粋な DETR アーキテクチャには固有の欠点がなく、高いパフォーマンスを達成できることを証明しています。ワオソフト アイオット http://143ai.com
よりシンプルな ViT 結果
表 8 は、純粋な ViT に基づいた詳細な比較結果を示しています。著者は、本文のセクション 5.4 で説明されているデフォルト設定を使用し、MAE によって事前トレーニングされた ViTBase をバックボーンとして使用し、モデルを 50 エポックまでトレーニングしました。結果に基づいて、著者らは次のことを観察しました。
-
著者の方法は、単一スケールの特徴マップを処理するグローバル クロスアテンション スキームのみを使用して、純粋な DETR ベースラインを 46.5 AP から 53.8 AP に改善します。
-
著者らのアプローチは、マルチスケール特徴マップを活用するローカル クロス アテンション スキームを使用する Deformable DETR などの強力な DETR ベースの物体検出器よりも優れています。
他のメソッドとの実行時の比較
著者は、表 9 でさまざまなクロスアテンション変調の実行時コストをさらに分析しています。BoxRPB は、標準のクロスアテンションと比較して実行時間をわずかに増加させますが、速度では他の位置バイアス手法と同等です。ローカル アテンション スキームの詳細
図 5 は、著者の手法と、変形可能なクロスアテンション、RoIAlign、RoI サンプリング、ボックス マスクなどのローカル クロスアテンション手法との違いを示しています。ほとんどのローカル クロス アテンション メソッドでは、スパースなキーと値の空間を構築するために特別なサンプリングおよび補間メカニズムを使用する必要があります。著者の方法は、すべての画像位置をキー値空間として使用し、ボックスからピクセルへの相対位置偏差項 ((e) のグラデーション ピンクの円形領域) を学習して、注意の重みを調整します。これにより、著者のアプローチは以前の方法よりも柔軟で多用途になります。COCO val のシステムレベルの比較
表 10 は、Swin-Large をバックボーン ネットワークとして使用する場合の、著者の方法と以前の最先端の方法を比較しています。36 トレーニング エポック以内に、著者のモデルは COCO 検証セットで 59.8 AP を達成し、DINO-DETR の 1.3 AP を上回りました。事前トレーニングに Objects365 を使用することにより、著者の方法では 63.8 AP が得られ、これは DINO-DETR よりもはるかに高くなりました。これらの結果は、著者らのアプローチにより、改良された通常の DETR が固有の制限なしに競争力のあるパフォーマンスを達成できることを示しています。