[CVPR2023] 選択的クエリ再収集: クエリベースのターゲット検出のトレーニングの強化

論文のタイトル: 選択的クエリ想起によるクエリベースのオブジェクト検出のトレーニングの強化

bb0ee014136f38e0770b8c07b591d2c6.png

コード: https://github.com/Fangyi-Chen/SQR

a91049c0bbe2808507427769a7d9f37c.png

Zhihuに関する著者の紹介: https://zhuanlan.zhihu.com/p/610347565

導入

従来の物体検出方法では、多数の手動処理ステップが必要となり、エンドツーエンドの最適化が制限されます。このペーパーでは、クエリベースのオブジェクト検出という魅力的な分野について説明します。クエリベースのオブジェクト検出では、モデルはデコード プロセスのさまざまな段階で異なる予測精度を示しますこれには、クエリベースのターゲット検出における困難な問題が伴います。ターゲットを予測する場合、デコード プロセスが進行するにつれて、中間のデコード ステージでは正確に予測できるものの、後のデコード ステージでエラーが発生します。

この論文では 2 つの重要な問題が提起されています。1 つは、トレーニングの負荷がさまざまなステージで不均等に分散されていること、2 つ目は、デコーダの逐次構造により、中間クエリの修正が後続のステージにカスケードされ、トレーニングの難易度が高まっていることです。これらの問題に対処するために、本稿では、中間クエリを蓄積し、後続のステージに選択的にフィードすることでトレーニング結果を向上させるトレーニング戦略として「選択的クエリ再収集 (SQR)」を紹介します。この戦略は、クエリベースのターゲット検出におけるパフォーマンスの問題を首尾よく解決し、より正確なターゲット検出テクノロジーを実現するための新しいアイデアと方法を提供します。

この記事への寄稿

  • 問題現象の定量的研究: この論文では、クエリベースのターゲット検出における重要な現象を初めて詳細に研究しました。つまり、モデルはデコードプロセスのさまざまな段階で異なる予測精度を持っています。この論文は実験とデータ分析を通じてこの現象を定量的に表現し、さらなる研究の基礎を提供します。

  • トレーニングの制限を特定する: この論文では、この見落とされている現象が 2 つのトレーニングの制限に起因していると指摘しています。1 つは、さまざまなステージでのトレーニング負荷の不均等な分散、もう 1 つはデコーダーのシーケンシャル構造で、中間クエリの変更が後続のステージにカスケードされ、トレーニングの難しさ。

  • 効果的なトレーニング戦略 SQR の提案: 上記の問題を解決するために、本論文ではトレーニング戦略として「選択的クエリ再コレクション (SQR)」を提案します。SQR は、中間クエリを蓄積し、それらを後続のステージに選択的にフィードすることにより、モデルのトレーニングを改善します。この戦略により、推論の計算コストを増加させることなく、クエリベースのターゲット検出のパフォーマンスが大幅に向上します。

  • 実験的検証: この論文では、複数の実験設定でさまざまなクエリベースのターゲット検出モデルをテストすることにより、SQR 戦略の有効性を検証しています。実験結果によると、SQR によってモデルのパフォーマンスが大幅に向上し、平均精度 (AP) が 1.4 から 2.8 向上しました。

関連作業

物体検出のトレーニング戦略:従来の物体検出方法は通常、アンカー ポイントやアンカー ボックスなどの高密度の事前情報に基づいて、グラウンド トゥルース オブジェクトを照合し、その IoU 値やその他のソフト スコアリング要素に依存します。マルチステージ モデルは、段階ごとに境界ボックスとカテゴリを繰り返し調整します。たとえば、Cascade RCNN は中間ステージの出力を使用して次のステージをトレーニングします。このステージでは、IoU しきい値が徐々に増加して、ターゲット検出結果が徐々に改善されることが保証されます。最近の DETR では、ターゲット検出をセットの予測問題として扱い、一定数のターゲット クエリを照合することでモデルをトレーニングし、複数のデコード ステージを通じて徐々にクエリを改善します。

クエリ ターゲットの検出:近年、多くのアルゴリズムが DETR の考え方を採用し始め、クエリ ターゲットの検出を新しいパラダイムとみなしています。これらの方法には、変形可能 DETR、条件付き DETR、アンカー DETR、DAB-DETR、DN-DETR、Adamixer などが含まれます。モデルのパフォーマンスと収束速度を向上させるために、変形可能なアテンション モジュールの使用、クエリの分離、アンカーの使用など、さまざまなバリエーションと改善が導入されています。

この記事のメソッド

この論文では、次の期待を満たすトレーニング戦略を設計したいと考えています。

  • 最終結果を向上させるために、後半のデコード段階に重点を置いた不均一な監視分布。

  • 初期のさまざまなクエリを後のステージに直接導入して、連鎖エラーの影響を軽減します。

この目的を達成するために、クエリ回想 (QR) と呼ばれる簡潔なトレーニング戦略を設計します。既存の手法と比較して、各段階で中間クエリを収集し、元のパスに沿って転送します。Dense Query Recollection (DQR) は基本的な形式ですが、Selective Query Recollection (SQR) は高度なバリエーションです。

018685f667da7ab6ec7650a20b5acb39.png
緻密なクエリの記憶

記号表現: この論文では一連のクエリを使用しています

52b311d3ae9fa820cf10c5c81d6c2e0a.png
ここで、n は通常 100、300、または 500 であり、これらのクエリは単一のデコード段階 (セルフ アテンション、クロス アテンション、FFN)、グラウンド トゥルースの割り当て、および損失計算に使用されます。

ベース パス: この論文では、すべてのデコード段階を通じてクエリが洗練されるベース パスの概念を導入しています。4 つのステージを持つデコーダを例にとると、それをすべてのステージで改善された最終クエリとして表すことができます。この基本パスは、式 (3) および (4) に示すように、カスケードの各段階で改善を適用することによって計算されます。

de2d6644d7190478ceb8271364e4c3a9.png

DQR の形式化: DQR は各中間クエリを高密度に収集し、それらを後続の各ステージに独立して渡します。各ステージの後に、クエリの数が指数関数的に増加するセット C が形成されます。各セットには、前のステージのクエリと現在のステージで生成されたクエリの半分が含まれます。このアプローチにより、(6) に示すように、各ステージの監視信号の数が確実に 2 倍になります。

eeedea7aeea9227eb83a8a010844d632.png

推論プロセス:推論フェーズでは、基本パスのみが使用され、推論プロセスには影響しません。標準の 6 ステージ デコーダの場合、推論パスは次のとおりです。

05a76ec2b79d76bb9e51bad2655637e6.png

DQR は、各ステージで中間クエリを厳密に収集し、それらを後続のステージに個別に渡すことによって、クエリの数が指数関数的に増加するコレクションを構築します。これにより、ステージが増加するにつれて監視信号の数が増加し、前のクエリが後続のステージで確実に表示されるようになります。

選択的なクエリの再収集

著者は、Dense Query Recollection には 2 つの問題があると考えています。1 つは高い計算コスト、もう 1 つはステージにまたがるクエリが悪影響を与える可能性があることです。したがって、選択的クエリ再収集は、よりインテリジェントなクエリ収集方法を提案します。SQR は、目標に対するクエリの貢献を考慮して、ケースバイケースで各段階でクエリを導入することを選択します。このように、SQR はパフォーマンスを向上させながら計算負荷を軽減できます。

より良いクエリ回想スキームを見つけるために、著者はセクション 3 で紹介した TP 減衰率と FP 強化率の詳細な分析を実施しました。彼らは、より良い代替案のほとんどはステージ 4 と 5 で得られ、TP 減衰率と FP 増強率はそれぞれ 23.9% と 40.8% に達し、ステージ 1 ~ 5 の結果に近かったのに対し、フェーズ 1 ~ 3 ではわずか 11.2% しか得られなかったことがわかりました。 %と32.4%。これは、隣接するステージからのクエリ、および隣接するステージの前のクエリがプラスの効果をもたらす可能性が高いことを示唆しています。

各ステージ D sが開始する前に、クエリは 2 つの最も近いステージ (D s-1および D s-2 ) から収集され、D sへの入力として使用されます。

SQR の形式化:

fe15321280c3de3e9ecdcd5749b9e4c6.png

選択的クエリ想起の効果:

選択的クエリ再収集は依然として期待に応えており、監視シグナルの数はフィボナッチ数列 (1、2、3、5、8、13) で増加しています。高密度クエリのリサイクルと比較して、SQR は計算負荷を大幅に軽減し、精度の点では高密度リサイクルよりも優れています。これは、スキップするステージが多すぎるクエリはリモート ステージでノイズを生成し、そのプラスの効果が隠蔽される可能性があるという著者の仮説を検証します。

再収集の初期フェーズ: フェーズ 1 からクエリの収集を開始するだけでなく、実際のニーズに応じて初期フェーズを変更することもできます。これにより、各コレクション内のクエリの総数がさらに削減され、計算負荷が軽減されます。これは、選択的なクエリのリサイクルのためのハイパーパラメータと考えることができます。

実験

実験結果

表 8 に示す SOTA との比較:

8212ab4dce56e193163b5871485f0480.png
  • DAB-DETR では、SQR は R50 と SwinB でそれぞれ +2.3 と +2.6 AP を改善しました。

  • Deformable-DETR では、SQR により AP が 12e で 2.7、50e で 1.4 改善されました。

  • R50 の Adamixer では、SQR は基本設定 (100 クエリ、12e) で +1.9 AP を達成しました。

  • エクストラステージ追加によりSQR有無の差が+2.8AP増加

アブレーション実験
9d15b94f634bddf6371097b8aa​​be483f.png
  • ベースラインと DQR および SQR の比較: 表 4 は、DQR と SQR の両方がベースラインのパフォーマンスを大幅に向上させることを示しています。DQR は 44.2 (+1.7 AP) の結果を達成しましたが、SQR は 44.4 (+1.9 AP) というわずかに高い結果を達成しました。SQR は DQR よりもはるかに効率的であることに注意してください。表 5 は、同じトレーニング設定の下で、SQR によりトレーニング時間が大幅に短縮され、それでも同等以上の AP が達成されることを示しています。

  • SQR の初期フェーズの変更: 著者らは、初期フェーズを変更した場合の SQR のパフォーマンスを表 5 に示します。クエリのリサイクルをフェーズ 1 から開始すると、最高のパフォーマンスが得られますが、計算コストが最も高くなります。ご覧のとおり、ステージ 2 から開始すると、パフォーマンスはステージ 1 から開始した場合と同様ですが、計算負荷が若干軽減されます。リサイクルの開始が遅くなると、初期段階からリサイクルされるクエリの数が少なくなり、トレーニングの焦点が徐々に分散されるため、SQR の利点は予想どおり減少します。

66bc8343a434e5ebb802fd595faba61f.png
  • 表 6 は、トレーニング効果による SQR 適用後の TP 減衰率と FP 増強率の減少を検証するために使用されます。

結論は

この研究では、クエリベースのオブジェクト検出器の最良の検出結果が常に最後のデコード段階から得られるわけではなく、中間のデコード段階から得られる場合があるという現象を研究します。まず、この問題の原因となる 2 つの制限、つまりトレーニングの焦点の欠如とクエリ シーケンスからのカスケード エラーを特定します。私たちは、シンプルかつ効果的なトレーニング戦略として、選択的クエリ リサイクル (SQR) を通じてこの問題に対処します。SQR は、さまざまなトレーニング設定下で Adamixer、DAB-DETR、および Deformable-DETR のパフォーマンスを大幅に向上させます。

☆終わり☆

これが表示された場合は、この記事が気に入っていることを意味します。転送して「いいね!」してください。WeChat で "uncle_pn" を検索してください。編集者の WeChat "woshicver" を追加することを歓迎します。高品質のブログ投稿が友達の輪に毎日更新されます。

QRコードを読み取ってエディタを追加↓

39159e3ce23ad0c5b567de2069a23bcd.jpeg

おすすめ

転載: blog.csdn.net/woshicver/article/details/133503074