[CVPR2022] QueryDet論文の集中読解


論文: https://arxiv.org/abs/2103.09136

ソースコード: https://github.com/ChenhongyiYang/QueryDet-PyTorch

1 はじめに

最近、リモートセンシング画像における小さなターゲットの検出を改善する方法について考えていました。偶然、ツーソンが提案する将来の小さなターゲット検出ワーク QueryDet を目にしました。この記事の主なアイデアは、カスケード接続を使用することです。 sparse query to Accelerate detect of small target at high solution . ネットワークのコンピューティングとストレージのオーバーヘッドを大幅に削減します. 以下では、この記事についての私の理解と考えを主に述べます。

2 研究の背景

著者の記事は、前任者が行った作業を機械的に引き継いで列挙するのではなく、タスク自体を要約することに重点を置き、そのタスクに内在する課題や困難が明確に整理されているという点で、より適切に書かれていると思います。

2.1 小さなターゲットの検出精度が低いという課題

COCO データセットでは、現在の主流の検出器 RetinaNet は、大型ターゲットと中型ターゲットでそれぞれ 51.2mAP と 44.1mAP に達しますが、小型ターゲットの検出精度は 24.1mAP にとどまります。著者は、小型ターゲットの精度は低下すると結論付けています。主な理由は次の 3 つです。

  1. CNN ダウンサンプリング操作では、小さなターゲットの特徴情報が消化されますが、背景によって特徴が汚染されることもあります。
  2. 低解像度の特徴マップの受容野は、小さなオブジェクトのサイズと一致しない可能性があります。
  3. 小さなターゲットのバウンディングボックスの外乱が検出結果に与える影響は、大きなターゲットの場合よりもはるかに大きいため、位置決めはより困難になります。

小さな物体の検出の課題

2.2 改善の動機

既存の小型物体検出手法は通常、入力画像サイズを拡大するか、ダウンサンプリング レートを下げることで、より大きな解像度の特徴を維持しますが、この手法では大量の冗長な計算が導入され、低レベルの特徴の検出計算が複雑になります。下の図。
さまざまな構造の運用オーバーヘッドの比較

著者はこの愚かな方法を否定し(私も以前に改善するためにこの愚かな方法を使用したいと思っていました。幸いなことに、最初にこの記事を読みました)、彼の 2 つの重要な発見について説明しました。

  1. 高解像度および低レベルの特徴マップでの特徴計算は非常に冗長であり、小さなターゲットの空間分布はまばらであり、特徴マップのごく一部しか占めていません。以下は非常に小さいものを占めます。
  2. FPN 構造では、低解像度の特徴レイヤーが小さなターゲットを正確に検出できない場合でも、小さなターゲットの存在の有無とその領域を高い信頼度で大まかに判断できます。特徴ピラミッドのサンプリング特性は、畳み込みニューラル ネットワークの畳み込み特性 (変換、スケーリング、および歪みの不変性) に似ており、特徴の推論はそのダウンサンプリングおよびアップサンプリングの特性に基づいて実行できます。

小さいターゲット画像の例
上記の出発点に基づいて、QueryDet はカスケード スパース クエリ (Cascade Sparse Query) メカニズムを提案します。このうち、Query は、前の層から渡されたクエリ (解像度が低い上位の特徴) を使用してこの層の小さなターゲット検出をガイドし、さらにこの層のクエリが次の層に渡されることを予測します。次の層の小さなターゲット ターゲット検出ガイダンスのプロセス; カスケードはこのカスケードのアイデアを表します; スパースは、低レベルの特徴層での検出ヘッドの計算オーバーヘッドを大幅に削減するためのスパース畳み込み (スパース畳み込み) の使用を表します。

端的に言えば、前層の特徴マップは高レベルの特徴と低解像度を持ち、小さなターゲットの初期スクリーニングを担当し、この種のクエリは高解像度の情報とともに下位層に送信され、その後洗練されます。この「一目見て集中する」という 2 段階の構造により、動的推論を効果的に実行し、最終結果を検出できます。

2 モデル構造

前述したように、特徴ピラミッド ベースの検出器の以前の設計では、小さなオブジェクトは高解像度の低レベルの特徴マップから検出される傾向がありました。ただし、小さなオブジェクトは通常、空間にまばらに分散しているため、高解像度の特徴マップに対する集中的な計算パラダイムは非常に非効率的です。この観察に触発されて、著者らは、低レベルのピラミッドの計算コストを削減するための粗いから細かいへのアプローチを提案します。まず、粗い特徴マップ上の小さなオブジェクトの大まかな位置を予測し、次に粗い特徴マップ上の対応する位置を集中的に計算します。優れた特徴マップ。この処理は、大まかな位置をクエリキー、微小物体の検出に使用される高解像度特徴量をクエリ値とするクエリ処理とみなすことができ、全体の処理を下図に示します。
QueryDet 検出プロセス
原文では、このプロセスを数式で厳密に定義しているため、理解するのが容易ではありませんが、以下では、著者のホームページにある画像を借用して、この検出プロセスを平易な言葉で説明してみます
QueryDet 検出プロセス図
。クエリ操作、つまり、Large->Medium および Medium->Small では、Large->Medium を例として取り上げます。まず、ネットワークは画像内の小さなターゲットを Large レベルでマークし (サイズが事前設定されたしきい値 s よりも小さいオブジェクトは小さなターゲットとして定義されます)、Large レベルのネットワークは小さなターゲットの信頼度を予測します。予測プロセス中にターゲットを取得し、小さなターゲットのグリッド情報が含まれる情報を取得します。次に、推論プロセスで、ネットワークは予測スコアがしきい値 s より大きい位置をクエリとして選択し、この位置を特徴マップにマッピングします。最後に、Medium 上の対応する 3 つのヘッドは、設定されたキー位置に対応する位置で次のレイヤーのヘッドとクエリのみを計算します。これは、計算処理はスパースコンボリューションにより実現されます。

具体的な数学的記述

3 実験結果

この記事では、主に次のような比較的完全なアブレーション実験を行っています。

  • COCO mini-val での RetinaNet と QueryDet の比較
  • Visdrone で RetinaNet と QueryDet を比較する
  • COCO mini-val でアブレーション実験を実施し、HR (高解像度機能)、RB (損失
    再バランス、異なるレイヤーに重みを追加する)、QH (追加のクエリ ヘッド) を比較します。
  • さまざまなクエリしきい値を使用して、COCO と Visdrone 2018 の AP、AR、FPS のトレードオフを比較します。
  • COCO mini-val でクエリなしのメソッドと 3 つの異なるクエリを使用したメソッドの比較: CSQ 最適化
  • COCO mini-val 上のさまざまなレイヤーからのクエリ、対応する AP および FPS を比較します。
  • 別のバックボーンへの切り替え (MobileNet V2 および ShuffleNet V2) テスト結果
  • QueryDetに組み込まれたFCOSをCOCO mini-valで使用して結果を比較
  • COCO test-dev および VisDrone 検証で使用されないメソッド

CSQ、CQ、CCQのパフォーマンス比較
結果はリストされていません。視覚化だけを見てください。
視覚化

4 まとめ

QueryDet は、高解像度機能を使用して小さなターゲットの検出パフォーマンスを向上させ、CSQ メカニズムを通じて、高レベルの低解像度機能を使用して小さなターゲットを含む領域を最初にスクリーニングし、最初のスクリーニングによって取得された位置を高解像度のフィーチャ レイヤーを使用し、スパース ボリュームを使用するプロダクト操作により、計算消費量が大幅に節約されます。実際、この論文で説明されている SOFT についてはまだ議論の余地があるため、具体的なパフォーマンスについては、ソース コードを注意深く調べてから共有します。

おすすめ

転載: blog.csdn.net/weixin_43427721/article/details/125116134