論文メモ: DETR: Transformers を使用したエンドツーエンドのオブジェクト検出 (Li Mu と Zhu より)

ここに画像の説明を挿入

バックグラウンド

ほとんどのターゲット検出方法は 2 段階 (提案) であり、1 段階 (アンカー) であっても、最終的に後処理操作、つまり予測フレームを削除するための nms (non-maximum suppersion) 非最大抑制を必要とすることがよくあります。これにより、パラメーターの調整と展開の困難 (通常のハードウェアではサポートされていない多くの複雑なライブラリとオペレーター、手動介入の事前知識) が回避されます。

以前に広く使用されていた検出モデルは、次の方法で検出します。

  • 提案: Faster-R-CNN、マスク RCNN、fpn RCNN、Cascade RCNN
  • アンカーベース: YOLO、焦点損失
  • 非アンカーベース: ウィンドウセンター、センターネット、FCOS

問題を解決するために幾何学的予測タスクを回帰/分類タスクに間接的に変換することも、後処理によって制限されます。Transformer は NLP Decoder に自己回帰生成を使用しますが、DETR は結果を直接出力します。1 つは高速で、もう 1 つは画像が逐次回帰に依存する必要がなく、各境界ボックスの結果が関連していないことです。

2020 ECCV に関する DETR の画期的なターゲット検出論文では、オブジェクト検出タスクに必要なのは Transformer だけであり、Transformer のグローバル モデリング機能を直接使用し、ターゲット検出のローカル情報を予測の集合問題と見なしています。同時に、それらの冗長なボックスは出力されず、エンドツーエンドの出力結果になります。

革新

  • 実装は非常にシンプルで、モデルの構築、転送、推論のプロセスを含むコア コードは 50 行を超えません。冗長な処理や知識を必要とせずに、画像分類と同じくらい簡単にターゲット検出を行うことができます。
  • 二部グラフマッチングにより一意の予測 (フレームなし) を生成する新しい目的関数が提案されています。
  • Transformer Decoder では、追加の入力 (アンカーに似た学習済みオブジェクト クエリ) がグローバル画像情報と結合するために追加され、モデルが直接 **一緒に (並行して) ** 最後の予測フレームを出力できるようになります。
  • パノラマ セグメンテーション、オブジェクト追跡、ビデオ ポーズ予測、セマンティック セグメンテーションなど、多くの複雑なタスクに適しています。

関連作業

オリジナル論文
2.1 アンサンブル予測科学の普及
2.2 トランスフォーマーと並列デコーディング
2.3 ターゲット検出前の関連作業
DETR の 2 つの主な特徴

  • セットベースの損失
  • 再発検出器

以前の作業は他のバックボーンに実装されましたが、効果は十分ではなく、まだ比較的複雑で、手動介入が使用されているため、最終的には Transformer の成功です。

詳細モデル

メインメソッド

下図はDETRの全体的なワークフローを示したものです
ここに画像の説明を挿入
(1) CNNがまず特徴を抽出し、それを直線化してTransformerに送信します
(2) Encoderが大域特徴を学習し、対象ブロックを大まかに区別し、出力された予測フレームと1対1に対応させます後の検出を支援するために、 one-to-many の代わりに
(3) デコーダには、アンカー生成を置き換えるメカニズムである、いくつかのボックス (100) を制限するオブジェクト クエリがあります
(4) グラウンド トゥルース ボックスを使用してマッチング損失を計算します。どの予測ボックスが互換性があるかを決定します。 根本的な真実は 1 対 1 に対応し、残りは背景としてマークされます。次に、分類損失と境界ボックス損失を計算します。二部グラフマッチングが nms を置き換え、学習不可能なものを学習可能に変えます。
最初の 3 つのステップは推論中に同じですが、最後のステップの損失は必要ありません。しきい値を使用して出力の信頼性をチェックします (>0.7) 欠陥: 大きなオブジェクトに対する良好な予測結果、小さなオブジェクトに対する悪い予測結果、
DETRトレーニングは遅いですが、半年後、Deformable DETR がマルチスケールとマルチフィーチャーでそれを解決しました

インスピレーション: トレーニング設定を変更し、以前の方法と公平に比較​​することが不可能になりました。レビュー担当者に任せる方法を変更しました。

[1] セットベースの目的関数セットの予測損失
ここに画像の説明を挿入

最优二分图匹配使得cost最低的最优排列(匈牙利算法),如scipy库里的linear sum assignment函数

コスト マティクス = セット予測損失 = 分類損失 + すぐに使える精度
実際、一般的に、これは人々が過去に行っていたことと似ていますが、1 対 1 のマッチング関係を取得することに厳密に制限されています。
ここに画像の説明を挿入

[2] 特定のモデル アーキテクチャ リカレント ディテクタ
ここに画像の説明を挿入
は実際には上記のフローチャートと似ています。つまり、バックボーンで位置コードを連結し、トランス デコーダの入力にオブジェクト クエリを追加します。
ここに画像の説明を挿入

実験

ここに画像の説明を挿入
+ 記号は、新しいデータ拡張戦略を使用してトレーニングされたモデルです。AP は小さなオブジェクトであり、DETR は 2 ~ 5 ポイント大幅に低いのに対し、APm と APl ははるかに優れており、6 ポイントも高いです。

残りは、より視覚的な分析 (エンコーダーがオブジェクトを分離し、デコーダーが境界エッジとオクルージョンを処理する) とアブレーション実験であるため、公平な比較のために 1 つずつリストすることはしません。

PS:一个想法在数据集a不work,不代表在数据集b不work。{合适的切入点很重要}

DERT は物体検出の分野における画期的な論文であり、その名前の下にそれを改善するためのフォローアップ作業がかなり多く行われるでしょう (フォローアップの Deformable DETR も 2021 年に 2 番目に影響力のある ICLR を獲得し、1 番目に影響力のある ICLR を獲得する予定です)これは、将来の構造で試すことができます。

おすすめ

転載: blog.csdn.net/weixin_42455006/article/details/125299688