DETR~2

DETRトレーニングをよりスムーズにするためのDETRターゲット検出の事前トレーニング方法の包括的な見直し

この論文では、COCO 物体検出ベンチマークにおける継続的に強化された DETR アーキテクチャ上の DETReg に代表される自己教師あり事前トレーニング手法の改善の程度を研究します。COCO オブジェクト検出器を使用して、より正確な疑似ボックスを取得し、有益な疑似クラス ラベルを使用することを提案しました。>

論文リンク: https://arxiv.org/abs/2308.01300

COCO 検出およびセグメンテーション ベンチマークで DETR ベースの手法によって達成された新しい記録に動機付けられた最近の多くの取り組みでは、自己監視型の方法で Transformer を事前トレーニングし、バックボーン ネットワークを維持することで DETR 手法をさらに改善する方法への関心が高まっています。変更なし。いくつかの研究では、精度が大幅に向上したと主張しています。

この論文では、著者らは実験的アプローチをより詳細に研究し、その方法が最近の H-Deformable-DETR などの最先端のモデルでも機能するかどうかを確認します。著者らは、COCO オブジェクト検出タスクに関する包括的な実験を実施し、事前トレーニング データセットの選択、位置特定、および分類オブジェクト生成スキームの影響を研究しています。残念ながら、著者らは、DETReg などのこれまで代表的な自己教師あり手法では、データ範囲全体にわたって強力な DETR ベースの手法のパフォーマンスを向上させることができなかったことを発見しました。著者らはさらにその理由を分析し、より正確な境界ボックス予測子を Objects365 ベンチマークと組み合わせるだけで、その後の実験の結果が大幅に改善されることを発見しました。著者らは、COCO 検証セットで AP=59.3% という強力な物体検出結果を達成することで、この方法の有効性を実証しています。これは、H-Deformable-DETR + Swin-L を 1.4% 上回っています。

最後に、著者らは、最近の画像からテキストへの字幕モデル (LLaVA) とテキストから画像への生成モデル (SDXL) を組み合わせて、一連の合成事前トレーニング データセットを生成します。特に、これらの合成データセットでの事前トレーニングにより、物体検出パフォーマンスが大幅に向上します。今後、著者らは合成事前トレーニング データセットを拡張することで大きな利点が得られると予想しています。

最近、DETR ベースの手法により、オブジェクトの検出とセグメンテーションのタスクが大幅に進歩し、最先端の研究が促進されました。たとえば、DINO-DETR、H-Deformable-DETR、および Group-DETRv2 は、COCO ベンチマークでのターゲット検出パフォーマンスの最新の結果を更新しました。MaskDINO は DINO-DETR をさらに拡張し、COCO インスタンス セグメンテーションおよびパノラマ セグメンテーション タスクで最高の結果を実現します。ある程度、エンドツーエンドの Transformer アプローチが、Cascade Mask-RCNN や HTC++ などの従来の高度に調整された畳み込みベースの強力な検出器よりも優れたパフォーマンスを達成できるのはこれが初めてです。

これらの DETR ベースの手法は大きな成功を収めていますが、依然として Transformer をランダムに初期化することを選択しているため、オブジェクト レベルの対照学習による検出のための事前トレーニングの位置合わせなど、完全に事前トレーニングされた検出アーキテクチャの可能性を最大限に実現できません。ダウンストリーム アーキテクチャを備えたアーキテクチャが示されています。

図 1a と 1b は、ResNet50 バックボーン ネットワークに基づく標準の Deformable-DETR ネットワークにおけるパラメータと GFLOP の数の分布を示しています。著者は、Transformer エンコーダとデコーダが GFLOP の 65%、パラメータの 34% を占めていることがわかります。これは、DETR 内の Transformer 部分の事前トレーニング パスには改善の余地がたくさんあることを意味します。最近のいくつかの研究では、Transformer エンコーダとデコーダで自己教師ありの事前トレーニングを実行し、バックボーン ネットワークをフリーズすることで、DETR ベースの物体検出モデルを改善しました (図 2 のプロセスを参照)。たとえば、UP-DETR は画像内のランダムなパッチを検出するように Transformer を事前トレーニングし、DETReg はオブジェクトの位置と特徴を選択的検索スキームから生成された事前分布と照合するように Transformer を事前トレーニングします。また、最近では、Siamese DETR はさまざまな観点からの対応関係を使用します。ボックスから抽出されたクエリ特徴により、ターゲット ボックスが特定されます。

ただし、これらの方法では、基本 DETR モデル (AP=42.1%) または Deformable-DETR バリアント (AP=45.2%) が使用されます。最新のより強力な DETR モデル (H-Deformable-DETR、AP=49.6% など) で事前トレーニングされた場合、結果は予想よりも大幅に悪く、COCO では良好な物体検出パフォーマンスを達成できません。(DETReg を例にとると、図 1c では、すべての結果は SwAV で初期化された ResNet50 バックボーン ネットを使用して取得されています) この研究では、著者はまず、COCO ターゲット検出ベンチマークで DETReg に代表される自己教師あり事前トレーニング手法を注意深く研究しました。 . 強化され続ける DETR アーキテクチャの改善。著者の調査により、SwAV で事前トレーニングされたバックボーン ネットワーク、Deformable-DETR の変形可能テクノロジー、H-Deformable-DETR の固有のミックス マッチング スキームなどの強力な DETR ネットワークに適用した場合、DETReg の有効性には重大な制限があることが明らかになりました。性別 (図 1c を参照)。

著者らは、問題の核心は、教師なしの方法(選択的検索など)によって生成される信頼性の低い提案ボックスであると特定しています。その結果、ノイズの多い事前トレーニングターゲットが生成され、特徴の再構成を通じて弱い意味情報が導入され、問題がさらに悪化します。これらの欠点により、教師なし事前トレーニング手法は、すでに強力な DETR モデルに適用すると効果がなくなります。

この問題を解決するために、著者らは COCO オブジェクト検出器を使用してより正確な疑似ボックスを取得し、有益な疑似クラス ラベルを使用することを提案しています。著者らは広範なアブレーション実験を通じて、次の 3 つの重要な要素の影響を強調しています。

  1. 事前トレーニング データセットの選択 (ImageNet および Objects365)

  2. ローカリゼーション事前トレーニングターゲットの選択 (選択的検索提案と疑似ボックス予測)

  3. 分類事前学習対象の選択(オブジェクトの埋め込み損失と擬似カテゴリの予測)

これらの要因は、改善方法の有効性に重要な影響を与えます。著者らの結果は、事前トレーニングのターゲットとして擬似ボックスと擬似カテゴリの予測を使用する単純な自己トレーニング スキームが、さまざまな状況で DETReg メソッドよりも優れたパフォーマンスを発揮することを示しています。驚くべきことに、このシンプルな設計により、事前トレーニングされたベースラインのグラウンドトゥルース ラベルにアクセスしなくても、最先端の DETR ネットワークの事前トレーニング パフォーマンスが大幅に向上します。

たとえば、ResNet50 バックボーン ネットワークと Objects365 事前トレーニング データセットを使用した単純な自己トレーニングにより、H-Deformable-DETR 上の DETReg の COCO ターゲット検出結果が 3.6% 向上しました。さらに、著者らは Swin-L バックボーン ネットワークの優れたパフォーマンスも観察し、59.3% を達成しました。

方法

DETR事前トレーニングスキーム

従来の DETR は、一般的な画像の特徴を抽出するバックボーン ネットワークと、特定の特徴を検出してターゲットの場所とカテゴリを予測するトランスフォーマーの 2 つのネットワーク モジュール (図 2) で構成されています。Transformer はさらに、複数の線形ニューラル ネットワーク層から構築されたエンコーダー モジュールとデコーダー モジュールで構成されます。エンコーダはセルフアテンション メカニズムを適用してより良い画像特徴を抽出し、デコーダはエンコーダの特徴を照会し、タスクのターゲットとして必要な情報を予測します。

既存の自己教師あり手法では、事前トレーニング済みの Transformer コンポーネントに対して図 2 に示したものと同様の事前トレーニング スキームが採用されています。彼らは大規模な事前トレーニング ベースラインとして ImageNet を選択し、自己教師ありモデルを構築するための入力画像のみにアクセスします。慎重に設計された事前トレーニング タスクには、通常、教師なし擬似ボックスの提案を予測するためのローカリゼーション タスクと、Transformer の特徴識別能力を維持するための特徴再構成タスクが含まれます。

バックボーン ネットワークの一般的な特徴抽出機能が事前トレーニング タスクによって侵害されるのを防ぐために、プレーンな ImageNet 事前トレーニングまたはより強力な自己教師あり事前トレーニング (SwAV と呼ばれる) のいずれかを使用して初期化されたバックボーン ネットワークの重みをフリーズします。Transformer のエンコーダーとデコーダーは、事前トレーニング中にランダムに初期化および更新されます。微調整フェーズでは、バックボーン ネットワークは変更されていない ImageNet の事前トレーニングされた重みをロードし、トランスフォーマーは更新された重みをロードします。次に、物体検出データセットからの実際のラベルの監視下で、すべてのモデルの重みが一緒に調整されます。代表的な自己教師あり手法の 1 つは DETReg です。

DETReg は、教師なしの方法として選択的検索を使用して、ローカリゼーションのための事前トレーニングされたボックス提案を作成します。選択的検索では、オブジェクトの意味カテゴリが分からなくても、可能性のあるオブジェクトの周囲にボックスが生成されます。カテゴリ情報の欠如を補うために、固定 SwAVBackbone ネットワークを使用して、トリミングされた入力画像から抽出された再構成ボックスの特徴 (オブジェクト特徴とも呼ばれる) も学習します。このように、DETReg を使用すると、3 つの予測ヘッドを使用してボックスの位置、ターゲットがボックス内に存在するかどうかを示すバイナリ カテゴリ、および関連するターゲットの特徴を予測することで、検出器の位置と分類機能の両方を同時に事前トレーニングできます。 。

簡単なセルフトレーニング

この研究で、著者らは、特に DETR アーキテクチャの生の精度が高い場合、自己教師付き事前トレーニング手法では、下流のタスクにわずかな改善しかもたらすことができないことを発見しました。

たとえば、図 1c の DeformableDETR アーキテクチャでは、DETReg 事前トレーニング メソッドによりパフォーマンスが 0.3 向上しますが、より強力な H-Deformable-DETR アーキテクチャではパフォーマンスが 0.1 低下します。

著者は、この問題を軽減するだけでなく、最先端の DETR アーキテクチャで事前トレーニングされたモデルを改善する簡単な自己トレーニング スキームを提案します。

このアイデアは、ローカリゼーションの事前トレーニングにおける低品質の教師なし提案ボックスを、トレーニングされたオブジェクト検出器によって予測されるより正確な提案ボックスに置き換えることです。分類の事前トレーニングのための特徴の再構成はネットワークの識別能力の低下を防ぐのに役立ちますが、著者らはそれをトレーニングされた検出器によって予測された疑似クラスラベルに置き換えることで能力をさらに強化します。

この変更により、事前トレーニングに意味情報が導入されます。単純な自己トレーニングは自己教師あり手法ではありませんが、トレーニング前のデータセットの画像にのみアクセスしますが、トレーニングされた検出器によって導入される教師は下流のタスク データセットからのものであり、著者らはこれがすでに利用可能であると想定しています。

従来の自己トレーニング スキームとは異なり、従来のスキームは疑似ラベルの品質を向上させるために複雑なデータ拡張戦略の使用に依存しており、非最大抑制 (NMS) しきい値を慎重に調整し、細かい基準に基づいてより正確な疑似ラベルを繰り返し生成する必要があります。チューニングモデルのラベル。

これに対して、著者の手法は、これらの手法を使わずに、直接、一度に擬似ラベルを生成するもので、擬似ラベルには最も信頼性の高い予測結果が一定数だけ含まれるため、簡易自己学習と呼ばれています。

擬似ラベルを生成するために、著者らはまず COCO データセットで物体検出モデルをトレーニングし、次にそのモデルを使用して、ImageNet などの事前トレーニングされたベンチマーク データセットで擬似バウンディング ボックスと擬似クラス ラベルを予測します。次に、選択された DETR ベースのネットワークが、擬似ラベル付きベンチマーク データセットを使用して事前トレーニングされます。

この研究では、著者らは、代表的な自己教師あり手法 DETReg と著者の単純な自己トレーニング手法における 2 つの重要なコンポーネント (位置特定事前トレーニング ターゲットの選択と分類事前トレーニング ターゲットの選択) の影響を研究することを目的としています。 。さらに、カーブアウト研究では、著者らはトレーニング前のパフォーマンスに関するトレーニング前のベンチマーク選択の重要性を強調しました。

事前トレーニングのターゲットを特定する

UP-DETR のランダム ブロック、DETReg の選択的検索、Siamese DETR の EdgeBox など、いくつかの教師なしボックス提案アルゴリズムが自己教師あり事前トレーニング方法で使用されます。事前トレーニングされたオブジェクトの位置を特定することに関して、著者の議論は、DETReg によって使用される選択的検索ボックス (図 4a) と、単純な自己トレーニングで使用されるトレーニング済みオブジェクト検出器によって生成される擬似バウンディング ボックス予測 (図 4c) を中心に展開します。オプションの検索ボックス

ディープラーニングの分野では、選択的検索はディープラーニング時代以前は最も影響力のある領域提案生成方法の 1 つであり、再現率の点で優れた性能を発揮しました。選択的検索は、画像自体の階層的な性質にインスピレーションを得たもので、階層グループ化アルゴリズムをベースとして、FH アルゴリズムを使用して初期領域を生成し、貪欲アルゴリズムを使用して色、テクスチャ、テクスチャの類似性に基づいて反復処理を行います。サイズと形状: 領域を結合してより大きな領域にします。結果として得られる領域は、候補オブジェクトの提案のセットを形成します。各候補は、対象のオブジェクトを含む可能性のある画像内の領域に対応します。

DETReg メソッドと同様に、作成者は、選択的検索に基づくローカリゼーションの事前トレーニング ターゲットとして、最も信頼度の高い約 30 個の提案ボックスを保持します。

擬似バウンディングボックス予測

擬似バウンディング ボックス予測スキームの場合、著者らは、事前にトレーニングされたベンチマークの擬似バウンディング ボックスを予測するために、既製の十分にトレーニングされた COCO オブジェクト検出器をいくつか直接選択します。

具体的には、著者は H-Deformable-DETR と呼ばれる強力な DETR ベースのネットワークをオブジェクト検出器として選択し、ResNet50 と Swin-L を含む 2 つの異なるバックボーン ネットワークを選択しました。これら 2 つの検出器には、COCO データセット上で検出パフォーマンスに大きな違いがあります。これは、バックボーン ネットワーク機能とトレーニング時間が異なるためです。

  1. H-Deformable-DETR + ResNet50 を 12 エポックでトレーニング (AP=48.7%)

  2. H-Deformable-DETR + Swin-L トレイン (36 エポック) (AP=57.8%)

次に、事前トレーニングされたベースラインの推論によって、著者らは擬似バウンディング ボックスの予測を取得し、最も高い信頼度で約 30 個のバウンディング ボックスの予測を保持しました。

話し合う

表 1 は、事前トレーニングされたベンチマーク データセット Objects365 でのさまざまな提案ボックス メソッドの境界ボックスの品質を比較したもので、著者らはクラスに依存しない精度と再現率を報告しています。H-Deformable-DETR によって予測された擬似バウンディング ボックスは、教師なし選択検索法よりも正確であることがわかります。

品質の違いを理解するために、図 3 の Objects365 上の 2 つの検出器の真のバウンディング ボックス、選択的検索バウンディング ボックス、および疑似バウンディング ボックスの予測を視覚化しました。事前トレーニングされたオブジェクトの分類

著者らは、カテゴリカルな事前トレーニング済みターゲットを生成するための 2 つの方法について説明します。これには、特徴再構成方法 (DETReg のターゲット埋め込み損失によって表されます、図 4a) と、単純な自己トレーニングで使用される疑似クラス予測 (図 4c) が含まれます。

オブジェクトの埋め込み損失

各バウンディング ボックスを明示的なセマンティック カテゴリの意味に関連付けるために、DETReg は、デコーダに埋め込まれている各クエリにターゲット エンベディング ヘッダーを適用して、関連するバウンディング ボックス内のセマンティックな意味を含むターゲット エンベディングを返します。DETReg は、図 4a に示すように、SwAV で事前トレーニングされたバックボーン ネットワークを使用して、画像領域 (提案ボックスによってトリミングされた) をフィードすることにより、ターゲットの埋め込みを取得します。

次に、予測されたオブジェクトの埋め込みと対応するターゲットの埋め込みとの間の L1 損失をターゲットの埋め込み損失として計算します。DETReg では、ターゲット エンベディングの抽出に使用されるバックボーン ネットワークと DETReg に基づくメイン ネットワークのバックボーン ネットワークは固定されており、事前トレーニング中に Transformer エンコーダー、デコーダー、予測ヘッドのみが更新されます。

擬似カテゴリ予測

作成者は、前述の COCO オブジェクト検出器のカテゴリ予測を、より詳細で豊富な意味情報を含む各バウンディング ボックス オブジェクトに対応する分類ターゲットとして利用することもできます。ワオソフト アイオット http://143ai.com

検出器は COCO でトレーニングされているため、検出器が予測する疑似カテゴリ ラベルは COCO の 80 カテゴリです。事前トレーニングされたベースライン カテゴリのサブセットとして、効率的な事前トレーニング効果を達成するのに役立ちます。COCO 疑似カテゴリには下流ベンチマーク (COCO および PASCAL VOC) のカテゴリも含まれるため、トレーニング前タスクと下流タスクの間のギャップが狭まります。

各擬似クラス予測はオブジェクト検出器の擬似境界ボックスに割り当てられるため、作成者はそれを選択検索で使用してオブジェクトを見つけることはできません。図4は、残りの3つの測位および分類の事前トレーニングターゲットの研究結果を示しています。これらは、オリジナルのDETRegメソッド、COCO検出器の擬似バウンディングボックスによって強化されたDETRegメソッド、および単純な自己トレーニングメソッドです。

実験

さまざまな DETR 構造に関する最先端の研究結果 との比較

アブレーション実験

事前トレーニング データセットの選択事前トレーニング方法擬似ボックス番号エンコーダーおよびデコーダーの事前トレーニングデータセット サイズの微調整T2I 経由で生成された合成データの定性分析結果

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/132769063