[AIGC] 12. DINO | DETR のような検出器の改善

ここに画像の説明を挿入

论文:DINO: エンドツーエンドの物体検出のための改善されたノイズ除去アンカー ボックスを備えた DETR

コード: https://github.com/IDEACVR/DINO

出典: 香港大学 | 清華大学

時間: 2022.07

ここに画像の説明を挿入

1. 背景

DINO:改善されたノイズ除去アンカーボックスを備えた Detr

DINO は、DETR 構造に基づくエンドツーエンドの物体検出器であり、ノイズ除去トレーニングに対照学習を使用することで、DETR のようなモデルのパフォーマンスと有効性を向上させます。

DINOの構造:

  • 背骨
  • マルチレイヤーTransformerエンコーダ
  • 多層トランスフォーマーデコーダ
  • 複数の予測ヘッド
  • DAB-DETR を参照して、著者はデコーダ内の動的アンカー ボックスとしてクエリを構築し、デコーダ層を通じて段階的にクエリを洗練しました。
  • DN-DETR を参照すると、著者は、モデルがトレーニング中により安定した双方向マッチングを達成できるように、Transformer デコーダー層のグラウンド トゥルース ラベルとボックスにノイズを追加しました。
  • 著者は計算効率を向上させるために変形可能な注意も使用しています

DINOが提案する3つの新たなアプローチ:

  • 対照的なノイズ除去トレーニング:

    1 対 1 マッチングの効果を向上させるために、gt に対応するすべての正と負のサンプルが加算されます。2 つの異なるノイズを gt ボックスに追加した後、ノイズの少ないボックスを正としてマークし、もう 1 つのボックスを正としてマークします。ネガティブとしてマークされたもの

    モデルが同じターゲットの複数の冗長な出力をフィルターで除外するのに役立ちます

  • 混合クエリの選択:

    クエリの初期化を改善する

  • 二度楽しみ:

    後のレイヤのリファインボックス情報を使用して、前のレイヤの最適化を支援するため

2.方法

ここに画像の説明を挿入

DINO: 改善されたノイズ除去アンカー ボックスを備えた DETR

DETR は 2 つの部分で構成されます。

  • 位置部分: 位置クエリとして
  • コンテンツ部分: コンテンツクエリとして

DINO のフレーム構造を図 2 に示します。入力画像が与えられた場合

  • まず、特徴抽出のバックボーンとして ResNet または Swin トランスフォーマーを使用します。
  • 次に、抽出された特徴を Transformer エンコーダーに入力し、特徴強化のための位置埋め込みを追加します。
  • 次に、新しい混合クエリ選択を使用して、アンカーをデコーダの位置クエリとして初期化します。コンテンツクエリが自ら学習できるように初期化しないでください。
  • 次に、変形可能なアテンション [41] を使用してエンコーダ出力機能を結合し、クエリをレイヤーごとに更新します。
  • 最後に、最終出力は洗練されたアンカー ボックスとクラスの結果です。
  • さらに、DN-DETRと同様に、DNブランチはDINOでもノイズ除去トレーニングに使用され、基本的なDN方法に加えて、ハードネガティブサンプルも考慮されます。

2.1 対照的なノイズ除去トレーニング

DN-DETR は、安定したトレーニングと加速された収束で優れたパフォーマンスを発揮し、GT ボックスに近いアンカーに基づいて予測を行うことができます。

ただし、DN-DETR は、近くに物体がないアンカーについて「物体なし」を予測する能力が不十分です。

そこでこの記事では、不要なアンカーを削除するための Contrastive DeNoising (CDN) を提案します。

DN-DETR にはハイパーパラメータλ \lambdaがあります騒音スケールを制御するためにλ を使用すると、生成される朝はλ \lambdaより大きくなりません。λ、DN-DETR は、適度にノイズの多いクエリで gt を再構築することをモデルに学習させる必要があるため

DINO では、2 つのハイパーパラメータλ 1 \lambda_1が提案されています。1λ 2 \lambda_22,またλ 1 < λ 2 \lambda_1 < \lambda_21<2図 3 に示すように、2 種類の CDN クエリを生成します。

  • 肯定的なクエリ: ノイズ スケールはλ 1 \lambda_1未満です。1、GTボックスを再構築するため
  • 否定的なクエリ: ノイズ スケールがλ 1 \lambda_1より大きい1λ 2 \lambda_2未満2、「オブジェクトなし」を予測する場合

図 3 に示すように、各 CDN グループには一連のポジティブ クエリとネガティブ クエリがあります。画像に n 個の GT ボックスがある場合、各 GT ボックスがポジティブ クエリとネガティブ クエリを生成するため、CDN グループには 2n 個のクエリがあります。

2.3 混合クエリの選択

図 5c に示すように、DINO は位置情報と選択された上位 K 特徴のみを使用してアンカー ボックスを初期化し、コンテンツ クエリを維持します。

ここに画像の説明を挿入

2.4 二度楽しみ

ここに画像の説明を挿入

3.効果

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/jiaoyangwm/article/details/130623838