「リアルタイム物体検出で DETR が YOLO に勝つ」により、DETR からリアルタイム SOTA への移行が加速されます

ここに画像の説明を挿入
最近、Baidu によって書かれたかなり優れた DETR 論文を目にしました。この論文は、DINO のエンコーダ層を簡素化することでモデルをリアルタイム レベルまで加速し、記録のために翻訳しました。
論文のアドレス: https://arxiv.org/pdf/2304.08069.pdf
オープンソースのアドレス: https://github.com/PaddlePaddle/PaddleDetection
ここに画像の説明を挿入

モデル構造

ここに画像の説明を挿入
RT-Detr ネットワークは、最初にバックボーン ネットワークの最後の 3 つのステージ {S3、S4、S5} の機能をエンコーダーの入力として利用します。エンコーダーは、スケール内特徴相互作用 (AIFI、本文によると実際にはトランスフォーマー層です) およびクロススケール特徴融合モジュール (CCFM) を通じて、マルチスケール特徴を画像特徴シーケンスに変換します。IoU 対応クエリ選択は、デコーダの初期オブジェクト クエリとして使用される固定数の画像特徴を選択するために使用されます。最後に、補助予測ヘッドを備えたデコーダー (DINO のデコーダーと同じ) がオブジェクト クエリを繰り返し改良して、ボックスと信頼スコアを生成します。
ここに画像の説明を挿入

主な革新

1. DINO エンコーダーを簡素化する

この記事では、DINO の速度が遅い主な理由は、DINO のマルチスケール機能融合に変形可能な attn を使用する 6 層のエンコーダ層であると考えています。エンコーダは、DINO モデルの FLOPS の 49% を占有しますが、提供できるのは 11 のみです% AP の向上。このハードルを克服するために、この論文では、マルチスケールの変形可能な ATTN エンコーダに存在する計算の冗長性を分析し、スケール内およびスケール間の機能の同時相互作用が計算的に非効率であることを実証するための一連のバリアントを設計します。
この記事では、次の図に示すように、元のエンコーダを置き換える 5 つのエンコーダ構造を提案します。
ここに画像の説明を挿入
ベースラインとしてエンコーダなしの A、さまざまなスケール フィーチャの attn を備えた B、マルチスケールの変形可能な attn を備えた C、およびさまざまなスケール フィーチャの C D に基づいたマルチスケール機能のスケール内相互作用とスケール間融合がさらに最適化され、この論文で設計された E 効率的なハイブリッド エンコーダが実現されます。が採用されております。5 つのエンコーダ構造の COCO MAP は次のとおりです。
ここに画像の説明を挿入
スケール内機能とスケール間機能をそれぞれ実行する D と E が、mAP と遅延でより良い結果を達成していることがわかります。E は、D に基づいて計算の冗長性をさらに削減し、S5 フィーチャに対してスケール内インタラクションのみを実行します。この論文では、より豊かな意味概念を持つ高レベルの特徴にセルフ アテンション オペレーションを適用すると、画像内の概念的エンティティ間のつながりを捉えることができ、後続のモジュールによる画像内のオブジェクトの検出と認識が容易になると主張しています。同時に、セマンティック概念の欠如や高度な機能との相互作用による重複や混乱のリスクを回避します。
この論文で提案する効率的なエンコーダは次のように表すことができます:
Q = K = V = Flatten ( S 5 ) Q=K=V=Flatten(S_{5})Q=K=V=フラットテン( S _ _ _5) F 5 = Reshape ( A ttn ( Q , K , V ) ) F_5=Reshape(Attn(Q,K,V))F5=Reshape ( A tt n ( Q , _ _ _ _K V ))出力 = CCFM ( F 5 , S 4 , S 3 ) 出力 = CCFM(F_5,S_4,S_3)出力_ _ _ _=CCFM ( F5S4S3)

2. IoU を意識したクエリの選択

DETR のオブジェクト クエリは、デコーダによって最適化され、予測ヘッドによって分類スコアと境界ボックスにマッピングされる学習可能な埋め込みベクトルのセットです。DINO のオブジェクト クエリは、分類スコアを使用してエンコーダから上位 K 個の特徴を選択し、オブジェクト クエリを初期化します。ただし、分類スコアと位置信頼度の分布に一貫性がないため、一部の予測ボックスは高い分類スコアを持っていますが、GT ボックスには近くないため、高い分類スコアと低い IoU スコアを持つボックスが選択される一方で、低い分類スコアを持つボックスが選択されます。高い IoU スコアが選択され、ボックスは破棄されます。これにより、検出器の性能が損なわれます。この問題に対処するために、このペーパーでは、トレーニング中に IoU スコアが高い特徴に対しては高い分類スコアを生成し、IoU スコアが低い特徴に対しては低い分類スコアを生成するようにモデルを制約することで、IoU を認識したクエリ選択を提案します。したがって、分類スコアに従ってモデルによって選択された上位 K 個のエンコーダー特徴に対応する予測ボックスは、高い分類スコアと高い IoU スコアを持ちます。この論文では、DETR のバイナリ マッチングは次のように再定式化されます。
L ( y ^ , y ) = L bbox ( b ^ , b ) + L cls ( c ^ , c , I o U ) L(\hat y,y )=L_{ bbox}(\hat b,b) + L_{cls}(\hat c,c,IoU)L (y^y )=Lbbox _ _(b^b )+Lクラス_ _(c^c I o U ) は
ここに画像の説明を挿入
、IoU を意識したクエリ選択により COCO MAP で大幅に改善されました。

結果

この論文で提案する RT-detr の学習とテストは (640, 640) で実行され、72 エポックが学習されますが、一見したところ、DINO (1333, 800 入力) との比較はあまり公平ではありません。同時に、この簡易エンコーダーをマスクDINOに適用した場合、これほど驚くべき効果が得られるかどうかはわかりません。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/blanokvaffy/article/details/130230385