CVPR 2022口頭|オブジェクト検出のための新しい仕事!NTUオープンソースAdaMixer:高速収束クエリベースのオブジェクト検出器...

著者:王李民|  許可を得て転載(出典:知乎)編集者:CVer

https://zhuanlan.zhihu.com/p/493049779

df0532f5568bfc79c6da4e3ca620e0e0.png

AdaMixer:高速収束クエリベースのオブジェクト検出器

コード:https://github.com/MCG-NJU/AdaMixer

紙(オープンソースのみ):

https://arxiv.org/abs/2203.16507

このホワイトペーパーでは、オブジェクト検出の新しい作業であるAdaMixerを紹介します。これは、検出器の適応モデリング機能を強化することにより、クエリベースの検出器(DETRのような検出器とスパースRCNN)の収束と最終的なパフォーマンスを加速し、モデルアーキテクチャを維持します。比較的単純な構造。3D特徴空間サンプリングや動的MLP-Mixer検出ヘッドなど、クエリベースの検出器のデコーダーデコード部分を強化する一連の手法を提案します。これにより、設計と計算が重いさまざまなアテンションエンコーダー(アテンションエンコーダー)を導入する必要がなくなります。または、効果を維持しながら(実際、以前の多くのモデルを上回りました)、ピラミッドスタイルのマルチスケール相互作用ネットワークを備え、クエリベースの検出器の構造をさらに簡素化します。

研究の動機

まず、研究の動機について簡単に紹介します。現在、クエリベースの検出器は学術研究のホットスポットになっています。クエリセット(一部の記事ではプロポーザルセットとも呼ばれます)と画像特徴マップの反復的な相互作用を通じて特徴を抽出し、クエリ自体のセマンティクスを常に改善します。 、マッチング損失の下で完了することができるように。オブジェクトへのクエリの1対1のclsおよびbbox予測。クエリベースの検出器は、後続のNMS操作を必要としないため、検出プロセス全体がよりシンプルで洗練されたものになります。ただし、クエリベースの検出器、特にDETRのような検出器は、通常、各ピクセルでグローバルまたはローカルの注意を密に実行する注意エンコーダの複数の層を導入することがわかりました。力の計算は大量の計算を導入し、簡単ではありません。高解像度のフィーチャマップに拡張すると、小さなオブジェクトの検出が困難になるという問題が発生し、トレーニング時間の問題が発生する可能性があります。Sparse R-CNNのジャンルでは、小さなオブジェクトのモデリングを強化するために明示的なFeature Pyramid Network FPNが導入されていますが、FeaturePyramidNetworkでは追加の計算が導入されています。バックボーンとデコーダーの間にネットワークを追加することは実際には少しエレガントではないと感じています。これは、検出にクエリを使用するという目標とは少し反対です。検出器が厚くて密度の高いエンコーダーを必要とする場合、モデルの輝点としてデコーダーを介してオブジェクトを検出するために少数のクエリを使用することは少し異なります。これらの問題の根本的な原因は、デコーダーが十分に強力ではなく、それを補うためにエンコーダーのモデリング能力が必要であるということです。したがって、私たちの方法の基本的な動機は、デコーダーの能力を強化することです。検出器は、さまざまなエンコーダーの導入を可能な限り回避できます。

しかし、デコーダーの機能、特にさまざまな画像やさまざまなターゲットの多様なモデリング機能を強化するにはどうすればよいでしょうか。この問題は、スパースクエリと限定クエリのみを使用するデコーダーにとって重要です。典型的なクエリデコーダー自体を振り返ると、トランスフォーマーデコーダーに基づく構造です。まず、クエリとクエリの間で自己注意が実行され、次にクエリが画像機能featと相互作用し、次に各クエリがFFNを通過します。 。これらの初期クエリは一般に学習可能なベクトルですが、推論中に固定され、さまざまな入力に対して変更することはできません(ただし、クラスRPNから初期クエリを生成する傾向があります)。したがって、クエリデコーダ自体を確実にする方法異なる画像に異なるオブジェクトを入力するためのデコードメカニズムが問題になります。この目的のために、このクエリベースのターゲット検出器を2つの側面から改善することを提案します。サンプリング位置の適応能力と、提案された3D特徴空間サンプリングと動的MLP-Mixer検出に対応する特徴のデコード能力です。

方法

読者が私たちの方法の文脈をすばやく理解できるように、AdaMixer検出器の2つの代表的な革新を簡単に紹介します。ここでは一部の詳細は無視されます。詳細については、元のテキストを確認できます。

アダプティブフィーチャのサンプリング場所

43ce200e52094368b9ec827870ff6019.png

現在の他の方法と同様に、クエリをコンテンツベクトルと位置ベクトルの2つのベクトルに分離します。ここで、クエリによって表されるフレームを位置ベクトルからデコードできます。各段階で、クエリデコーダーは2つのベクトルの絞り込みを更新します。位置ベクトルに使用するパラメーター化は、共通フレームのlrtb座標またはccwh座標ではなく、xyzr形式であることに注意してください。ここで、zはボックスサイズのログを表し、rはボックスアスペクトのログを表します。比率。、このパラメータ化された形式のxyzは、クエリをマルチレベルのフィーチャによって形成された3Dフィーチャ空間に直接接続できます。上の図に示すように、3D特徴空間のクエリ座標はxyzによって自然に決定されます。適応型3D特徴サンプリングは、最初に独自のコンテンツベクトルに従ってクエリによって複数のオフセットのセットを生成し、次に対応するコンテンツベクトルに対して補間サンプリングを実行します。対応する特徴を取得するための3D特徴空間内のポイント、3D特徴空間は、ターゲットオブジェクトの位置とスケールの変化を均一かつ適応的に学習する方法にとって有益です。このステップでは、マルチスケールの相互作用ネットワークは必要ないことに注意してください。

アダプティブサンプルコンテンツデコード

クエリの場合、上記の手順で収集された特徴形状は次のとおりです。ここで、はサンプリングポイントの数、はチャネルの数です。MLP-Mixerに触発されて、クエリごとの適応チャネルと空間混合操作(適応)を提案します。チャネルミキシング)、ACMおよび適応空間ミキシング、ASM)。具体的には、デコーダーはクエリに動的に依存する重みを使用して、収集された特徴を2つの次元(チャネルと空間)に沿って混合します。収集された特徴は異なるレベルの特徴マップから取得される可能性があるため、このような混合操作により、デコーダーの機能が自然に得られます。マルチスケールの相互作用をモデル化します。

333ec8037f874307580fe2046e5623ca.png

一般的な構造

35c9db5363a9023c0105f0c509881ea0.png

AdaMixerデコーダーの全体的な構造を上の図に示します。少し面倒に見えますが、コンテンツベクトルの操作の基本構造は、Transformerデコーダーの操作と同じです。位置ベクトルは単純に次のように見なすことができます。ステージでの座標変換と計算に参加し、ステージの最後で更新します。

全体的なAdaMixer検出器は、2つの主要部分のみで構成されています。1つはバックボーンネットワークであり、もう1つは提案されたAdaMixerデコーダーであり、追加のアテンションエンコーダーと明示的なマルチスケールモデリングネットワークを必要としません。

結果

0bdb4c8a5b46c8bd275bdee7cc5f4591.png

提出時の実験結果は非常に印象的でした.12エポックのトレーニング条件下で、パフォーマンスは他の検出器(従来​​の検出器とクエリベースの検出器を含む)を上回りました。ここで、Nはクエリの数であり、これは私たちの方法を証明しています。レートと最終効果。そして、私たちの12エポックは、8カードV100でも比較的高速で、わずか9時間です。

7f4057eaa873089ab73dbcaa80c755e0.png

また、他のクエリベースの検出器よりも優れており、追加のアテンションエンコーダやピラミッド機能ネットワークを必要としないテーブル内の唯一のモデルです。

2f364989b2ee0df21fb7d5847e387b8a.png

アブレーション実験

提案されたモジュールの有効性を検証するために、比較的豊富なアブレーション実験を行いました。ここでは、議論のためにいくつかの代表的なアブレーション実験を選択します。

60c94901cd805606134108355cfba378.png

表(a)は、私たちのアプローチの中核にある必要な適応の調査です。サンプリング位置(場所)とデコードコンテンツ(続き)の両方の適応は、最終モデルのパフォーマンスに大きな影響を与えます。

表(b)は、提案された適応ミキシングの調査です。動的チャネルミキシング(ACM)と動的空間ミキシング(ASM)の順次組み合わせが最良の選択です。

表(c)は、AdaMixerとさまざまなマルチスケールインタラクションネットワークの効果です。追加のピラミッドネットワークがない場合の効果がさらに優れていることに驚いています。これは、AdaMixerデコーダーに多くの機能があるためと思われます。スケールの相互作用と、より多くのパラメーターを持つ追加のピラミッドネットワークは、収束するためにより多くのトレーニング時間を必要とします。

292f03b706f6abf958ada4cb9fc05945.png

表8は、3D特徴空間のサンプリングについてさらに詳しく説明しています。表8の実験モデルにはFPNネットワークが装備されていないことに注意してください。この場合、RoIAlignのパフォーマンスが低下するのは当然です。アダプティブ2Dサンプリング(z方向のオフセットを学習しない)を使用したモデルは、3D特徴空間サンプリングよりも1.5 AP近く遅れており、特にz方向の3Dサンプリングでオフセットを学習する必要があることを示しています。さらに、もう1つの興味深い結論は、C4機能のみを使用する方がC5よりも優れているということです。これは、C4機能の解像度が高いことに起因している可能性があります。また、C4特徴のみを使用する場合、ResNetの後続の特徴抽出段階を直接切り離すことができ(FPNがなく、C5特徴マップが使用されないため)、このような検出器を軽量化できる方向を表す場合があります。私たちはまだ多くの研究をしていません。

要約する

比較的シンプルな構造、高速収束、優れた性能を備えた検出器であるAdaMixerを提案します。ターゲットオブジェクトに対するデコーダーの適応デコード能力を向上させることにより、AdaMixerはヘビーアテンションエンコーダーや明示的なマルチスケールインタラクティブネットワークを導入する必要がありません。AdaMixerが、後続のクエリベースの検出器のシンプルで効果的なベースラインモデルとして機能することを願っています。

この記事は学術的な共有のみを目的としています。侵害がある場合は、連絡して記事を削除してください。

乾物のダウンロードと調査

舞台裏の返信:バルセロナ自治大学のコースウェア、外国の大学が数年間蓄積した高品質の3DVisonコースウェアをダウンロードできます

背景の返信:コンピュータービジョンの本、 3Dビジョンの分野の古典的な本のPDFをダウンロードできます

舞台裏の返信:3Dビジョンコース、 3Dビジョンの分野で優れたコースを学ぶことができます

推奨される3Dビジュアル品質コース:

1.自動運転のためのマルチセンサーデータフュージョンテクノロジー

2.自動運転の分野での3D点群ターゲット検出のためのフルスタック学習ルート!(シングルモーダル+マルチモーダル/データ+コード)
3。視覚的な3D再構成を完全に理解する:主成分分析、コードの説明、最適化と改善
4.産業レベルの戦闘のための最初の国内点群処理コース
5.レーザービジョン-IMU-GPSフュージョンSLAMアルゴリズムの並べ替え
コード
の説明

9.構造化光3D再構成システムをゼロから構築する[理論+ソースコード+実践]

10.単眼深度推定法:アルゴリズムのソートとコードの実装

11.自動運転における深層学習モデルの実際の展開

12.カメラモデルとキャリブレーション(単眼+双眼+魚眼)

13.重い!クワッドコプター:アルゴリズムと実践

14. ROS2の開始から習得まで:理論と実践

重い!コンピュータビジョンワークショップ-ラーニングエクスチェンジグループが設立されました

コードをスキャンしてWeChatアシスタントを追加すると、3D Vision Workshop-Academic Paper Writing and Submission WeChat交換グループへの参加を申し込むことができます。このグループは、トップ会議、トップジャーナル、SCI、EIなどの執筆と提出の問題を交換することを目的としています。

同時に、サブディビジョン方向交換グループへの参加も申し込むことができます。現在、主にORB-SLAMシリーズのソースコード学習、3DビジョンCV&ディープラーニングSLAM3D再構築点群後処理自動運転、CV導入、3D測定、VR / AR、3D顔認識、医療画像、欠陥検出、歩行者再識別、ターゲットトラッキング、視覚的製品着陸、視覚的競争、ライセンスプレート認識、ハードウェア選択、深度推定、学術交流、求人検索交換およびその他のWeChatグループについては、次のWeChatアカウントとグループをスキャンしてください。備考:「研究の方向性+学校/会社+ニックネーム」。例:「3Dビジョン+上海嘉通大学+Jingjing」。フォーマットに従ってコメントしてください。そうでない場合、承認されません。追加が成功すると、研究の方向性に応じて、関連するWeChatグループが招待されます。元の提出物についてはお問い合わせください。

33b4da0a4b6216f8908fa44c05cb0d65.png

▲長押ししてWeChatグループを追加または投稿

454a5314abc5c0a095db84de23e245a4.png

▲公式アカウントをフォローするには長押し

エントリーから熟練した知識惑星までの3Dビジョン: 3Dビジョンの分野のビデオコース( 3D再構成シリーズ3Dポイントクラウドシリーズ構造化光シリーズハンドアイキャリブレーションカメラキャリブレーション、レーザー/ビジョンSLAM、自動運転など) 、知識ポイントの要約、エントリーと高度な学習ルート、最新の紙の共有、詳細な栽培のための質問応答、およびさまざまな大規模工場のアルゴリズムエンジニアからの技術ガイダンス。同時に、Planetは有名企業と協力して、3Dビジョン関連のアルゴリズム開発ジョブとプロジェクトドッキング情報をリリースし、テクノロジーと雇用を統合する熱狂的なファンのための集会エリアを作成します。4,000人近くのPlanetメンバーが共通の進歩を遂げ、より良いAIの世界を作成するための知識。惑星の入り口:

3Dビジョンのコアテクノロジーを学び、紹介をスキャンして表示し、3日以内に無条件の払い戻しを行います

2259fa1ff2d128b4e18a2583f6822f76.png

 サークルには高品質のチュートリアル資料があり、質問に答えて問題を効率的に解決するのに役立ちます

便利だと思いますので、いいねをして見てください〜

おすすめ

転載: blog.csdn.net/qq_29462849/article/details/124030625