ICCV 2023|PViC: インタラクティブな述語ビジュアルコンテキストを構築して HOI Transformer 検出パフォーマンスを効率的に向上

da458493de324238ad995c4518f2d1f0.png

記事のリンク:https://arxiv.org/abs/2308.06202
コード リポジトリ:https ://github.com/fredzzhang/pvic

今年の Computer Vision Summit では、Visual Transformer (ViT) に基づく取り組みが依然として非常に重要な位置を占めています。現在、研究者に最も好まれているのは、DETR フレームワークです。これは、もともとターゲット検出タスクに使用されていました。DETR では、クエリ ベクトルに基づいたターゲット測位関数が導入されており、他のより複雑な関数に簡単に変換できます。視覚システム。理解タスク。たとえば、この記事では、トップカンファレンスである ICCV 2023 で発表された研究成果を紹介します。研究チームはオーストラリア国立大学とマイクロソフト リサーチ アジアから来ており、DETR フレームワークに基づく述語ビジュアル コンテキスト手法 (述語ビジュアル コンテキスト (PViC)ヒューマン インタラクション検出タスク (HOI) を解決します

著者は、以前 HOI に使用されていた 2 段階の Transformer メソッドはトレーニング効率が高いものの、通常、HOI の分類を、きめの細かいコンテキスト情報が欠如しているオブジェクトの特徴に限定してしまうと考えています。 、画像内のターゲットの姿勢と方向の情報は無視されます。これは当然、複雑なアクションに対するモデルの認識パフォーマンスに影響を与えます。したがって、この記事では、視覚的なコンテキストとして画像内の述語動詞を調査し、改善されたクエリ ベクター設計と空間情報に基づく位置エンコーディングを通じて Transformer 内のクロスアテンションを再設計します、PViC メソッドは、低いトレーニング コストを維持しながら、複数の標準 HOI ベンチマークで SOTA パフォーマンスを達成できます。

01. はじめに

人間のインタラクション検出タスクでは、行動を起こしている人や物体の位置を特定して特定すると同時に、それらの間の関係を正確に特定する必要があります。 Transformer ベースの HOI 検出方法は、基本的に DETR によって導入されたエンコーダ/デコーダ スタイルに従います。このスタイルでは、学習可能なクエリ ベクトルがガウス ノイズでランダムに初期化され、人物、述語、および 3 つの部分に徐々にデコードされます。オブジェクト。タプル。現在最良の 2 段階検出器 UPT[1] は DETR に基づいて微調整されており、単一オブジェクトのトークンとペア (人物とオブジェクト) のトークンに対して自己注意計算を実行できます。以下(b)では、人物と自転車の特徴をそれぞれ可視化しています(今回の行動は自転車の掃除) 注目領域が人物の頭部と自転車検出枠の境界に集中していることがわかります. 特定の HOI 述語アクションを識別するために必要な主要な機能が欠けている領域。

1d9ff25405214fea9ab72cc8cdde7afd.png

上記の視覚的分析の後、この記事の著者は、DETR モデルを単に微調整するだけでは HOI 検出のニーズを満たすことができず、Transformer コーデックを調整する必要があると考えています。識別特徴を生成する a>, この論文は, 画像内の述語コンテキストを深く調査することによって効率的なHOI位置決めを達成する. 上図(d)は, この手法による特徴可視化効果を示す.人と自転車の接触点に大きく位置するエリアです。

18a7c241a9644c89a985125bfafc58c7.png

上の図に示すように、著者は複雑な HOI 述語の検出において、この記事の方法と UPT のスコアも比較しました。UPT が 4 つの述語状況 (フィーディング、タイピング、 著者は、人間の姿勢や姿勢など、述語の主語に関連するきめの細かい情報が主に不足していると考えています。オブジェクトの空間的位置< a i=2>。この目的を達成するために、この記事では、Transformer の内部動作メカニズムに基づいてクエリ キー値ベクトルと位置コーディングを再設計し、モデルの全体的な検出パフォーマンスを向上させる PViC 手法を提案します。

02. この記事の方法

以前の HOI Transformer では、通常、セルフ アテンションの計算には DETR の元のクエリ ベクトル構築方法に従います。つまり、ランダムな初期化にガウス ノイズを使用します。トレーニング 空間​​表現 (ボックスの中心位置、幅と高さなど) を学習するために、作成者は、以下の図 (a) に示すように、このタイプのクエリを暗黙的クエリ構築と呼びます。画像内の人物やオブジェクトの注目度をより明確に計算するために、この記事では、以下の図 (b) に示すように、スペースとコンテンツを挿入する表示クエリと呼ばれる構築方法を提案します。事前検証情報を使用して、その後の検出のパフォーマンスを向上させます

fd47b2df829649b0ba7f29a9426fea29.png

2.1 明示的なクエリの構築

d502c0c7f9364c209ed717145340eb92.png

2.2 HOI 検出をガイドするための位置コーディングの再設計

03. 実験結果

この記事の実験は、2 つの標準的な HOI 検出データセット HICO-DET と V-COCO で実施されました。前者は大規模です。 -scale データ セットには、80 のオブジェクト クラス、117 のアクション クラス、および 600 のインタラクション クラスを含む 37633 のトレーニング イメージと 9546 のテスト イメージが含まれています。後者は比較的小規模で、アクション クラスは 24 のみです。

著者は最初に PViC を他のベースライン手法と比較しました。人物および対応するターゲットのモデルの予測ボックスとグラウンドトゥルース ボックスの IoU 値が 0.5 より大きい場合、現在のテストは有効です。この方法のスケーラビリティを同時に証明するために、著者は 2 つのビジュアル バックボーン (ResNet50 と Swin-L) でのこの方法のパフォーマンスもリストしています。上の表からわかるように、この方法の効果は次のとおりです。 ResNet50 が超過しました UPT 方式は 2.5mAP であり、UPT はより多くのパラメータを持つ ResNet101 を使用します。 ビジュアル バックボーンと前方ターゲット検出フレームワーク (H-DETR+Swin-L) のパラメーターを増やすと、PViC はさらに大幅なパフォーマンス向上を達成しました。

a698127940dd4101a632ebe7d08b5e3f.png

その後、著者は PViC の HOI 検出効果を視覚的に表示し、フォークをなめるなど、データセット内のトレーニング サンプルが少ないいくつかのサンプルを選択しました (少数ショット設定と同様) (6 つのトレーニング サンプル、以下) a) キリンに乗って (トレーニング サンプル 2 つ、下の b)、パーキング メーターをチェックします (トレーニング サンプル 36 個、下の c)。 PViC は、セマンティクスを面倒に学習することなく、少量のデータでも画像内の人物、ターゲット、およびそれらの間のインタラクションを正確に検出できることがわかります。大量のデータからコンテキストを抽出します。

この記事で改善された各操作が全体的なパフォーマンスに及ぼす影響を深く研究するために、著者はアブレーション実験を実施しました。上の表に示すように、最初にオリジナルの Transformer がベースライン モデルとして使用されました (A )、次に、この記事で提案する表示クエリ構築方法 (B) を直接追加するなど、プログレッシブ構築を行います。表から、 キーおよびクエリ ベクトル計算にクロス アテンションとエンコーダを導入しただけでは、わずかな改善しか得られないことがわかります。これは、DETR 機能を直接使用してもターゲットと比較できることを示しています。この特徴は過学習を形成しており、HOI 検出には役に立ちません。これにより、この記事でクエリ ベクトルの構築と位置エンコーディングを再設計することの有効性と重要性が確認されました。

04. 概要

この論文では、著者は最初に DETR フレームワークに基づいて既存の 2 段階 HOI 検出器の視覚的特徴モデリング効果を分析し、それらの主な弱点は次のとおりであると結論付けています。コンテキスト情報は、もともと位置決めタスク用に特別に設計およびトレーニングされているため、現在の述語アクションに関連するコンテキスト情報が含まれます。したがって,本論文では,交差注意を通じて画像の特徴を人間とオブジェクトのペア表現に再導入するための改良された設計を提案する.この目的のために,この論文の著者は,注意計算におけるキーベクトルとクエリベクトルを提案する.構造は再設計され,境界ボックスの位置エンコーディングは、人間とオブジェクトのインタラクションにおける相互注意のより明確な計算を実現するための空間ガイドとして導入されています。以前の 2 段階の方法と比較して、この方法はアーキテクチャを大幅に簡素化し、他の冗長なカスタム ユニットを必要とせずに、Transformer の基本的なコンピューティング モジュールのみを保持します。 この方法では、HOI 検出の範囲に加えて、他の同様の高レベルのビジョン タスク向けに、新しいタイプのきめの細かいビジュアル コンテキスト モデリング方法も導入されています。

参考

[1] フレディアーク・Z・チャン、ディラン・キャンベル、スティーヴン・グールド。新しい単項ペアワイズ変換器を使用した、人間と物体の相互作用の効率的な 2 段階検出。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録、2022 年。


  TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

詳細>>世界的な中国の AI エリートが集まる学習と成長のコミュニティである TechBeat 

おすすめ

転載: blog.csdn.net/hanseywho/article/details/134286077