これは、STTran に基づいて関連作業を実行する 2023 CVPR の記事です。
用紙のアドレス:
2304.00733.pdf (arxiv.org) https://arxiv.org/pdf/2304.00733.pdfコードアドレス:
GitHub - Sayaknag/unbiasedSGG https://github.com/sayaknag/unbiasedSGG
まとめ
シーン固有のダイナミクス、モデル予測の時間的変動、および視覚的関係のロングテール分布と、画像ベースの動的シーン グラフ生成 (SGG) の既存の課題により、動的シーン グラフを生成するタスク ( SGG) のビデオは非常に複雑で、複雑で挑戦的です。
既存の動的 SGG 手法は主に、上記の課題、特に関係のロングテール分布に対処せずに、複雑なアーキテクチャを使用して時空間コンテキストをキャプチャすることに重点を置いています。これにより、偏ったシーン グラフが生成されることがよくあります。これらの課題に対処するために、TEMPURA ( TE時間的一貫性とメモリプロトタイプ
が導く不偏動的 SGG のためのU nce Rtainty A tentuation): 時間的一貫性とメモリ プロトタイプが導く不偏動的SGG TEMPURA は、変換ベースのシーケンス モデリングを通じてオブジェクト レベルの時間的一貫性を実現し、メモリに基づくトレーニングを使用して不偏リレーショナル表現の合成方法を学習し、混合ガウス モデル (GMM) を使用して視覚的関係の予測の不確実性を軽減します。広範な実験により、私たちの方法が既存の方法と比較して大幅な (場合によっては最大 10%) パフォーマンスの向上を達成することが示され、より公平なシーン グラフを生成する際の利点が強調されています。
主な貢献
1) TEMPURA は、動的な SGG に関連する予測の不確実性をモデル化し、ノイズの多い注釈の影響を軽減し、より偏りのないシーン グラフをもたらします。
2) TEMPURA は、新しい記憶誘導トレーニング方法を利用して、頻繁に使用される述語クラスからまれな述語クラスに知識を拡散することで、より偏りのない述語表現を生成することを学習します。
3) TEMPURA は、Transformer ベースのシーケンス処理メカニズムを活用して、SGG 文献では比較的未解決のままである、より時間的に一貫したオブジェクト分類を促進します。
4) 既存の最先端の方法と比較して、TEMPURA は、mean-Recall@K で大幅なパフォーマンスの向上を達成し、より偏りのないシーン グラフを生成する際の利点を強調しています。
提案された質問
1. (a) Action Genome における述語クラスのロングテール分布。(b) 2 つの最先端の動的 SGG メソッドである STTran と TRACE の視覚的関係または述語分類のパフォーマンスは、末尾クラスで大幅に低下します。
2. Action Genome のノイズの多いシーン グラフの注釈により、予測されるシーン グラフの不確実性が増加します。
3. ビデオ内の動く物体によって引き起こされるオクルージョンとモーション ブラーにより、FasterRCNN などの既存の物体検出器が一貫した物体分類を行うことができなくなります。
概要
ビデオからより偏りのないシーン グラフを生成するには、図 1、2、および 3 で強調されている課題に対処する必要があります。この目的のために、我々は不偏動的 SGG の TEMPURA を提案します。図 4 に示すように、TEMPURA は、既存の動的 SGG モデルから取得できる PEG (Predicate Embedding Generator) と連携して動作します。トランスフォーマー ベースのモデルは時空間動的学習器として優れていることが証明されているため、通常のトランスフォーマー アーキテクチャの上に構築された時空間トランスフォーマーとして PEG をモデル化します。オブジェクト シーケンス処理ユニット (OSPU) は、オブジェクト分類の一貫性を長期にわたって維持します。メモリ拡散ユニット (MDU) ヘッドとガウス混合モデル (GMM) ヘッドは、ビデオ SGG データのロングテール バイアスと全体的なノイズの問題にそれぞれ対処します。次のセクションでは、これらのユニットと、TEMPURA のトレーニングとテストの詳細について詳しく説明します。
図4. TEMPURAのフレームワーク オブジェクト検出器は、ビデオ内の各 RGB フレームに対して初期オブジェクト提案を生成します。これらの提案は OSPU に渡され、そこでまず物体検出器の信頼スコアに基づいてシーケンスにリンクされます。これらのシーケンスは、Transformer エンコーダによって処理され、オブジェクト分類を改善するために時間的に一貫したオブジェクト埋め込みが生成されます。各サブジェクトとオブジェクトのペアの提案と意味情報は PEG に渡され、それらの間の関係の時空間表現が生成されます。時空間変換器として、PEG のエンコーダーは関係の空間的コンテキストを学習し、デコーダーはそれらの時間的依存関係を学習します。関係/述語クラスのロングテールの性質により、トレーニング中に MDU と組み合わせたメモリ バンクを使用して PEG のバイアスを除去し、より一般化された述語の埋め込みを生成できます。最後に、K 個の GMM ヘッドが PEG 埋め込みを分類し、特定の主語と目的語のペアの各述語クラスに関連する不確実性をモデル化します。
いくつかのモジュールの紹介
PEG は、以前の論文 STTran の時空トランスフォーマーに非常に似ているため、ここではあまり詳しく説明しません。
記憶に基づくトレーニング
SGG データセットのロングテール バイアスにより、直接 PEG 埋め込みはまれな述語クラスに偏るため、偏りを解消する必要があります。つまり、任意のリレーション エンベディングに対して、メモリ拡散ユニット (MDU) はまず述語クラス中心のメモリ バンク ΩR から関連情報を取得し、それを使用して特定のリレーション エンベディングを強化し、それによってよりバランスのとれたエンベディングを生成します。メモリ バンクは一連のメモリ プロトタイプで構成され、各プロトタイプは述語クラスの抽象化であり、対応する PEG 埋め込みの関数として計算されます。
論文では、プロトタイプは特定のカテゴリの重心として定義されています。
ここで、Nyrp は、述語カテゴリ yrp にマッピングされるトレーニング セット全体内の主語と目的語のペアの総数です。
プログレッシブメモリ計算。ΩR は漸進的に計算されます。つまり、モデルの最後の状態を使用して現在の状態のメモリが計算されます。つまり、エポック α のメモリは、エポック α-1 のモデルの重みを使用して計算されます。これにより、ΩRは時代を追うごとに洗練されていきます。最初のエポックでは使用可能なメモリがないため、MDU はこの状態では非アクティブのままになります。
MDU: 目的は、より合理的な関係を組み込むことです。
構造図に示されているように、特定のクエリに対して、MDU はアテンション演算子を使用して、メモリ拡散機能として ΩR から関連情報を取得します。
その中には。
各主語と目的語のペアには複数の述語がマッピングされているため、多くの視覚的関係は同様の特性を持ちます。これは、対応するメモリ プロトタイプ ωp が複数の述語埋め込みを共有することを意味します。したがって、式 10 のアテンション演算は、メモリ バンクを利用してデータの豊富なクラスからデータの少ないクラスに知識を転送するのに役立ちます。これにより、クラスは、クラス内で欠落しているデータの少ないクラスに関する補償情報を生成します。次の図に示すように、この情報を拡散させてバランスの取れた埋め込みを取得します。
MDU 構造図:
図 4 に示すように、MDU はネットワーク モジュールとしてではなく、メタ学習にインスピレーションを得た構造メタレギュラライザーとして転送されるため、トレーニング フェーズ中にのみ使用されます。ΩR は PEG エンベディングから直接計算されるため、MDU でのバックプロパゲーションにより計算されたメモリ プロトタイプが改良され、より良い情報拡散が可能になり、基本的に PEG によりバランスのとれたエンベディングを生成する方法を教えることができます。ここで、λ は勾配のスケーリング係数として機能します。初期の PEG 埋め込みはデータが豊富なクラスに大きく偏っているため、λ が高すぎると、メモリ拡散機能の補償効果が大幅に減少します。一方、λが低すぎる場合、データが豊富なクラスからデータが少ないクラスに移される知識が多すぎるため、前者のパフォーマンスが低下します。
GMM
興味があれば自分で検索してみてください。まだ詳しく見ていません。