3Dビジュアルグラウンディングのためのマルチモーダルシーングラフ


論文:《点群における物体接地のための自由形式記述ガイド付き3Dビジュアルグラフネットワーク》【ICCV'2021】
コード:https://github.com/PNXD/FFL-3DOG


導入

3DVG ミッションには次の 3 つの課題があります。

  • 主要な焦点を見つけます。つまり、複雑で多様なテキスト記述の主題 (ターゲット オブジェクト) を見つけます。
  • 点群シーンを理解する。
  • ターゲットオブジェクトを見つけます。

これらの問題を解決するために、この記事では次の 3 つのモジュールを設計します。

  • まず、複雑なテキスト記述から豊富な構造とフレーズの相関関係を取得する言語シーン グラフ モジュールが提案されています。
  • 第二に、提案間の関係が導入され、最初の提案の視覚的特徴が強化されます。
  • 最後に、テキスト説明ガイド付き 3D 視覚化グラフ モジュールが開発され、ノード マッチング戦略を通じてフレーズや提案のグローバル コンテキストをエンコードします。

グラフの概要は次のようになります。
ここに画像の説明を挿入します

端的に言えば、この記事では次の 3 つのことを行います。

  • まず、複合文記述を名詞句、代名詞、関係詞句の3種類の句に分割し、これらの句に基づいて言語場面グラフG l G^ lを構築する。Gl、ここでノードとエッジはそれぞれ名詞句 + 代名詞と関係句に対応します。
  • 第二に、 VoteNet から提供された提案に基づいて提案関係グラフG o G^oが構築されます。Go、言語シーン グラフG l G^lGlマッチングスコアを計算するϕ 1 \phi_1ϕ1、これを使ってG o G^oGoの提案は
  • 最後に、2 つのグラフがノード マッチングによって融合され、この記事で説明ガイド付き 3D ビジュアル グラフと呼ばれるものが得られます。G u G^uGu、3DVG タスクを実行します。

したがって、次のような重要な問題があります。

  • 言語場面図はどのように言語を解体し、構築するのでしょうか?
  • ビジュアルシーングラフ内の関係はどのように構造化されていますか? 距離で計算しますか?

方法

メソッドのフレームワーク図は次のとおりです。

ここに画像の説明を挿入します

1. 言語シーングラフモジュール

言語グラフの各ノードとエッジは、テキスト記述 L で言及されているオブジェクトと、L で言及されている他のオブジェクトとの関係に対応します。有向グラフです。

全て

Acho que você gosta

Origin blog.csdn.net/DUDUDUTU/article/details/130464925
Recomendado
Clasificación