記事ディレクトリ
論文:《点群における物体接地のための自由形式記述ガイド付き3Dビジュアルグラフネットワーク》【ICCV'2021】
コード:https://github.com/PNXD/FFL-3DOG
導入
3DVG ミッションには次の 3 つの課題があります。
- 主要な焦点を見つけます。つまり、複雑で多様なテキスト記述の主題 (ターゲット オブジェクト) を見つけます。
- 点群シーンを理解する。
- ターゲットオブジェクトを見つけます。
これらの問題を解決するために、この記事では次の 3 つのモジュールを設計します。
- まず、複雑なテキスト記述から豊富な構造とフレーズの相関関係を取得する言語シーン グラフ モジュールが提案されています。
- 第二に、提案間の関係が導入され、最初の提案の視覚的特徴が強化されます。
- 最後に、テキスト説明ガイド付き 3D 視覚化グラフ モジュールが開発され、ノード マッチング戦略を通じてフレーズや提案のグローバル コンテキストをエンコードします。
グラフの概要は次のようになります。
端的に言えば、この記事では次の 3 つのことを行います。
- まず、複合文記述を名詞句、代名詞、関係詞句の3種類の句に分割し、これらの句に基づいて言語場面グラフG l G^ lを構築する。Gl、ここでノードとエッジはそれぞれ名詞句 + 代名詞と関係句に対応します。
- 第二に、 VoteNet から提供された提案に基づいて提案関係グラフG o G^oが構築されます。Go、言語シーン グラフG l G^lGlマッチングスコアを計算するϕ 1 \phi_1ϕ1、これを使ってG o G^oGoの提案は
- 最後に、2 つのグラフがノード マッチングによって融合され、この記事で説明ガイド付き 3D ビジュアル グラフと呼ばれるものが得られます。G u G^uGu、3DVG タスクを実行します。
したがって、次のような重要な問題があります。
- 言語場面図はどのように言語を解体し、構築するのでしょうか?
- ビジュアルシーングラフ内の関係はどのように構造化されていますか? 距離で計算しますか?
方法
メソッドのフレームワーク図は次のとおりです。
1. 言語シーングラフモジュール
言語グラフの各ノードとエッジは、テキスト記述 L で言及されているオブジェクトと、L で言及されている他のオブジェクトとの関係に対応します。有向グラフです。
全て