[論文の精読] CVRecon: Re Thinking 3D Geometric Feature Learning For Neural Reconstruction

今日私が読んだのは、ICCV2023 に掲載された、神経再構成を支援するために mvs 法を使用しようとしている記事です。

プロジェクトのアドレス:クリックして移動
記事のアドレス:クリックして移動

抽象的な

奥行き情報が欠如しているため、既存のボリュームベースの技術では、カメラ光線全体に沿って物体表面の 2D 画像の特徴を単純に複製します。この繰り返しにより、何もない空間と囲まれた空間の両方にノイズが発生し、高品質の 3D ジオメトリを生成することが困難になると私たちは主張します。従来の MVS からインスピレーションを得て、エンドツーエンドの 3D ニューラル再構成フレームワーク CVRecon を提案します。これは、コスト ボリューム内の豊富な幾何学的埋め込みを活用して 3D 幾何学的特徴の学習を促進することを目的としています。さらに、ビュー関連情報をエンコードし、完全性と堅牢性を向上させる新しい 3D 幾何学的特徴表現である Ray Context Compensated Cost Volume (RCCV) を提案します。包括的な実験を通じて、私たちの方法がさまざまな指標での再構成の品質を大幅に向上させ、3D ジオメトリの鮮明な詳細を復元することを実証します。当社の広範なアブレーション研究により、効果的な 3D 幾何学的特徴学習スキームの開発に関する洞察が得られます。

1 はじめに

主な貢献は次のとおりです。

  • 私たちは、神経再構築の分野における既存の特徴学習スキームの基本的な限界を特定し、それに応じて、マルチビュー コスト ボリュームを直接 3D 幾何学的特徴表現として活用することを提案します。
  • 私たちは、広く使用されている標準コスト ボリュームにはカメラの光線に沿った分布に関する参照情報が欠けていることに気づき、この問題に対処するための光線補償メカニズムを提案します。
  • 非オーバーラップ領域および低テクスチャ領域におけるコスト ボリュームの堅牢性を向上させるために、新しいコンテキスト修復モジュールを提案します。
  • 私たちの広範な実験は、私たちが提案した RCCV の有効性と、下流の融合および予測モデルに対するその不可知性を実証しています。

2 関連作品

容積ベースの 3D 再構成、深度ベースの 3D 再構成、および深度推定におけるコストボリュームが導入されました。

3 方法論

ここに画像の説明を挿入

3.1 手法の概要

全体的な構造は上の図に示されており、各キー フレームのキー フレームには一連の参照フレーム参照フレームがあります (mvs の参照イメージとソース イメージの違いに注意してください。実際にはこれら 2 つです)。まず標準コスト ボリュームを確立し、次に提案された光補償およびコンテキスト修復モジュールを使用してコスト ボディを強化し、生成された RCCV がグリッド サンプリングを通じてグローバル フィーチャ ボリュームに統合されます。その後、3D CNN を使用してボリューム表現から TSDF ボリュームに変換します。

これを行うことにはいくつかの利点があります。

  • 入力画像の3次元幾何特徴表現としてRCCVを直接作成するため、既存の逆投影機構と比較してノイズの混入を回避し、再構成品質を向上させることができます。
  • 中間表現として 2D 深度マップを使用することは避けます。これには一貫性の問題があり、誤って推定された場合にはオブジェクトの表面に関する情報が失われます。エンドツーエンドのフレームワークを使用して、正確な再構成のためにすべての幾何学的情報を保存します。
  • 標準コスト ボリュームにはグローバルな情報が不足しており、コスト分布は正規化されておらず、多峰性であり、単一のコスト値からジオメトリを予測するには参照として光の分布が必要であることがわかります。
  • 図 3 に示すように、非オーバーラップ領域および非テクスチャ領域のコスト ボリュームには、あまり有用な情報が含まれません。したがって、コストボリュームの完全性と堅牢性を向上させるために、光補償とコンテキスト復元を提案します。
    ここに画像の説明を挿入
    ここに画像の説明を挿入

3.2 レイコンテキストの補償コスト量

まず、標準原価額のやり方を紹介しましたが、別の言い方で表現しました。
次に、カメラ光線補正が導入されます。キーフレームごとに標準コスト ボリュームを作成します。深度マップに基づく方法では、このボリュームを 2D に変換し、各ピクセルの深度を推定します。これを直接 3D 特徴として表現しますが、カメラ全体の配光が存在しない場合、3D 位置[ d , h , w ] [d, h , w][ d w ]単一の機能RCR^{C}RC は、そのジオメトリをデコードできるほど強力ではありません。この目的のために、この補償モジュールを提案し、特徴を構築し、標準コストボリュームに連結します。
ここに画像の説明を挿入
最後に、コンテキスト インペインティングを紹介しました。実際には単純な畳み込みであり、
融合に関しては各画像キーフレームのRCCVを取得した後、トリリニア補間グリッドサンプリングにより大域特徴量を生成する。私たちが提案する RCCV 特徴のダウンストリーム操作の性質を考慮すると、それがさまざまなフレーム間特徴融合技術とシームレスに統合できることがわかります。
TSDF に関しては、幾何学的予測に 3D 密または疎畳み込みモジュールを採用しています。粗および中レベルの予測はグリッドを占有し、フィーチャ グリッドをまばらにしますが、詳細レベルでは、TSDF ボリュームが直接予測されます。
損失に関しては、NeuralRecon に従って、バイナリ クロス エントロピー (BCE) 損失関数を粗および中レベルの占有予測に適用し、L1 損失関数を詳細レベルの TSDF 予測に適用します。TSDF 真値の分解能は 4 cm です。Atlas に従って、TSDF ボリュームのグラウンド トゥルース内のすべての未観察の列を空としてマークします。

3.3 実装の詳細

実験の詳細を示します。

4 実験

ScanNet2 で実験したところ、効果はかなり良好であることがわかりました。

5。結論

貢献を要約します。

おすすめ

転載: blog.csdn.net/YuhsiHu/article/details/131924039