[論文の精読] 占有ネットワーク: 関数空間での 3D 再構成の学習

0.要約

ディープ ニューラル ネットワークの出現により、学習ベースの 3D 再構成手法が人気を集めています。ただし、画像とは異なり、3D には、高解像度のジオメトリで任意のトポロジを表現できる、計算効率とメモリ効率の高い標準表現がありません。したがって、多くの最先端の学習ベースの 3D 再構成手法は、非常に粗い 3D ジオメトリしか表現できないか、限られた領域に限定されています。この論文では、新しい学習ベースの 3D 再構成手法であるプレースホルダー ネットワークを提案します。プレースホルダー ネットワークは、ディープ ニューラル ネットワーク分類器の連続決定境界として 3D サーフェスを暗黙的に表します既存の方法とは異なり、私たちの表現は過剰なメモリ占有量を持たずに無限解像度の 3D 出力記述をエンコードします。私たちの表現が 3D 構造を効率的にエンコードでき、さまざまな入力から推測できることを検証します。私たちの実験は、単一画像、ノイズの多い点群、および粗い離散ボクセルグリッドからの 3D 再構成という困難なタスクにおいて、定性的および定量的の両方で競争力のある結果を示しています。私たちは、プレースホルダー ネットワークがさまざまな学習ベースの 3D タスクで役立つツールになると信じています。
ここに画像の説明を挿入

1. 基本的な考え方

ネットワークは次のように設計されています: 占有ネットワーク. ネットワークは学習によって関数 f に適合します. 実際、これは点を入力して回帰ネットワークを学習するのと同じであり、ネットワークは占有確率 [0,1] を出力します。
ここに画像の説明を挿入
入力: テンソル次元は (X,3)、
出力: テンソル次元 (X,1)。

2. 実装の詳細

2.1 ネットワーク構造

  • 占有ネットワーク (Onet): 完全接続レイヤー FCN+5 ResNet ブロック+ (バッチ正規化)
  • 異なる入力、異なるエンコーダー (なぜエンコーダーが必要なのでしょうか? まず入力データから特徴を抽出し、それらを潜在コードに変換してから、Onet を入力します)。
    • 3D 再構成: ResNet18 アーキテクチャ
    • 点群:PointNet エンコーダ
    • ボクセル化された入力: 3D 畳み込みニューラル ネットワーク
    • 無条件メッシュ生成: PointNet

トレーニング、損失関数

  • まずサンプリングポイント、サンプリング方法が結果に影響します。ユニフォームは最高です
  • 驚いたことに、最も単純なサンプリング戦略である均一が最も効果的であることがわかりました。これは、他のサンプリング戦略がモデルにバイアスをもたらすという事実によって説明されます。たとえば、メッシュの内側と外側の同数の点をサンプリングする場合、すべてのオブジェクトの体積が 0.5 であると暗黙的にモデルに伝えます。
  • さらに、サンプリング ポイントの数を 2048 から 64 に減らしても、依然として良好なパフォーマンスが得られることがわかりました。

ここに画像の説明を挿入

  • 損失関数
    ここに画像の説明を挿入
  • 確率的隠れ変数モデルの損失関数。z は隠れ変数です。
    ここに画像の説明を挿入

推論、メッシュの再構築

  • 1. まず初期解像度を決定し、Onet に格子点の座標を入力し、占有確率を取得します。
  • 2. しきい値 T を設定し、占有確率からこのしきい値 T を減算します (しきい値 T は抽出された表面の厚さを決定します?) グリッド点と少なくとも 2 つの隣接するグリッド点の占有確率の符号が異なる場合、グリッド点はサーフェスを通る線で結ばれます
  • 3. 引き続き各グリッドを分割し、新しく生成されたグリッド点を Onet に入力して占有確率を取得します。
  • 4. 解像度が事前設定値に達するまでステップ 3 を繰り返します。
  • 5. マーチングキューブアルゴリズムをサンプリングしてメッシュを抽出する
  • 6.微調整にはFast-Quadric-Mesh-Simplificationアルゴリズムを使用します
  • 7. 微調整に 1 次および 2 次の勾配情報を使用する
    ここに画像の説明を挿入

ここに画像の説明を挿入

3. 実験

3.1 表現力

各トレーニング サンプルを 512 次元の潜在空間に埋め込み、この埋め込みから 3D 形状を再構築するようにニューラル ネットワークをトレーニングします。

  • 詳細: まず入力を 512 次元の特徴空間にマッピングし、次に特徴空間から占有確率を出力して、3D 形状を再構成します。
  • データセット: ShapeNet 椅子
  • 結果:
    ここに画像の説明を挿入

3.2 単一画像の 3D 再構成

ImageNet データセットで事前トレーニングされた ResNet-18 画像エンコーダーを使用します

  • 詳細:
  • データセット:
    • シェイプネット
    • キティ
    • オンライン製品データセット
  • 結果
    ここに画像の説明を挿入
    ここに画像の説明を挿入

3.3 点群の完成

ノイズの多い点群中国からのメッシュ再構築
ここに画像の説明を挿入

3.4 ボクセル超解像度

ここに画像の説明を挿入

3.5 無条件メッシュ生成

ここに画像の説明を挿入

4. アブレーション実験

4.1 サンプリング戦略の効果

ここに画像の説明を挿入

4.2 ネットワーク構造の影響

CBN: 条件付きバッチ正規化
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_43693967/article/details/127428578