3D シーンのローカル暗黙的グリッド表現详解

マークダウン

モチベーション

論文をよりよく理解するために、その時点では理解が間違っていたかもしれませんが、その後の深い理解のためにそれを書き留めます。

论文:3D シーンのローカル暗黙的グリッド表現

目的

シーンでは、Grid の暗黙的な表現が使用できるため、シーン全体を表現および再構成できます。アプリケーションは次のようになります。シーンの点群を入力し、メッシュのあるシーンを出力します。
ここに画像の説明を挿入

理解

この論文の原理は、シーン全体において、固定サイズのグリッド セグメンテーションの下で、その内部の 3D サーフェスが同じ幾何学的詳細を持つ可能性があるということです。たとえば、特定のサイズのグリッドでは、テーブルの足の表面ジオメトリは、スツールの足の表面ジオメトリと同様の特性を持つ可能性があります。このプロパティはシーン全体で非常に一般的であり、これらの同様のサーフェス表現を学習する必要があります。この類似性を学習することで、これらの表面をエンコードして、その後の固定グリッド領域の再構成を行うことができます。つまり、グリッドの領域では、内部の点群から 3D 領域を推測できます。

論文の主なコンセプト

ローカルの暗黙的なグリッド表現

シーンのエンコードを完了できるようにするために、この論文では、ローカル暗黙的グリッド表現とも呼ばれるローカル領域のエンコードを提供します。その表現は次のとおりです。シェイプント内のオブジェクトに対してウォータータイト表現が実行され、[0,1] に正規化され、256 256 256 ブロックに分割され、sdf が生成され、これらのグリッド サイズの領域がエンコードされます。全体的なネットワーク アーキテクチャはオブジェクトのパーツとして見ることができ、頂点を介したそのデコードも各パーツであり、次のように表現されます。 エンコード グリッド パーツの全体的なネットワーク アーキテクチャ 論文では、パーツ 潜在は次のように取得され
ます
ここに画像の説明を挿入
。シェイプネット オブジェクトをトリミングしてから、パーツ エンコードをトレーニングします。シェイプネット データ内の各オブジェクトのグリッド サイズの領域をエンコードします。この領域では以下のような分布が得られます。
ここに画像の説明を挿入
Grid sizeの領域では各面領域をエンコードしており、このエンコード関数が似た面を集めていることがわかります。このエンコードは、シーン内の各サーフェスのエンコードに拡張できます。
次のように、グリッド サイズの損失関数を学習させます。
ここに画像の説明を挿入
ここで、∣ P ∣ |P|P ∣ は、シェイプネット内のバッチサイズのグリッド サイズのサーフェスの数を表します。∣ B ∣ |B|| B | は、これらのサーフェス上でサンプリングされた頂点の数を示します。ここでD θ d D_{\theta_d}Ddデコード ネットワーク (入力は x、エンコードのベクトル) を表します。ここで、E θ e E_{\theta_e}E領域サイズがGird、つまりggの領域のエンコードのベクトルを示します。g,其中 g i g_i g私はi 番目のグリッド領域を入力として表します。この損失関数から、シェイプネット全体のグリッド サイズ領域の表面情報をエンコードしていることがわかります。

ローカルセル(グリッド)から全体へ

単一の面の場合、各面の情報をエンコードできます。これらはすべてローカル座標系にありますが、変換する必要があるシーンやオブジェクトの座標系とスケールとの間には区別がある場合があります。セルの小領域の座標系変換は次のように表されます。
ここに画像の説明を挿入
ここで、ci c_ic私はiiを示しますi個のセルxi x_i)バツ私は为第 i i iセルの中心座標、sss はスケールのサイズです。式から、式が次のようになっていることがわかります。まず、正規化と [-1,1] の間で、セルの中心点を原点としてセルをワールド座標系からローカル座標系に変換します。
オブジェクト全体を表現できる場合、セル間の不連続性は何でしょうか? 論文の処理では、通常、セルは互いに重なり合いますが、このアイデアは非常に優れており、次のようになります:
ここに画像の説明を挿入
このようなセルに対して、エンコードの場合、点は 3 次元座標系にあり、点は 8 つあることがわかります。互いに隣接する繰り返しセル。
ここに画像の説明を挿入
したがって、エンコード式はwj w_jwj補間を行うと式は(3)のようになりますオブジェクトの最適化では、オブジェクトを学習させる際にオブジェクトをセルに分割した後、サンプリングした点群に対して内外の判定を行っていることがわかります

ここに画像の説明を挿入
これは損失関数を構成します。セルの内側と外側の判断基準は次のとおりです。
ここに画像の説明を挿入
各セルでは、点群を通じて最適化されます。
上記は物体全体をブロックに符号化するもので、内部と外部が点群の面であることを表現しており、例えば負のベクトルは負、法線ベクトルは正となる。リファインローカルエリアの潜在コードです。以下のように:
ここに画像の説明を挿入
これは実際のシナリオに適用できます。

おすすめ

転載: blog.csdn.net/weixin_43851636/article/details/114986041