Représentations de grille implicites locales pour les scènes 3D详解

Réduction

Motivation

Pour mieux comprendre le document, peut-être que la compréhension était erronée à l'époque, mais écrivez-le pour une compréhension approfondie ultérieure.

论文:Représentations de grille implicites locales pour les scènes 3D

But

Dans la scène, l'expression implicite de Grid peut être utilisée, de sorte que la scène entière puisse être exprimée et reconstruite. L'application est la suivante : l'entrée du nuage de points de la scène, et la scène avec maillage est sortie.
insérez la description de l'image ici

comprendre

Le principe de cet article est que dans toute la scène, sous la segmentation de grille de taille fixe, les surfaces 3D à l'intérieur peuvent avoir les mêmes détails géométriques. Par exemple : dans une grille d'une certaine taille, la géométrie de surface des pieds d'une table peut avoir des caractéristiques similaires à la géométrie de surface des pieds d'un tabouret. Cette propriété est très courante dans toute la scène, et ces représentations de surface similaires doivent être apprises. En apprenant cette similitude, ces surfaces peuvent être codées pour une reconstruction ultérieure de zone de grille fixe. Autrement dit, dans la zone de la grille, la zone 3D peut être déduite du nuage de points à l'intérieur.

Le concept principal du papier

Représentation de grille implicite locale

Afin de pouvoir compléter l'encodage de la scène, l'article fournit l'encodage de la zone locale, qui est également appelée représentation Local Implicit Grid. Son expression est la suivante, l'expression étanche est effectuée sur les objets dans le shapent, normalisé à [0,1], puis divisé en 256 256 256 blocs, puis génère sdf, puis encode ces zones de la taille d'une grille, à partir du global L'architecture du réseau peut être considérée comme les parties de l'objet, et son décodage à travers le sommet est également chaque partie, qui s'exprime comme suit : L'
architecture globale du réseau de la partie grille d'encodage
insérez la description de l'image ici
Dans l'article, la partie latente est obtenue par recadrage de l'objet shapenet, puis formation de l'encodage Part. Encodez la zone de la taille d'une grille de chaque objet dans les données shapenet. La répartition suivante peut être obtenue dans cette zone :
insérez la description de l'image ici
On voit que dans la zone de Taille de la grille, encode chaque surface, et cette fonction d'encodage rassemble des surfaces similaires. Cet encodage peut être étendu à l'encodage de chaque surface de la scène.
Entraînez la fonction de perte de la taille de la grille, comme suit :
insérez la description de l'image ici
∣ P ∣ |P|P représente le nombre de surfaces de la taille d'une grille d'une taille de lot dans shapenet,∣ B ∣ |B|| B | désigne le nombre de sommets échantillonnés sur ces surfaces. ré θ ré ré_{\theta_d}DjeReprésente le réseau de décodage (l'entrée est x et le vecteur d'encodage), où E θ e E_{\theta_e}EjeeIndique le vecteur d'encodage, pour la zone dont la taille de zone est Gird, c'est-à-dire ggg , dontgi g_igjeReprésente la ième zone de grille en entrée. À partir de cette fonction de perte, on peut voir qu'elle encode les informations de surface de la zone de taille de grille dans l'ensemble du shapenet.

De la cellule locale (grille) à l'ensemble

Pour une seule surface, les informations de chaque surface peuvent être encodées. Elles sont toutes dans le système de coordonnées local, mais il peut y avoir une distinction entre le système de coordonnées et l'échelle de la scène ou de l'objet, qui doit être transformé, et le la transformation du système de coordonnées de la petite surface de la cellule s'exprime comme suit :
insérez la description de l'image ici
ci c_icjeIndique le iiLe code de i cellules, oùxi x_iXjepour la secondeLes coordonnées du centre de i cellules,sss est la taille de l'échelle. On peut voir à partir de la formule que l'expression est : convertissez d'abord la cellule du système de coordonnées mondial au système de coordonnées local avec le point central de la cellule comme origine, entre normaliser et [-1,1].
Lorsqu'il est possible de représenter l'objet global, quelle est la discontinuité entre les cellules ? Dans le traitement du papier, les cellules se superposent généralement.Cette idée est très bonne, comme suit: pour
insérez la description de l'image ici
une telle cellule, pour encoder, on trouve qu'un point est dans le repère tridimensionnel, et il y a 8 cellules répétées adjacentes les unes aux autres.
insérez la description de l'image ici
Par conséquent, l'expression d'encodage doit passerwj w_jwjeEffectuez l'interpolation, de sorte que la formule est comme (3).Dans
l'optimisation de l'objet, vous pouvez voir que
insérez la description de l'image ici
lors de la formation de l'objet, après avoir divisé l'objet en cellules, les jugements intérieur et extérieur sont effectués sur le nuage de points échantillonné. Ceci constitue une fonction de perte. Les critères pour juger de l'intérieur et de l'extérieur de la cellule sont les suivants :
insérez la description de l'image ici
Dans chaque cellule, nous l'optimisons grâce au nuage de points.
Ce qui précède consiste à coder l'objet entier en blocs. Cela exprime que l'intérieur et l'extérieur sont la surface du nuage de points. Par exemple, le vecteur négatif est négatif et le vecteur normal est positif. C'est le code latent de la zone locale raffinée. Comme suit :
insérez la description de l'image ici
Ceci peut être appliqué à des scénarios réels.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_43851636/article/details/114986041
conseillé
Classement