princípio algoritmo de reconstrução 3D

A reconstrução tridimensional tecnologia (3D Reconstrução) tem sido um tema quente em computação gráfica e visão computacional. técnicas de reconstrução cedo 3D tipicamente uma imagem bidimensional como entrada, modelo tridimensional reconstruída cena. No entanto, limitado pelos dados de entrada, reconstruído modelo tridimensional é geralmente incompleta e menos realista. Com o surgimento de uma variedade de câmera profundidade orientada para o consumidor (câmera de profundidade), a câmera profundidade baseada digitalização 3D e reconstrução tem sido rápido desenvolvimento. Baixo para Kinect da Microsoft, Asus Xtion e RealSense Intel como o representante do custo da câmera profundidade, volume apropriado, fácil de operar e fácil de pesquisadores e engenheiros de desenvolvimento. tecnologia reconstrução tridimensional é Realidade Aumentada (Realidade Aumentada, referido como AR) fundação tecnologia, através de reconstrução modelo tridimensional após a digitalização pode ser aplicada directamente ao local do AR ou VR. Este artigo descreve brevemente o princípio básico e sua aplicação com base na reconstrução tridimensional da câmera profundidade.

fundo

modelo geométrico 3D da crescente demanda: ambientes virtuais de jogos The Movie e outras indústrias
VR & AR quente
demanda por imóveis em áreas como mapa tridimensional
protecção chinês antigo edifício tridimensional digitais
cidade digital tridimensional
mapa tridimensional
jogos VR && AR, filmes, etc.
indústria médica: coração tridimensional
O sector da educação e outros

aplicação

métodos Introdução

Convencional reconstrução tridimensional se baseiam principalmente na cara do dispositivo de varrimento tridimensional e o alvo a ser digitalizado permanece estável ao longo do tempo. Nos últimos anos, o desenvolvimento de grande escala capacidades de hardware de computador, especialmente a GPU e o desenvolvimento da computação distribuída, em tempo real e soluções eficientes quanto possível de computação. O método mainstream atual é essencialmente dividida nas seguintes categorias:

Com base na reconstrução tridimensional da câmera profundidade
Baseado em três dimensões de reconstrução de imagem

Princípio principalmente nos seguintes três maneiras: estruturados luz, esta tecnologia é representante da geração de produtos Kinect, seu chip sensor é o lar PrimeSense usado. PrimeSense está agora a companhia de Apple.

TOF, time-of-flight, em nome da segunda geração de produtos Kinect é devido a uma palavra de amor, da Microsoft, seu nome oficial é Kinect One.
câmera binocular, em nome do produto é o Google Tango e Leap Motion, o primeiro é equipado com quatro câmeras, os dois últimos

algoritmo de reconstrução tridimensional é amplamente utilizado em telefones celulares e outros dispositivos móveis, um algoritmo comum SfM, ReMode SVO e assim por diante.

2.2 binocular / visão monocular e mais

Dois imagem correção da visão binocular usando o principal em torno da câmera para obter uma correspondência é encontrada em torno do ponto da imagem, e em seguida, restaurar o ambiente de informação tridimensional baseada em princípios geométricos. No entanto, este método é sobre a dificuldade de combinar imagens da câmara, combinando resultados imprecisos afetará o algoritmo de imagem final. câmeras de visão monocular multi usar três ou mais para melhorar as deficiências de precisão correspondência Claramente, mais demorado, mais diferença em tempo real.

Ambos os métodos podem ser teoricamente mais precisa de recuperação informação de profundidade, mas na verdade afetada pelas condições de disparo, a precisão, muitas vezes não é garantida. Comuns são SGM e SGBM algoritmo, que define automaticamente Kitti dados de condução, os 50 principais algoritmos quase metade de todas as melhorias para o SGM.
3 com base no RGB-D câmara consumidor
câmara pode basear-se em princípios activos, passivas diferentes, baseados em algoritmos a vantagem de que estes dispositivos têm mais utilidade.
Nos últimos anos, há muitos estudos de reconstrução tridimensional baseado diretamente no nível do consumidor câmera RGB-D, como o Kinect V1 da Microsoft, V2 produtos, e com bons resultados. O mais antigo, do Imperial College de Newcombe et al propôs em 2011 Kinect Fusão abriu um prelúdio para o tempo real reconstrução tridimensional da câmera RGB. Desde então, têm fusão dinâmica e Bundle Fusão algoritmos.
Estes métodos têm as suas próprias vantagens e desvantagens, também têm respectiva gama aplicável de aplicações. A descrição acima é o campo de entrada desejado de reconstrução tridimensional baseada na aprendizagem profunda aos alunos uma introdução breve destes métodos, tais como a necessidade de entender, leia a literatura relevante, SfM e multi-visualizar clássicos geométricas, como tridimensional algoritmo de reconstrução campo fundação cuidadosamente introdutório nunca mais obsoleta.

algoritmo de reconstrução tridimensional com base na profundidade de aprendizagem

Vamos brevemente dividido em três partes, tridimensional algoritmo de reconstrução com base na aprendizagem profunda, revisão mais detalhada literatura será descrita em artigos subseqüentes desta série:

método de aprendizagem profundidade é introduzido para melhorar em um algoritmo de reconstrução tridimensional convencional
algoritmo de reconstrução profunda aprendizagem eo tradicional tridimensional integração algoritmo de reconstrução, vantagens complementares
visão animais imitar, o uso direto de algoritmo de aprendizagem profunda para a reconstrução tridimensional

1 é introduzido para melhorar a profundidade do método de aprendizagem convencional algoritmo de reconstrução tridimensional

Porque CNN tem uma enorme vantagem na imagem correspondente recurso, para que haja um monte de investigação nesta área, tais como:

DeepVO

Extrapolar a partir de uma série de imagens do RGB originais (vídeo) com base na profundidade da rede neural recursiva convolucional (RCNN) directamente de gesto, sem o emprego de qualquer módulo de odometria visuais convencional em melhorado reconstrução tridimensional do anel Visual odometria .

BA-Net

SfM algoritmo que um anel de feixe de ajustamento (Pacote Ajustamento, BA) como um algoritmo de optimização das camadas da rede neural, treinados para melhor rede de geração de função de base, para simplificar a reconstrução da extremidade posterior do processo de optimização. • Código SLAM, extraiu-se pela rede neural de uma pluralidade de funções de base para representar a profundidade de cena, estes grupos de função pode ser simplificada problema de optimização da geometria do método convencional.

2. algoritmo de reconstrução profunda aprendizagem eo tradicional tridimensional integração algoritmo de reconstrução, vantagens complementares

resulta CNN-SLAM13 CNN previu mapa de profundidade densa e SLAM monocular são fundidos SLAM perto posição imagem falha monocular como áreas de baixa textura, programas de fusão dado mais peso do que o esquema de profundidade para melhorar o efeito da reconstrução.

3. vista animais imitar, o uso direto de algoritmo de aprendizagem profunda para a reconstrução tridimensional

A reconstrução tridimensional das principais áreas de formato de dados, existem quatro:

FIG profundidade (mapa de profundidade)

imagem 2D, cada registro de pixel para tons de cinza representa a distância para o objeto do ponto de vista, quanto mais próximo o mais escuro;

Voxels (um voxel)

conceito de pixel de volume, semelhante à definição de pixel 2D;

Ponto nuvem (cloud ponto)

Cada um contém um ponto de coordenadas tridimensionais, a cor e a informação de intensidade reflectida;

Mesh (malha)

Ou seja, polígono malha, facilmente calculado.

De acordo com a forma de processamento de dados diferem estudo breve vai ser dividido em três partes: 1 ) com base no voxel; 2) com base na nuvem de pontos; 3) à base de uma grade . E algoritmo tridimensional reconstrução baseado no mapa de profundidade ainda não é, porque ele é usado mais na imagem 2D visualizados informações específicas em vez de processar dados tridimensionais.

(1) baseado em voxels

Voxel, como a forma mais simples, um simples convolução 2D através da reconstrução estendido para 3D:

Previsão mapa de profundidade a partir de uma única imagem usando uma funda de rede Multi-Escala de 2014

O método de aprendizagem é usado para fazer a profundidade da reconstrução tridimensional para as montanhas, forma baseada em voxel, diretamente com uma única imagem usando uma rede neural diretamente profundidade método de recuperação de mapa, a rede é dividida em estimativa precisa estimativa global e local, e usando uma escala não perda da função variantes de regressão.

3D-R2N2: uma abordagem unificada para a reconstrução única e multi-view 3d objeto de 2016

Christopher et ai., 3D-R2N2 proposto voxels modelo baseado na forma estabelecida gráficos 2D mapeados para modelo de voxel 3D utilizando uma estrutura de rede codificador-descodificador 3DLSTM-, completando / multivista reconstrução 3D baseado em vista voxel (multivista será usado como entrada para uma entrada serial LSTM e emite a pluralidade de resultados).
Mas existe uma tal abordagem baseada em voxel problema, ou seja, para aumentar a precisão da necessidade de melhorar a resolução, aumentar a resolução aumentará substancialmente cálculos demorados (computação convolução 3D, o poder vertical).

Como estimar a posição da câmera em um quadro diferente ?

O novo fluxo de processo de um dados

(2) com base na nuvem

Em contraste, a nuvem de pontos é uma forma mais simples, estrutura uniforme, mais fácil de aprender e mais fácil de operar na transformação geométrica ponto nuvem e deformação, não precisa ser atualizado devido a sua conectividade. Mas nota que a falta de pontos na conectividade nuvem de pontos, e, portanto, não têm a superfície das informações objeto e sentimento intuitivo que a superfície reconstruída não é plano.

Um ponto de ajuste de rede Geração de objeto 3D Reconstrução A partir de uma única imagem de 2017

O método é fazer um pioneiro para a reconstrução tridimensional de uma nuvem de pontos, a contribuição máxima é abordar o problema da perda de ponto de tempo de treinamento da rede da nuvem, uma vez que a mesma geometria poderia ser representada por uma nuvem de pontos diferentes na mesma extensão aproximada, Como função de perda adequada para medir a profundidade de aprendizagem baseada em problemas tem sido um método reconstrução tridimensional usando nuvem de pontos.

Point-Based Multi-View Aparelho de som de Rede de 2019

Este método é processado por uma nuvem de pontos de uma cena, uma informação de textura de fusão profundidade bidimensional e tridimensional, para melhorar a precisão da nuvem de pontos reconstrução.

(3) Com base na grade

As deficiências dos métodos anteriores:

Voxel-based, computacionalmente intensivo e difícil equilibrar a resolução e precisão
Com base na nuvem de pontos, o ponto de turvação da falta de ligação entre o ponto da superfície não é lisa reconstrução

Em contraste, a representação grelha tendo um peso leve, rica em pormenor as características de forma, existe uma relação importante entre os pontos de ligação adjacentes. Os pesquisadores, portanto, fazer a reconstrução tridimensional baseado em grid. A grade é descrito por os vértices, arestas, faces do objecto 3D, que corresponde exactamente à FIG M redes neurais convolucionais = (V, E, F), correspondendo a.

Pixel2Mesh

Fazer a reconstrução da imagem RGB único com uma malha triangular, o processo algoritmo correspondente é a seguinte:

Passo 1: Para qualquer imagem de entrada são inicializados para uma forma elipsóide tridimensional inicial.
Passo 2: A rede está dividida em duas partes: uma rede neuronal integral convolução através da extracção de características da imagem de entrada, uma outra porção da estrutura de rede tridimensional representado pela rede convolucional FIG,
Passo 3: rede tridimensional de modificação contínua, o objeto de saída final moldar.
Perda da função em quatro modelos para restringir a forma, e com bons resultados. Contribuição é conseguida para gerar informação tridimensional do objecto representado por uma grade directamente a partir da vista de extremidade de uma única cor da rede neural.

resumo

O algoritmo de reconstrução tridimensional tradicional podem ser divididos em:

Estes métodos, cada um tem suas próprias vantagens e escopo, uma breve recapitulação:

A pesquisa sobre o algoritmo de reconstrução tridimensional, existem três principais aprendizagem profunda:
método de aprendizagem 1. Profundidade é introduzida no algoritmo de reconstrução tridimensional convencional para melhorar;

algoritmo 2. No fundo Aprendizagem reconstrução eo tradicional tridimensional integração algoritmo de reconstrução, vantagens complementares;

3. animais imitação visual, o uso direto de algoritmo de reconstrução tridimensional para a profundidade de aprendizagem, incluindo uma baseada em voxel, com base em grade baseada em nuvem.