CVPR 2022 | ¡Con solo una imagen + posicionamiento de la cámara, la IA puede compensar el entorno circundante!

Fuente丨Qubit

Editar 丨 Plataforma Gokushi

De pie en la puerta y echando un vistazo, la IA puede inventar cómo se ve la habitación:

99161ae70bc057419dfd03bd093f0024.gif

¿Huele como una visualización de realidad virtual en línea?

No solo los efectos en interiores, sino también una fotografía aérea de largo alcance con lentes largas es muy fácil:

23707b9b050d7807437d836bd6b16991.gif

Y las imágenes renderizadas son todas efectos de alta fidelidad, como si hubieran sido tomadas con una máquina real.

Recientemente, la investigación sobre la síntesis de escenas 3D a partir de imágenes 2D ha sido popular.

Sin embargo, en muchos estudios anteriores, las escenas sintéticas a menudo se limitan a un espacio relativamente pequeño.

Por ejemplo, el NeRF anterior, el efecto es girar alrededor del cuerpo principal de la imagen.

26010d8e293a7b4549cc1a985e5221ca.gif

El nuevo progreso esta vez es ampliar aún más la perspectiva y centrarse más en permitir que la IA prediga imágenes de larga distancia.

Por ejemplo, dada la puerta de una habitación, puede sintetizar la escena después de atravesar la puerta y caminar por el pasillo.

0a455da6e068935d483e4856b6d6b548.gif

En la actualidad, los artículos relacionados con esta investigación han sido aceptados por CVPR2022.

Entrada de cuadro único y pista de cámara

Permita que AI infiera el siguiente contenido basado en una imagen. ¿Se parece un poco a dejar que AI escriba artículos?

De hecho, los investigadores utilizaron esta vez el Transformador comúnmente utilizado en el campo de la PNL .

Utilizaron el método del transformador autorregresivo para sintetizar un efecto de tiro largo de larga distancia al ingresar una sola imagen de escena y la trayectoria de movimiento de la cámara, de modo que cada cuadro generado corresponda a la posición de la trayectoria de movimiento uno por uno.

8b01b5eb1a343e9b024881fe411fe0e3.png

Todo el proceso se puede dividir en dos etapas.

  • La primera etapa entrena previamente un VQ-GAN , que puede asignar la imagen de entrada al token.

VQ-GAN es un modelo de generación de imágenes basado en Transformer, su mayor característica es que las imágenes generadas son de muy alta definición .

En esta parte, el codificador codificará la imagen en una representación discreta y el decodificador asignará la representación a una salida de alta fidelidad.

  • En la segunda etapa, después de procesar las imágenes en tokens, los investigadores utilizaron una arquitectura similar a GPT para la autorregresión .

En el proceso de entrenamiento específico, la imagen de entrada y la posición inicial de la trayectoria de la cámara deben codificarse como tokens de un modo específico, y al mismo tiempo debe agregarse una entrada PE de posición desacoplada.

Luego, el token se envía a un transformador autorregresivo para predecir la imagen.

El modelo inicia la inferencia a partir de una sola imagen de la entrada y sigue aumentando la entrada mediante la predicción de fotogramas antes y después.

Los investigadores descubrieron que no todos los fotogramas generados en cada momento de la trayectoria son igualmente importantes. Por lo tanto, también explotaron una restricción de localidad para guiar al modelo a centrarse más en la salida de los fotogramas clave.

Esta restricción de localidad se introduce a través de la trayectoria de la cámara.

Según la posición de la pista de la cámara correspondiente a los dos cuadros, los investigadores pueden ubicar los cuadros superpuestos y determinar dónde está el siguiente cuadro.

Para combinar lo anterior, calcularon un "sesgo de percepción de la cámara" usando MLP.

Este enfoque facilita la optimización y juega un papel crucial para garantizar la consistencia de las imágenes generadas.

Resultados experimentales

Este estudio lleva a cabo experimentos en conjuntos de datos RealEstate10K y Matterport3D.

Los resultados muestran que este método produce imágenes de mejor calidad que los modelos que no especifican las trayectorias de la cámara .

ee0f1e5b2b35e28f3eeb3a1a42b2e884.gif

Este método también funciona significativamente mejor que el método de trayectorias de cámara discretas.

d4484c009596a7e2d89465659b5a12ed.gif

El autor también analiza visualmente la atención del modelo.

Los resultados muestran que se presta más atención cerca de la ubicación de la trayectoria del movimiento.

36e679334bfe002ad410b98606a243cc.png

En los experimentos de ablación, los resultados muestran que el método en el conjunto de datos Matterport3D, el sesgo de percepción de la cámara y la incrustación de la posición desacoplada ayudan a mejorar la calidad de la imagen y la consistencia cuadro a cuadro.

90816692043af33e1b6e91563a561684.png

Ambos autores son chinos.

Xuanchi Ren es estudiante de pregrado en la Universidad de Ciencia y Tecnología de Hong Kong.

5844bfe0453626f2f7d60bad70d5ae60.png

Hizo una pasantía en el Instituto de Investigación de Microsoft Asia y cooperó con el profesor Xiaolong Wang en el verano de 2021.

Xiaolong Wang es profesor asistente en la Universidad de California, San Diego.

3d29628c84a3fa670f4bdd7ae54977f8.png

Se graduó de la Universidad Carnegie Mellon con un título en robótica.

Sus intereses de investigación incluyen visión artificial, aprendizaje automático y robótica. Especialmente en áreas como el aprendizaje autosupervisado, la comprensión de videos, el razonamiento de sentido común, el aprendizaje por refuerzo y la robótica.

Dirección en papel:
https://xrenaa.github.io/look-outside-room/

Este artículo es solo para uso académico, si hay alguna infracción, comuníquese para eliminar el artículo.

Descarga y estudio de productos secos

Respuesta entre bastidores: material didáctico de la Universitat Autònoma de Barcelona , ​​puede descargar el material didáctico de alta calidad 3D Vison acumulado por universidades extranjeras durante varios años

Respuesta de fondo: libros de visión por computadora , puede descargar el pdf de libros clásicos en el campo de la visión 3D

Respuesta entre bastidores: cursos de visión 3D, puede aprender excelentes cursos en el campo de la visión 3D

Cursos de calidad visual 3D recomendados:

1. Tecnología de fusión de datos multisensor para conducción autónoma

2. ¡Una ruta de aprendizaje completa para la detección de objetivos de nube de puntos 3D en el campo de la conducción autónoma! (Modo único + multimodal/datos + código)
3. Comprender a fondo la reconstrucción visual en 3D: análisis de principios, explicación del código y optimización y mejora
4. El primer curso de procesamiento de nubes de puntos doméstico para combate a nivel industrial
5. Visión láser -Combinación de algoritmo SLAM de fusión IMU-GPS
y explicación de
código
Principio de algoritmo clave SLAM láser para interiores y exteriores, código y combate real (cartógrafo + LOAM + LIO-SAM)

9. Cree un sistema de reconstrucción 3D de luz estructurada desde cero [teoría + código fuente + práctica]

10. Método de estimación de profundidad monocular: clasificación de algoritmos e implementación de código

11. El despliegue real de modelos de aprendizaje profundo en la conducción autónoma

12. Modelo de cámara y calibración (monocular + binocular + ojo de pez)

13. ¡Pesado! Cuadricópteros: algoritmos y práctica

14. ROS2 desde el inicio hasta el dominio: teoría y práctica

¡Pesado! Taller de Visión por Computador - Se ha establecido un Grupo de Intercambio de Aprendizaje

Escanee el código para agregar un asistente de WeChat, y puede solicitar unirse al taller de visión 3D: grupo de intercambio WeChat de redacción y envío de artículos académicos, que tiene como objetivo intercambiar asuntos de redacción y envío, como conferencias principales, revistas principales, SCI e EI.

Al mismo tiempo , también puede solicitar unirse a nuestro grupo de comunicación de subdivisión. En la actualidad, hay principalmente aprendizaje de código fuente de la serie ORB-SLAM, visión 3D , CV y ​​aprendizaje profundo , SLAM , reconstrucción 3D , posprocesamiento de nube de puntos , automático conducción, introducción de CV, medición 3D, VR / AR, reconocimiento facial 3D, imágenes médicas, detección de defectos, reidentificación de peatones, seguimiento de objetivos, aterrizaje visual de productos, competencia visual, reconocimiento de matrículas, selección de hardware, estimación de profundidad, intercambios académicos, intercambios de búsqueda de empleo y otros grupos de WeChat, escanee la siguiente cuenta de WeChat más grupo, comentarios: "dirección de investigación + escuela/empresa + apodo", por ejemplo: "visión 3D + Universidad Jiaotong de Shanghái + Jingjing". Comente de acuerdo con el formato, de lo contrario no será aprobado. Después de que la adición sea exitosa, se invitará al grupo WeChat relevante de acuerdo con la dirección de la investigación. Póngase en contacto con las presentaciones originales .

a745e2395bf81c14190298f2285e565c.png

▲Presione prolongadamente para agregar un grupo de WeChat o contribuir

25040d2da0f213e7b7b0a2d2c6b4af0f.png

▲Presione prolongadamente para seguir la cuenta oficial

Visión 3D desde la entrada hasta el planeta del conocimiento competente : cursos de video para el campo de visión 3D (serie de reconstrucción 3D , serie de nube de puntos 3D, serie de luz estructurada , calibración mano-ojo, calibración de cámara , láser/visión SLAM, conducción automática, etc. ), resumen de puntos de conocimiento, ruta de aprendizaje avanzado y de entrada, el último intercambio de documentos y respuesta a preguntas para un cultivo en profundidad, y orientación técnica de ingenieros de algoritmos de varios fabricantes importantes. Al mismo tiempo, Planet cooperará con empresas conocidas para publicar posiciones de desarrollo de algoritmos relacionados con la visión 3D e información de acoplamiento de proyectos, creando un área de reunión para fanáticos acérrimos que integra tecnología y empleo. Casi 4,000 miembros de Planet hacen progresos comunes y conocimiento para crear un mejor mundo de IA.

Aprenda la tecnología central de la visión 3D, escanee y vea la introducción, reembolso incondicional dentro de los 3 días

f45be67cbf01dbe0bc299eb8a6ffa9e3.png

 Hay materiales tutoriales de alta calidad en el círculo, que pueden responder preguntas y ayudarlo a resolver problemas de manera eficiente

Lo encuentro útil, por favor dale me gusta y mira ~

Supongo que te gusta

Origin blog.csdn.net/qq_29462849/article/details/123887936
Recomendado
Clasificación