¡Impresionante! Google y la Universidad de Cornell proponen RealFill: una nueva red de relleno de imágenes reales

Haga clic en la tarjeta a continuación para seguir la cuenta pública " CVer "

Información avanzada de AI/CV, entregada lo antes posible

Haga clic para ingresar -> grupo de comunicación [Detección de objetivos y transformador]

Responda en el fondo de la cuenta pública CVer WeChat: RealFill, ¡puede descargar el pdf de este documento y comenzar a aprender!

Reimpreso de: Heart of the Machine | Editor: XW

Obtener una foto atractiva es cada vez más fácil.

Cuando se viaja durante las vacaciones, tomar fotografías es imprescindible. Sin embargo, la mayoría de las fotografías tomadas en lugares pintorescos son más o menos lamentables: o hay algo extra en el fondo o falta algo.

Obtener una imagen "perfecta" ha sido uno de los objetivos a largo plazo de los investigadores del CV. Recientemente, investigadores de Google Research y la Universidad de Cornell colaboraron para proponer una tecnología de "completación de imágenes auténticas": RealFill, un modelo generativo para completar imágenes.

La ventaja de los modelos RealFill es que se pueden personalizar con una pequeña cantidad de imágenes de referencia de escenas que no necesitan alinearse con la imagen de destino e incluso pueden variar mucho en términos de ángulo de visión, condiciones de iluminación, apertura de la cámara o estilo de imagen. . Una vez completada la personalización, RealFill puede complementar la imagen de destino con contenido visualmente atractivo de una manera fiel a la escena original.

5edd788e895e410f74ce3fda442c6f96.png

  • Enlace del artículo: https://arxiv.org/abs/2309.16668

  • Página del proyecto: https://realfill.github.io/

Los modelos de pintura y pintura son tecnologías que pueden generar contenido de imagen razonable y de alta calidad en áreas desconocidas de la imagen. Sin embargo, el contenido generado por estos modelos es necesariamente poco realista porque estos modelos operan en el contexto de escenas reales. Hay deficiencias en la información. . Por el contrario, RealFill genera contenido que "debería" estar allí, lo que hace que los resultados de la finalización de la imagen sean más realistas.

Los autores señalaron en el artículo que definieron un nuevo problema de finalización de imágenes: "Finalización de imágenes auténticas". A diferencia de la restauración de imágenes generativas tradicional (el contenido que reemplaza el área faltante puede ser inconsistente con la escena original), el objetivo de la finalización de imágenes reales es hacer que el contenido completo sea lo más fiel posible a la escena original, utilizando contenido que "debería aparecer". allí". Complete la imagen de destino con contenido que "podría estar disponible".

Los autores afirman que RealFill es el primer método que extiende el poder expresivo de la imagen generativa en los modelos de pintura agregando más condiciones al proceso (es decir, agregando imágenes de referencia).

RealFill supera significativamente a los métodos existentes en un nuevo punto de referencia de finalización de imágenes que cubre un conjunto diverso y desafiante de escenarios.

método

El objetivo de RealFill es utilizar una pequeña cantidad de imágenes de referencia para completar las partes faltantes de una imagen de destino determinada manteniendo la mayor autenticidad posible. Específicamente, se le proporcionan hasta 5 imágenes de referencia y una imagen de destino que captura aproximadamente la misma escena (pero puede tener un diseño o apariencia diferente).

Para una escena determinada, los investigadores primero crearon un modelo generativo personalizado ajustando un modelo de difusión de pintura previamente entrenado en imágenes de referencia y de destino. Este proceso de ajuste está diseñado para que el modelo ajustado no solo mantenga buenos antecedentes de imagen, sino que también aprenda el contenido de la escena, la iluminación y el estilo en la imagen de entrada. Este modelo ajustado luego se utiliza para completar las regiones faltantes en la imagen de destino mediante un proceso de muestreo de difusión estándar.

Vale la pena señalar que, por su valor de aplicación práctica, este modelo se centra específicamente en el caso más desafiante y sin restricciones, donde la imagen de destino y la imagen de referencia pueden tener puntos de vista, condiciones ambientales, aperturas de cámara, estilos de imagen e incluso movimientos muy diferentes. .

Resultados experimentales

Basado en la imagen de referencia de la izquierda, RealFill puede expandir (recortar) o reparar (pintar) la imagen de destino de la derecha. El resultado generado no solo es visualmente atractivo, sino también consistente con la imagen de referencia, incluso si la imagen de referencia y La imagen de destino está en el mismo punto de vista. , existen grandes diferencias en apertura, iluminación, estilo de imagen y movimiento del objeto.

d1b93e6acfccf0266e8e3f7479a77d49.png

07950e8aa7bd022a0c45be158a57a2fc.png

85998adcd8a31c22f7d2d410de44df8a.png

16f60ffd5824659faaa326e79e5f8bbf.png

El efecto de salida del modelo RealFill. Dada una imagen de referencia a la izquierda, RealFill puede expandir la imagen de destino correspondiente a la derecha. Las áreas dentro del cuadro blanco se proporcionan a la red como píxeles conocidos, mientras que las áreas fuera del cuadro blanco se generan. Los resultados muestran que RealFill puede generar imágenes de alta calidad que son fieles a la imagen de referencia incluso si existen grandes diferencias entre la imagen de referencia y la imagen de destino, incluido el punto de vista, la apertura, la iluminación, el estilo de la imagen y el movimiento del objeto. Fuente: Papel

Experimento controlado

Los investigadores compararon el modelo RealFill con otros métodos de referencia. En comparación, RealFill produce resultados de alta calidad y funciona mejor en términos de fidelidad de escena y coherencia con las imágenes de referencia.

Paint-by-Example no puede lograr una alta fidelidad de escena porque se basa en la incrustación CLIP, que solo puede capturar información semántica de alto nivel.

Aunque Stable Diffusion Inpainting puede producir resultados aparentemente razonables, debido al poder expresivo limitado de las indicaciones, los resultados finales generados no son consistentes con la imagen de referencia.

04fe965e5c66db1d4976c9728025c065.jpeg

Comparación de RealFill con otros dos métodos de referencia. El área cubierta por una máscara blanca transparente es la parte no modificada de la imagen de destino. Fuente: realfill.github.io

limitaciones

Los investigadores también discutieron algunos problemas y limitaciones potenciales del modelo RealFill, incluida la velocidad de procesamiento, la capacidad de manejar cambios de puntos de vista y la capacidad de manejar situaciones que son desafiantes para el modelo subyacente. Específicamente:

RealFill requiere un proceso de ajuste fino basado en gradientes en la imagen de entrada, lo que hace que su ejecución sea relativamente lenta.

Cuando el cambio de punto de vista entre la imagen de referencia y la imagen de destino es muy grande, RealFill a menudo no puede restaurar la escena 3D, especialmente cuando solo hay una imagen de referencia.

Dado que RealFill se basa principalmente en imágenes anteriores heredadas del modelo base previamente entrenado, no puede manejar situaciones que son desafiantes para el modelo base, como modelos de difusión estables que no pueden manejar bien el texto.

1ff51e16b16cd0cea97d6c3bf9668ce5.png

Finalmente, el autor expresa su agradecimiento a los colaboradores:

Nos gustaría agradecer a Rundi Wu, Qianqian Wang, Viraj Shah, Ethan Weber, Zhengqi Li, Kyle Genova, Boyang Deng, Maya Goldenberg, Noah Snavely, Ben Poole, Ben Mildenhall, Alex Rav-Acha, Pratul Srinivasan, Dor Verbin y Jon Barron por sus valiosos debates y comentarios, y gracias también a Zeya Peng, Rundi Wu y Shan Nan por sus contribuciones al conjunto de datos de evaluación. Estamos especialmente agradecidos a Jason Baldridge, Kihyuk Sohn, Kathy Meier-Hellstern y Nicole Brichtova por sus comentarios y apoyo al proyecto.

Para obtener más información, lea el artículo original y visite la página de inicio del proyecto.

Responder en el fondo de la cuenta pública de CVer WeChat: AnyMAL, ¡puedes descargar el pdf de este documento y comenzar a aprender!

Haga clic para ingresar -> grupo de comunicación [Detección de objetivos y transformador]

Descarga de documento y código ICCV/CVPR 2023

 
  

Respuesta entre bastidores: CVPR2023, puede descargar la colección de artículos de CVPR 2023 y artículos de código abierto

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

Supongo que te gusta

Origin blog.csdn.net/amusi1994/article/details/133473685
Recomendado
Clasificación