DragGAN nació y en el futuro se podrá utilizar la edición de arrastrar y soltar en vídeos 4G.

Original | Texto de BFT Robot 

Del 14 al 15 de agosto de 2023 se celebró con éxito la 7ª Conferencia Global de Robótica e Inteligencia Artificial GAIR en el Hotel Orchard de Singapur.

En el subforo "AIGC y contenido generativo", el profesor asistente Pan Xingang de la Facultad de Ciencias e Ingeniería de la Universidad Tecnológica de Nanyang compartió los resultados de la investigación de la edición interactiva de arrastre de puntos - DragGAN sobre el tema "Manipulación interactiva de arrastre de puntos de Contenidos visuales"

Pan Xingang señaló que la creación de imágenes por parte del usuario actual no sólo se limita a la edición gruesa, sino que también espera un control preciso de los atributos espaciales de la imagen. En respuesta a esta demanda, nació DragGAN. A través de DragGAN, los usuarios pueden especificar selectivamente un área editable, determinar los puntos A y B, y luego mover libremente el punto A a la posición del punto B.

Más importante aún, DragGAN puede presentar no solo la imagen editada final, sino todo el proceso de transición intermedio, es decir, el efecto de un vídeo o animación, enriqueciendo sus escenarios aplicables.

DragGAN, una herramienta de edición de puntos clave de arrastrar y soltar, proporciona un muy buen complemento al método actualmente popular de generar gráficos vicencianos y ha recibido mucha atención y aplicaciones tan pronto como se anunció.

¿Qué nos falta en la síntesis de imágenes?

Aunque la IA generativa ya es muy buena para generar imágenes a partir de texto, lograr un ajuste más avanzado de las imágenes aún enfrenta desafíos. Por ejemplo, podemos ingresar un discurso en Midjourney o Stable Diffusion y dejar que genere un león realista. Pero muchas veces, el proceso creativo no acaba aquí.

La descripción del texto de la imagen es solo de grano grueso y los usuarios desean continuar afinando el contenido de la imagen de manera detallada, como cambiar la postura del contenido generado, girar la cabeza del león, aumentar o disminuyendo el tamaño del objeto y moviendo el objeto, posición e incluso cambiar la expresión del león. Esta serie de operaciones tiene que ver con el control preciso de los atributos espaciales de los objetos. Cómo controlar con precisión estos atributos todavía enfrenta desafíos relativamente grandes.

Para lograr un ajuste más refinado de la imagen, los usuarios deben proporcionar descripciones de información más detalladas y precisas, incluidas descripciones de la ubicación, el tamaño, la postura, la textura, el color y otros atributos específicos de cada objeto en la imagen. Esta información es importante para producir imágenes más realistas y precisas.

Sin embargo, lograr un ajuste de imagen de alta calidad no es una tarea fácil. Se necesita una gran cantidad de datos y entrenamiento de algoritmos para mejorar la precisión y efectividad del modelo generador, y es necesario desarrollar algoritmos más inteligentes y adaptativos para manejar diferentes tipos de texto de entrada. Además, también es necesario considerar cómo proteger los derechos de propiedad intelectual y la privacidad durante el proceso de generación para evitar infracciones.

¿Cómo debemos controlar las propiedades espaciales?

Para lograr un control preciso sobre los atributos espaciales de los objetos, podemos seguir el método de los diagramas vicencianos y editar imágenes basadas en descripciones de texto. En la actualidad, ya existen algunos métodos en el mundo académico para cambiar el contenido de las imágenes basándose en texto, como mover la nariz del león 30 píxeles hacia la derecha. Sin embargo, existen algunos problemas con esta forma de edición. En primer lugar, este tipo de edición de texto requiere el soporte de un modelo de texto para comprender todos los métodos de edición posibles de los atributos del espacio de objetos. Hay muchas otras formas de editar además de moverse hacia la derecha. En segundo lugar, en realidad es difícil para el modelo de lenguaje comprender la longitud exacta de 30 píxeles de la imagen actual. Por lo tanto, la edición precisa sigue siendo un gran desafío para los lenguajes gráficos vicencianos actuales.

¿Qué es el arrastre de puntos interactivo?

Los usuarios pueden ajustar los atributos espaciales de la imagen haciendo clic en dos puntos clave y mover la parte semántica de la imagen representada por el punto rojo al punto azul para editar los atributos espaciales de la imagen.

Este método tiene las siguientes ventajas: primero, es muy simple y fácil de usar, ya que solo requiere la información de las coordenadas de dos puntos; segundo, el usuario puede especificar con precisión la posición y la distancia del punto de agarre y el punto objetivo, logrando así un alto nivel de precisión. edición y ajuste precisos; finalmente, es muy flexible y se puede aplicar a una variedad de escenarios de edición de imágenes diferentes, como cambiar el tamaño, la postura, la posición, etc. de la imagen.

El resultado de la dirección de edición interactiva de apuntar y arrastrar——DragGAN

Se puede ver que el usuario puede especificar selectivamente un área editable y luego, al especificar el punto rojo y el punto azul, el algoritmo moverá el punto rojo a la posición del punto azul. Y vale la pena mencionar que lo que obtienes no es sólo la imagen editada final, sino todo el proceso de transición intermedio. Por tanto, lo que finalmente se presenta es el efecto de vídeo o animación, que también tiene ciertos escenarios de aplicación para la dirección de vídeo o animación.

Autor | Ju Jushou

Tipografía | Flores de primavera

Revisión | Gato

Si tiene alguna pregunta sobre el contenido de este artículo, comuníquese con nosotros y le responderemos a la brevedad. Para obtener más información, preste atención al sistema de robot inteligente BFT ~

Supongo que te gusta

Origin blog.csdn.net/Hinyeung2021/article/details/132738545
Recomendado
Clasificación