Insertar video en video: análisis de papel CVPR2019

Insertar video en video: análisis de papel CVPR2019

Insertar videos en videos

 

 

 

Enlace de papel:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Lee_Inserting_Videos_Into_Videos_CVPR_2019_paper.pdf

Resumen

En este artículo, este artículo presenta un nuevo problema, que es manipular un video dado insertando otros videos. La tarea principal de este artículo es, dado un video de objeto y un video de escena, insertar el video de objeto en una ubicación especificada por el usuario en el video de escena para hacer que el video generado se vea realista. El objetivo de este artículo es tratar diferentes movimientos de objetos y fondos complejos sin la necesidad de costosas anotaciones de segmentación. Debido a que es difícil recopilar los pares de entrenamiento para este problema, este artículo sintetiza pares de entrenamiento falsos, que pueden proporcionar señales de monitoreo útiles al entrenar redes neuronales con datos reales no apareados. La estructura de red propuesta puede tomar pares verdaderos y falsos como entrada y llevar a cabo una capacitación supervisada y no supervisada en esquemas de aprendizaje adversos. Para sintetizar video fotorrealista, la red renderiza cada cuadro en base a la entrada actual y cuadros anteriores. En este marco, observamos que inyectar ruido en el cuadro anterior mientras se genera el cuadro actual puede estabilizar el entrenamiento. En este documento, los experimentos sobre el seguimiento de objetivos y los conjuntos de datos de referencia de reconocimiento humano se realizan en videos del mundo real. Los resultados experimentales muestran que el algoritmo puede sintetizar video fotorrealista de secuencia larga bajo el video objetivo dado.

1. Introducción

Las principales contribuciones de este trabajo se resumen a continuación:             

• Este artículo presenta un problema importante y desafiante que extiende el campo de inserción de objetos desde imágenes a video.             

• Este documento propone un nuevo método para sintetizar pares supervisados ​​de pseudoentrenamiento, que puede ayudar a las redes neuronales profundas a aprender a insertar objetos sin pares supervisados ​​de entrenamiento verdadero.             

• Este documento desarrolla un nuevo modelo de GAN condicional para facilitar el entrenamiento conjunto de pares de entrenamiento reales no supervisados ​​y pares de entrenamiento falso supervisados.             

• Este documento demuestra que el algoritmo propuesto puede sintetizar video real sobre la base de video de entrada desafiante del mundo real.

 

 

 

2. Trabajo relacionado

Inserte el objeto en la imagen. Dado un par de imágenes de objetos e imágenes de escenas, el método ST-GAN [16] aprende a distorsionar los objetos de la escena. Según la distorsión, el objeto se convertirá en una nueva ubicación sin cambiar su apariencia. Como se centra en el realismo geométrico, utilizan objetos cuidadosamente segmentados como entrada. Otros métodos tienen como objetivo insertar objetos presentando su apariencia. En [10], los objetos en la categoría de destino se insertan en la escena, dada una posición y el tamaño de un cuadro delimitador. Primero predice la forma del objeto en el espacio semántico, y luego genera una imagen de salida a partir del mapeo de etiqueta semántica predicho y la imagen de entrada.
La literatura [19] propuso un método similar sin utilizar el mapeo semántico de etiquetas. Reemplace el cuadro delimitador del peatón con ruido aleatorio y luego complete un nuevo peatón de acuerdo con el entorno. Para aprender la posición y la forma de los nuevos objetos, el método en [5] utiliza algoritmos de dibujo de imágenes para eliminar objetos existentes de la escena. Luego, entrene una red para restaurar los objetos existentes. Los resultados de este método dependen en gran medida de si la imagen en el algoritmo de pintura utilizado funciona bien (por ejemplo, no se generan píxeles de ruido). En [14], este problema puede aliviarse aprendiendo la distribución conjunta de las posiciones y formas de los objetos mapeados en base a etiquetas semánticas. El propósito de este método es encontrar la posición y el tamaño razonables del cuadro delimitador aprendiendo varias transformaciones af fi que deforman el cuadro delimitador de la unidad en la escena. Luego, de acuerdo con la posición predicha y el entorno circundante, se sintetizan objetos de diferentes formas. En comparación con los métodos existentes, el algoritmo en este documento permite a los usuarios especificar la apariencia y la ubicación del objeto a insertar. Además, el algoritmo en este documento no requiere capacitación o prueba de gráficos de segmentación.             

Síntesis de video condicional

La futura tarea de predicción de cuadros establece condiciones en cuadros anteriores para sintetizar el contenido de la imagen [18, 7, 32, 6, 15, 29, 30]. Debido a la incertidumbre y los errores acumulados en el proceso de predicción, generalmente solo se pueden generar secuencias de video cortas. Por otro lado, este documento sintetiza secuencias de video largas insertando un video en otro video. El contenido del video se puede transferir a otros videos para sintetizar nuevos videos. En [3], dado el video fuente de una persona, este método transmite el movimiento de una persona a otra persona en el video objetivo. Este método utiliza la postura humana detectada para estimar el movimiento del objeto y entrena una red para presentar a una persona afectada por la postura. La red entrenada presenta un nuevo video como si el objeto objetivo siguiera el movimiento del video fuente. El método en [1] no sigue completamente el mismo movimiento, pero transmite el servicio de contenido abstracto del video fuente cuando el estilo del video objetivo está preestablecido. Se propone un método de restricción espacio-temporal cíclico no supervisado. Convierte el marco de origen en el dominio de destino y predice el siguiente marco. Luego, el marco predicho se convierte nuevamente al dominio de origen. Este trabajo también formó un bucle que puede mejorar la calidad del video.

El contenido dinámico / textura en el video también se puede usar para la síntesis de video condicional. En [28], al aprender la red de doble flujo, puede capturar las texturas dinámicas en el video, como el flujo de agua o la llama. Luego, el trabajo anima la imagen de entrada en un video con movimiento dinámico real. Transfiera el estilo artístico del video para editar el video objetivo mientras conserva su contenido [11, 25]. Para una traducción de video a video más general, el esquema en [33] formula redes adversas de generación condicional (GAN) para sintetizar videos fotorrealistas, dando una serie de mapas de etiquetas semánticas, bocetos o poses humanas como entrada. Durante el proceso de entrenamiento, la red toma pares de datos como entrada, como la secuencia de mapeo de etiquetas semánticas y la secuencia correspondiente de imágenes RGB. La red está obligada a mantener el contenido de la secuencia de entrada en el video de salida.

3. Algoritmo propuesto

En este trabajo, este artículo considera el problema de que el usuario selecciona un objeto en el video a y desea insertarlo en la posición deseada en el video B. Este artículo asume que cada video tiene anotaciones y objetos para bordes en cada cuadro Id. Desde el cuadro delimitador del objeto seleccionado en A, este artículo obtiene un video uA que contiene la imagen recortada. El objetivo de este artículo es convertir uA a vA, de modo que cuando se inserte B, el video convertido sea real. Este artículo primero trata con la contraparte de la imagen de este problema y luego lo extiende al video.

3.1. Insertar imágenes en imágenes

Tenga en cuenta que esto es diferente de las tareas de conversión de imagen a imagen existentes [12, 13, 17, 35, 36] porque su propósito es retener el contenido de la imagen de entrada mientras cambia el contenido de la imagen de entrada a diferentes atributos o estilos El contenido, por ejemplo, convierte el mapa semántico en imágenes RGB con el mismo diseño semántico. Por el contrario, este artículo necesita convertir dos imágenes diferentes en una imagen, mientras aprende qué parte de cada imagen debe conservarse. Como se muestra en la Figura 2.

Este artículo utiliza la red entrenada con pseudopares en la Figura 3 (c) para presentar los resultados de los pares verdaderos. Aunque algunas partes están borrosas, la forma general y la apariencia del objeto insertado permanecen sin cambios. Además, la mayoría de los píxeles de fondo en A se eliminan y se reemplazan con rB, lo que indica que el pseudo-par proporciona una señal significativa a la red para insertar objetos invisibles. Por lo tanto, este documento espera que la red pueda entrenar bien pares verdaderos y falsos.

Sin embargo, como se muestra en la Figura 3 (d), cuando este documento utiliza ingenuamente (2) y (3) para entrenar la red, el resultado de la síntesis se vuelve inestable. Este artículo atribuye esto a las diferentes distribuciones de pseudopares y pares verdaderos. Aunque su distribución similar hace posible generalizar la red a imágenes invisibles, cuando la red realmente aprende dos tipos, puede distinguirlos, lo que limita la promoción. Este artículo resuelve este problema haciendo que sea más difícil para la red distinguir entre estos pares. En particular, este documento hace que la entrada sea incierta si tomar muestras de un par falso o verdadero.

La Figura 3 (e) muestra que el objeto insertado usando la función de pérdida en (6) es nítido y real.

3.2. Insertar videos en videos

Sin embargo, dado que el mapeo de cuadros es independiente de los cuadros adyacentes, la secuencia resultante se vuelve inconsistente en el tiempo. Por lo tanto, este artículo le pide a GV que busque N fotogramas anteriores al sintetizar cada fotograma a partir de la entrada mixta. Esta suposición de Markov es útil para generar videos de secuencia larga [33]. La Figura 4 muestra la arquitectura de red del codificador U-net [24] propuesta.

Como resultado, la secuencia generada contiene artefactos severos después de varios fotogramas. Para resolver este problema, este artículo utiliza ruido aleatorio para degradar el fotograma anterior antes de representar el fotograma actual. Al evitar esta ruta propensa a trampas, la red debe aprender la relación semántica entre las dos entradas, en lugar de depender de un lado. Hace que la red sea muy estable durante el entrenamiento.

 

 

 

 

 

 

 4. Resultados experimentales

Este documento evalúa el método de este documento sobre bases de datos de rastreo de objetivos múltiples o reidentificación de personal como DukeMTMC [23], TownCenter [2] y UA-DETRAC [34], para probar la aplicabilidad del algoritmo en este documento en ejemplos prácticos. Estos conjuntos de datos registran escenarios desafiantes donde los peatones o los automóviles se mueven naturalmente. Este artículo divide el 20% de los datos como un conjunto de prueba y muestra los resultados experimentales en el conjunto de prueba. Los resultados adicionales, incluido el video generado por la muestra y la investigación del usuario, se incluyen en el material complementario.             

Detalles de implementación. Para todos los experimentos, la estructura de la red, los parámetros y la inicialización son similares a DCGAN [21]. Este documento utiliza una capa convolucional transpuesta de 64 como base del filtro para el generador y el discriminador. Establezca el tamaño de lote en 1 y use la normalización de instancia en lugar de la normalización de lote. El tamaño del video de entrada se ajusta a 1024 × 2048 píxeles. Este artículo recorta u (·) yr (·) del video y lo ajusta a 256 × 128 píxeles. Luego, este artículo presenta un objeto en un parche de 256 × 128 píxeles. Convierta a imagen o video de 512 × 256 píxeles para visualización. Para cada iteración, este artículo elige una posición aleatoria en la que colocar un nuevo objeto, porque este artículo quiere cubrir las diversas posiciones y tamaños de entrada del usuario.

Aunque es posible que esta fórmula aprenda el mapeo no emparejado, aún no puede guiar a la red para retener el mismo objeto al traducir la imagen que se muestra en la Figura 5 (h). Además, este documento observa que esto hace que la red sea inestable durante el entrenamiento. En contraste, el algoritmo inserta un objeto de forma aguda y presenta píxeles de fondo con menos ruido, como se muestra en la Figura 5 (i).

La Figura 6 muestra el resultado de la inserción de objetos de video con comparación de línea de base. Este artículo utiliza el modo de fusión automática del software de edición de video comercial (Adobe Premier CC Pro) como punto de referencia. La otra línea base usa DeepLabv3 + [4] para copiar y pegar los segmentos predichos a lo largo del marco. Los resultados experimentales muestran que el algoritmo puede sintetizar videos más realistas que otros métodos de referencia. Además, como se muestra en la Figura 7, el algoritmo en este documento puede insertar video en bases de datos y diferentes objetos (como automóviles).

Este artículo utiliza el detector YOLOv3 [22] para determinar si puede detectar correctamente el objeto insertado. En este documento, se determina el umbral de detección y la tasa de recuperación del detector se mide calculando la intersección (IoU) entre el objeto insertado y el cuadro delimitador de detección. El umbral de IoU es 0,5. La Tabla 1 muestra la tasa de recuperación promedio usando la red entrenada a través de cinco iteraciones diferentes. Para cada experimento, este artículo seleccionó al azar 1,000 imágenes. Los resultados muestran que la tasa de recuperación promedio de este algoritmo es la más alta. Además, este artículo se topó con un caso interesante de este experimento. Cuando (9) genera una imagen no real en un modo similar al que se muestra en la figura 5 (e), el método alcanza una vez el valor de recuperación más alto.

En este documento, la puntuación se calcula en base a 1000 muestras generadas aleatoriamente, y el método DeepLabv3 + [4] se utiliza para obtener la máscara de segmentación. La Tabla 2 muestra que este algoritmo alcanzó el OIS más alto en comparación con otros algoritmos de referencia. El documento también señala que el modelo de línea de base basado en (9) tiene el OIS más bajo.

 

 

  5. Conclusión

En este artículo, este artículo presenta un nuevo algoritmo para resolver un nuevo problema: operar un video dado insertando otros videos. Esta es una tarea difícil porque es esencialmente un problema no supervisado (no emparejado). A diferencia de los métodos existentes, este documento propone un algoritmo para transformar el problema en un problema emparejado mediante la síntesis de pares de entrenamiento falsos y las correspondientes funciones de pérdida. En este artículo, se realizan experimentos en video real, lo que demuestra que el algoritmo puede generar video real largo con el video objetivo insertado. Como trabajo futuro, es interesante interactuar con el video insertado con el nuevo video, como la navegación de ruta o el procesamiento de oclusión.

Supongo que te gusta

Origin www.cnblogs.com/wujianming-110117/p/12680904.html
Recomendado
Clasificación