[Open Vision] Efectos especiales de retrato AI "Una solución de cambio de rostro más rápida, superior y potente para entretenimiento interactivo"

 Inserciones fotográficas de código abierto recomendadas por AIGC:

       El último FaceChain admite la función de tomar fotografías con varias personas. Resumen de información del proyecto: acceso directo de código abierto de ModelScope al github de la comunidad mágica
       (si lo encuentra interesante, haga clic en una estrella): https://github.com/ modeloscopio/cadena facial

texto:

Autor original: Yao Yuan (Jiayi), Qingyao

Introducción: La tecnología de cambio de rostro tiene como objetivo reemplazar el rostro en una imagen o video con un rostro objetivo, de modo que la imagen generada sea similar a la cara objetivo y tenga las características de apariencia del rostro en la imagen o video. Como una de las aplicaciones más populares en el campo de la visión por computadora y los gráficos en los últimos años, se ha utilizado ampliamente en entretenimiento interactivo, reemplazo de retratos, publicidad, postproducción de películas y otros escenarios. Este trabajo está orientado a escenarios de entretenimiento interactivo, arraigado en las fronteras académicas y enfocado a la implementación industrial, propone un algoritmo de intercambio de rostros adaptable (SaSwap) y combina varios puntos débiles y dificultades en el proceso de implementación para abordar los problemas. uno por uno, y finalmente forma un método de salida eficiente. Un conjunto completo de soluciones innovadoras para el entretenimiento interactivo.

I. Introducción

1.1 Introducción

La tecnología de cambio de rostro tiene como objetivo reemplazar el rostro en la imagen o el video con el rostro objetivo, de modo que la imagen generada sea similar a la cara objetivo y tenga las características de apariencia del rostro en la imagen o el video. Como una de las aplicaciones más populares en el campo de la visión por computadora y los gráficos en los últimos años, se ha utilizado ampliamente en entretenimiento interactivo, reemplazo de retratos, publicidad, postproducción de películas y otros escenarios. Este trabajo está orientado a escenarios de entretenimiento interactivo, arraigado en las fronteras académicas y enfocado a la implementación industrial, propone un algoritmo de intercambio de rostros adaptable (SaSwap) y combina varios puntos débiles y dificultades en el proceso de implementación para abordar los problemas. uno por uno, y finalmente forma un método de salida eficiente. Un conjunto completo de soluciones innovadoras para el entretenimiento interactivo. Las principales novedades de nuestro trabajo son las siguientes:

"Más rápido" admite el intercambio de caras de cualquier entrada de cara objetivo por parte del usuario. En la escena de intercambio de caras de vídeo, la duración del vídeo: tiempo de procesamiento = dentro de 1:0,4 (líder en la industria).
"Superior" Basado en los comentarios de los clientes, se proponen soluciones efectivas y prácticas para varios desafíos típicos involucrados en la tecnología de cambio de rostro, elevando el efecto a un estándar más alto y garantizando el realismo, la estabilidad y la alta fidelidad de los resultados de cambio de rostro. (líder en la industria).
"Más fuerte" Para resolver el posible problema de falta de coincidencia entre la cara de la plantilla y la cara objetivo, desarrollamos de manera innovadora una versión mejorada del algoritmo de cambio de cara que se adapta a la forma de la cara (el primero en la industria), lo que mejora la similitud entre la cara generada y la cara objetivo.

1.2 Explicación de términos

Imagen de plantilla (vídeo): se refiere a la imagen original (vídeo) que se utilizará para el intercambio de caras.
Cara de destino: se utiliza para reemplazar la cara en la imagen de plantilla (video) de modo que la imagen de plantilla (video) sea similar a la cara de destino después del reemplazo de la cara.
Red generativa adversaria (GAN): consta de un generador y un discriminador. El generador se utiliza para generar imágenes falsas y el discriminador se utiliza para determinar la autenticidad de la imagen. Los dos juegan entre sí, promoviendo así la generación. de muestras que se aproximan a la distribución de datos real.

1.3 Trabajo relacionado

El reemplazo de cara más directo se puede lograr mediante el ajuste de forma (mapeo) 2D. Específicamente, detecta la información de la característica del punto clave de dos caras, luego calcula el mapeo de deformación entre las dos formas de cara y hace coincidir la cara objetivo con la cara plantilla. , se añaden técnicas de posprocesamiento como la fusión de imágenes para reparar los rastros de los bordes. Aunque este tipo de método es rápido y sencillo de implementar, es menos robusto y solo puede manejar rostros con posturas más estándar. La investigación relacionada en esta parte se centra en tres tipos típicos de algoritmos de cambio de rostros basados ​​en el aprendizaje profundo.

1.3.1 Algoritmo de cambio de rostro basado en reconstrucción facial 3D

El algoritmo de reemplazo facial basado en la reconstrucción facial 3D es una idea relativamente clásica: primero reconstruye el rostro en tres dimensiones, reconstruye los coeficientes de expresión y postura, luego realiza la alineación de la postura, el mapeo de texturas y la mejora de la fusión, y finalmente genera un algoritmo de reemplazo facial. Efecto. Tome algoritmos como la segmentación facial [1] como representante. Este tipo de método puede manejar el intercambio de caras en grandes ángulos y condiciones de oclusión parcial, pero debido a la introducción del proceso de reconstrucción, la tubería lleva mucho tiempo y el efecto es propenso a trazas de síntesis duras, lo que carece de realismo.

1.3.2 Algoritmo de cambio de cara basado en GAN

El algoritmo de cambio de cara puede considerarse como un problema de traducción de imágenes cara a cara. Los investigadores, naturalmente, pensaron en introducir una red generativa adversaria para aplicaciones de cambio de cara. El más famoso es Deepfake[2].

El marco general de Deepfake se muestra en la figura anterior. Su conjunto de entrenamiento requiere conjuntos de imágenes A y B de dos dominios (cara). Bajo la restricción de usar el mismo codificador (peso compartido), los codificadores respectivos se entrenan en los dos conjuntos. En el modelo de decodificación, durante la inferencia, el codificador extrae las características de las imágenes en el conjunto A y luego las ingresa en el decodificador del conjunto B para completar el reemplazo de la cara. Deepfake puede lograr buenos resultados al recopilar una gran cantidad de posturas diferentes, caras de plantilla de expresión y datos de la cara objetivo, pero su limitación es que cada vez que necesites cambiar una cara diferente, debes recopilar los datos de la cara objetivo y volver a entrenar. datos de capacitación, alto costo de capacitación y escasa escalabilidad.
Entonces, ¿existe algún método que pueda soportar el reemplazo de cualquier rostro después de entrenar un modelo general? La propuesta de Faceshifter [3] resuelve bien este problema. Convierte el problema del cambio de cara de cualquier imagen en un proceso de extracción y fusión de características. Extrae las características de la imagen objetivo a través de un codificador de identidad. Esta característica codifica las características utilizadas para distinguir Las características de la identidad facial de la imagen de destino, como la forma de los ojos, la distancia entre los ojos y la boca, etc., se pasan a través de un codificador de atributos de varios niveles para extraer múltiples características intermedias de la plantilla. imagen Esta función codifica los atributos de la cara de la plantilla en diferentes escalas, como la postura facial, los contornos, las expresiones, etc. Finalmente, se utiliza un generador para fusionar los dos tipos de características anteriores y generar directamente el resultado del cambio de cara. Esta arquitectura de red permite a Faceshifer admitir el intercambio de caras de dos imágenes cualesquiera durante la etapa de inferencia, lo que mejora en gran medida la eficiencia y la escalabilidad del intercambio de caras. Simswap[4] diseñó un conjunto diferente de redes de fusión y extracción de características basadas en un proceso similar. La mejora de la eficiencia inevitablemente trae consigo compromisos en los efectos. En el uso real, tanto Faceshifter como Simswap tienen problemas como el color de la piel, las caras laterales de gran ángulo y la oclusión. En el Capítulo 3, presentaremos ideas para resolver estas dificultades específicas.

1.3.3 Algoritmo de cambio de cara que combina 3D anterior + GAN

El método 3D puede reconstruir coeficientes de expresión y postura, proporcionar información de atributos más rica y tener una mejor adaptabilidad a rostros en diversas posturas. El método generativo tiene potentes capacidades de extracción de características y admite el intercambio de caras de cualquier par de imágenes. La combinación de los dos métodos también se ha convertido en una idea de optimización intuitiva: la idea básica es utilizar el modelo de rostro deformable 3D (3DMM) para extraer el ID, el color, la expresión, la pose, la luz y otros coeficientes de la cara de la plantilla y el objetivo. face respectivamente, y realizar Después del reemplazo y síntesis de coeficientes, se utiliza como información adicional para ingresar en el marco generativo para el reemplazo de caras. Entre ellos, los últimos trabajos Facecontroller [5] y HifiFace [6] son ​​algoritmos de cambio de rostro optimizados en base a esta idea. Mediante la introducción de más información y el diseño de diferentes módulos de desacoplamiento de funciones, la capacidad de controlar las características intermedias de la cara -El cambio se puede mejorar. Obtenga resultados de mayor fidelidad.

2. Marco de cambio de cara adaptable a la forma de la cara

2.1 Diseño de red

A partir de hoy, los algoritmos de cambio de rostro de la comunidad académica para imágenes arbitrarias se centran principalmente en estudiar cómo diseñar mejores métodos de fusión y desacoplamiento de características para mejorar la fidelidad, similitud y resolución del efecto final. Los algoritmos de cambio fusionan las características de la cara de destino y la cara de plantilla mientras conservan la forma de la cara de la cara de plantilla. Sin embargo, descubrimos que cuando los usuarios juzgan subjetivamente si el resultado del cambio de cara es similar a la cara de destino, además de algunas características De los rasgos faciales, la forma de la cara es otra dimensión de evaluación muy importante. Especialmente cuando las formas de la cara de la plantilla y la cara objetivo son bastante diferentes, si el resultado del reemplazo de la cara conserva completamente la forma de la cara de la plantilla, la similitud será insuficiente desde una perspectiva perceptiva y es fácil tener algunas obvias. Problemas con las huellas de síntesis en los bordes de la fusión facial.
En respuesta a esta dificultad y punto débil reconocidos por la academia y la industria, combinamos las ideas de caras anteriores 3D y fuimos pioneros en el diseño de un marco de intercambio de caras adaptable (Shape-aware swapping by 3D face priors, SaSwap), que puede soportar Percepción de la forma de la cara objetivo durante el proceso de intercambio de cara y un grado controlable de cambio basado en la forma de la cara objetivo mientras se cambia la cara.

La imagen de arriba es el diagrama de estructura de red de nuestro marco SaSwap, que se divide principalmente en un módulo de transformación facial de múltiples escalas, un módulo de estimación de deformación facial basado en 3D previo y un módulo de fusión de características deformables. El proceso específico es: primero, ingrese la imagen de plantilla. Al mismo tiempo, los cambios adaptativos de la cara se realizan en forma de campo de flujo óptico y las características de la imagen fusionada se pasan a través del generador para obtener el resultado de síntesis final.

1) Módulo de transformación de rostros de múltiples escalas El
módulo de transformación de rostros de múltiples escalas está inspirado en el proceso de faceshifter AEI-Net [3], que incluye un extractor de ID para extraer las características de ID de la cara objetivo y una codificación de atributos de U- Estructura de red Se utiliza un generador para extraer información de múltiples escalas de la cara de la plantilla y se utiliza un generador para fusionar de forma adaptativa las dos características. Hemos vuelto a mejorar la estructura del módulo de fusión de la parte del generador para que la información se pueda combinar. de manera más efectiva y generar efectos más robustos.

2) Módulo de estimación de deformación facial basado en información previa 3D. La
red de estimación de deformación facial se utiliza para construir una ruta directa desde la imagen de entrada hasta la formación del flujo óptico. Este módulo se implementa en base a información previa 3D. Primero, el módulo de reconstrucción de rostros 3D extrae las estructuras de rostros 3D correspondientes de la imagen de plantilla y la cara objetivo respectivamente y obtiene los coeficientes 3DMM relevantes. Mediante la fusión de los coeficientes faciales, se obtiene el efecto de reconstrucción de la cara objetivo bajo la postura de expresión especificada. . En este momento, el desplazamiento del movimiento se obtiene en función de la información del punto clave en la malla facial transformada y la malla facial original. Finalmente, se utiliza una red de estimación de flujo óptico denso para convertir el movimiento del punto clave escaso en un campo de flujo óptico denso. Dado que la mayoría de las tareas de cambio de rostro son cambios en la forma y estructura de los rasgos faciales, el campo de flujo óptico predice los cambios de movimiento de los píxeles de la imagen en la posición espacial.

3) Módulo de fusión de características deformables El módulo de fusión de características deformables
se utiliza para aplicar deformación de deformación a características profundas utilizando el flujo óptico predicho por la red en la capa intermedia del módulo de secuencia de fusión de características, logrando así un rango más amplio de transformación de píxeles en movimiento libre. en el espacio semántico. El campo de flujo óptico se genera de manera espontánea y no supervisada. A través de restricciones de pérdida relacionadas con el cambio de cara, los requisitos de deformación de textura requeridos se generan espontáneamente, retroalimentando así a la red de estimación de deformación facial para generar el flujo óptico correspondiente.

2.2 Pérdida de entrenamiento

Todo el proceso de capacitación adopta una forma de extremo a extremo para la optimización del aprendizaje. La función de pérdida general incluye pérdida de identidad, pérdida de reconstrucción, pérdida de atributos, pérdida semántica, pérdida de suavizado del flujo óptico y pérdida adversaria.

  1. pérdida de identidad

La pérdida de identidad se logra minimizando el resultado de cambio de cara Y y la cara objetivo.

La distancia de la característica de identificación:

2) Pérdida de reconstrucción

La pérdida de reconstrucción se divide en tres partes principales, a saber, pérdida de reconstrucción de píxeles, pérdida de reconstrucción 3D y pérdida de reconstrucción de flujo óptico.
La pérdida de reconstrucción de píxeles se define como el resultado de reemplazo de la cara Y y la cara de la plantilla.

píxel por píxel

distancia:

La pérdida de reconstrucción 3D se utiliza para limitar el resultado de la reconstrucción facial 3D de la imagen sintética para que sea consistente con el resultado de la reconstrucción facial 3D fusionada, y se define como la relación de los dos resultados de reconstrucción.

distancia:

en

Significa reconstrucción 3D de la imagen. Cuando se ingresan dos imágenes, significa reconstrucción 3D de cada imagen por separado, y luego se obtiene un nuevo modelo 3D mediante la conversión de fusión de parámetros.

Indica los puntos clave correspondientes a los resultados de la reconstrucción 3D de la imagen.
La pérdida de reconstrucción del flujo óptico se define como el mapa objetivo.

Diagrama con plantilla

Las características de predicción del flujo óptico de

distancia:

en

Redes para la estimación de deformaciones faciales.
En definitiva, las pérdidas por reconstrucción

Puede ser definido como:

3) Pérdida de atributos
La pérdida de atributos se define como la cara generada Y y la cara de la plantilla.

El promedio de características de atributos semánticos multicapa.

distancia:

4) Pérdida semántica
Usamos la pérdida contextual [7] como pérdida semántica, que se usa para restringir el resultado de reemplazo de cara Y a la cara de la plantilla.

En cuanto a la similitud de los parches de características semánticas no alineadas, basándose en la idea de transferencia de estilo, aquí utilizamos la pérdida de correlación semántica para limitar la coherencia del color de piel de los dos.

en

Representa las características de la l-ésima capa extraídas por la red VGG, i, j son los índices correspondientes,

es el peso de importancia relativa de las diferentes capas. Durante el entrenamiento, utilizamos

y

Características de estas dos capas.

5) Pérdida de suavizado del flujo óptico La
pérdida de suavizado del flujo óptico se utiliza para ralentizar el gradiente del flujo óptico generado bajo las coordenadas horizontales y verticales (u, v), promoviendo así cambios suaves.

6) Pérdida adversaria
Utilizamos un discriminador de múltiples escalas para definir la pérdida adversaria.

en

es la función de bisagra.

La función de pérdida final se define como:

3. Principales desafíos y soluciones

En el proceso de reproducción de artículos relacionados, encontraremos que su generalización cuando se aplica a escenarios reales suele ser insuficiente. La distribución de escenarios de datos reales es más compleja y diversa, y se pueden producir fácilmente varios artefactos en el uso real. Combinando los problemas y las necesidades reales encontradas durante la implementación del reemplazo facial, resumimos los siguientes puntos débiles y propusimos medidas de mejora específicas y efectivas.

3.1 Color de piel consistente

De hecho, un requisito básico para el reemplazo de caras es que el resultado generado debe mantener las mismas características de color de piel que la cara de plantilla. Sin embargo, cuando la diferencia de color de piel entre la cara objetivo y la cara de plantilla es grande, pueden surgir algunos problemas de desviación del color de piel. son a menudo propensos a ocurrir. En respuesta a este fenómeno, introdujimos la pérdida contextual [7] aplicada en la transferencia de estilo de imagen. La ventaja de esta pérdida es que puede usarse para datos no alineados y puede retener mejor las características de la verdad básica. Para escenas que cambian de cara Es muy adecuado para escenas donde los rasgos faciales de dos caras no están alineados. Al introducir la pérdida contextual, nuestro algoritmo de cambio de rostro puede mantener con precisión la información del color de piel de la imagen de destino.

3.2 Cara lateral de ángulo alto

Las caras laterales de gran angular aparecen con frecuencia en escenas de entretenimiento interactivo de vídeo y se encuentran entre los casos más propensos a malos resultados. El efecto de generación y la estabilidad de la imagen de la cara lateral son cruciales para la integridad de todo el resultado del vídeo. En vista de esto, primero optimizamos el algoritmo de puntos clave de detección de rostros. En comparación con el algoritmo de código abierto, la precisión de detección de escenas de rostros laterales ha mejorado enormemente. Luego, realizamos una clasificación detallada de los datos de rostros laterales y durante el proceso de entrenamiento Combinado con las limitaciones de los coeficientes de forma 3D, el efecto del perfil se ha mejorado enormemente.

3.3 Procesamiento de oclusión

En escenarios reales, las imágenes de entrada o los cuadros de video pueden bloquear parcialmente las caras. Las situaciones de bloqueo comunes incluyen manos, anteojos, máscaras, decoraciones, etc. Para abordar estos problemas, nuestro enfoque actual es utilizar el aumento de datos. Simular escenas de oclusión frecuentes y realizar oclusión aleatoriamente. mapeo durante el entrenamiento. La siguiente imagen muestra el efecto de optimizar la oclusión de las gafas. Antes de la optimización, debido a las características de la red de generación GAN, es fácil completar cierta información de textura facial en el área de oclusión, lo que resulta en la pérdida de información de oclusión. Después de la optimización , se conserva la información de oclusión.

3.4 Adaptación de la forma de la cara

Como se presentó en la segunda parte, nuestro algoritmo admite la adaptación adaptativa de la forma de la cara a la cara del usuario. La forma de la cara también es una dimensión importante que determina la similitud subjetiva del usuario, especialmente cuando la diferencia de forma de la cara entre la cara plantilla y la cara objetivo es grande. Si puede hacer coincidir la forma de la cara de destino, ayudará a mejorar el reconocimiento del resultado del reemplazo de la cara.

3.5 Aclaración facial

Dado que el tamaño de imagen ingresado a nuestra red es una cara con una resolución de 256x256, cuando el usuario necesita procesar una imagen o video de mayor resolución (la resolución del área de la cara después del recorte es mayor que 256x256), la resolución del intercambio de caras El resultado que generamos no puede coincidir. La resolución de entrada aparecerá un poco borrosa. En este momento, es necesario mejorar el rostro generado. Utilizamos un modelo de mejora facial pre-entrenado GPEN [8] como paso de posprocesamiento para realizar operaciones selectivas de mejora facial de acuerdo con el escenario de la aplicación. Para ahorrar aún más el costo de esta parte del posprocesamiento, aprovecharemos las ideas de HiFaceGAN [9] e integraremos directamente la mejora en el proceso de capacitación.

3.6 Estabilización entre cuadros

Para el intercambio de caras de video, el proceso básico es dividir el cuadro de video, realizar el intercambio de caras de la imagen cuadro por cuadro, luego fusionar todos los cuadros y generar el video con el intercambio de caras. En comparación con el intercambio de caras de imágenes, además de los desafíos anteriores, tiene requisitos más altos para la continuidad entre cuadros de video, lo que involucra varias situaciones complejas como transiciones, gradientes de desenfoque y desplazamientos entre cuadros. Si no se maneja bien, el resultado Se producirán fenómenos inestables como fluctuación y mutación (la cara cambió en el fotograma anterior, pero no en el siguiente), lo que afecta gravemente el efecto visual después del cambio de cara. Para abordar estos problemas, optimizamos desde los dos aspectos siguientes.

  • Optimización de la estabilidad de la detección de puntos clave. Concéntrese en optimizar las transiciones de escenas de entretenimiento interactivas, gradientes borrosos y otras situaciones propensas a fugas de cuadros. Al mismo tiempo, se agrega una lógica de suavizado para los cuadros delanteros y traseros para garantizar la estabilidad de los puntos clave en áreas clave de los rasgos faciales en fotogramas consecutivos.

  • Estrategias de aumento de datos para simular variaciones entre cuadros. Al simular el fenómeno de desplazamiento de pequeña amplitud entre cuadros, se puede mejorar efectivamente la robustez de la red y se puede garantizar la continuidad y el realismo del efecto de cambio de cara entre dos cuadros adyacentes.

4. Marco de aceleración de cambio de cara a nivel de vídeo

En la escena del entretenimiento interactivo, el rendimiento es un paso clave que determina la implementación del producto además del efecto. En la actualidad, el índice de eficiencia para evaluar el cambio de cara de video en la industria es 1: N, que se refiere específicamente al procesamiento de video de 720p, 25 fps y 1 segundo en una máquina GPU con potencia informática similar, y el tiempo máximo de procesamiento es N. segundos. Para soluciones técnicas que puedan admitir el cambio de cara con cualquier imagen, en la etapa de inferencia, la entrada de una imagen de usuario debe pasar por un procesamiento previo (detección de puntos clave de la cara, alineación y recorte de la imagen), inferencia del modelo y posprocesamiento (imagen). fusión, restauración de deformación de la imagen). ) tres etapas principales. Teniendo en cuenta todo el proceso de cambio de caras, lograr 1:1,5 se considera una eficiencia relativamente rápida. Para reducir aún más los costos y mejorar la eficiencia, optimizamos desde dos aspectos: aceleración de inferencia y diseño del marco fuera de línea, y finalmente mejoramos la eficiencia del cambio de cara del video a menos de 1:1. La siguiente figura muestra el tiempo empleado en cada etapa de optimización de la eficiencia. Todas las pruebas anteriores se completaron en la máquina Tesla P100.

  • La aceleración de inferencia incluye dos aspectos, uno es la aceleración de inferencia del modelo y el otro es la aceleración de inferencia de preprocesamiento y posprocesamiento. Para la aceleración del modelo, con la ayuda del equipo de aceleración de modelos, se utiliza el marco Xcnn para aumentar la inferencia del modelo desde 60 ms. en un solo cuadro a 28 ms, la relación de aceleración alcanza 2,14. Además, optimizamos la lógica de pre y posprocesamiento y finalmente aceleramos el fotograma único de 47 ms a 27 ms.

  • La escena de entretenimiento interactivo es principalmente para clientes de TOC. Las imágenes cargadas por los usuarios pueden cambiar con frecuencia, pero las plantillas a menudo son fijas. Por lo tanto, podemos preprocesar las plantillas con anticipación y agregar la información pública de la plantilla de video (como la clave). puntos) que deben usarse para cada cambio de cara, matriz de deformación, etc.) se almacenan de antemano, eliminando la sobrecarga adicional de esta pieza durante el cambio de cara real. La siguiente figura muestra nuestro marco de procesamiento fuera de línea. Al procesar la información de la plantilla por adelantado, acelera efectivamente la eficiencia del cambio de cara en todo el video.

5. Visualización y aplicación de efectos.

5.1 Comparación de productos de la competencia

Actualmente, la industria incluye la plataforma abierta de inteligencia artificial face++, Volcano Engine (Toutiao), la plataforma abierta Baidu y la plataforma abierta Tencent que brindan servicios de cambio de cara. Después de una comparación exhaustiva, el efecto de Tencent es significativamente mejor que los otros tres. Debido al video face -cambio de estos productos de la competencia No está abierto a pruebas. A continuación mostramos algunas comparaciones de los efectos del reemplazo de la cara de la imagen con productos de la competencia.

5.2 Visualización de efectos de vídeo

5.3 Escenarios de aplicación

  • Aplicación que cambia la cara en escenarios publicitarios de seguridad contra incendios

  • Aplicación innovadora para modelos de comercio electrónico

6. Referencias

[1] Nirkin Y, Masi I, Tuan AT, et al. Sobre segmentación de rostros, intercambio de rostros y percepción de rostros[C]//2018 13.ª Conferencia Internacional IEEE sobre Reconocimiento Automático de Rostros y Gestos (FG 2018). IEEE, 2018: 98-105.
[2]  GitHub - deepfakes/faceswap: software deepfakes para todos [3] Li L, Bao J, Yang H, et al. Faceshifter: hacia el intercambio de rostros consciente de la oclusión y la alta fidelidad [J]. Preimpresión de arXiv arXiv:1912.13457, 2019.
[4]Chen R, Chen X, Ni B, et al. Simswap: un marco eficiente para el intercambio de rostros de alta fidelidad[C]//Actas de la 28ª Conferencia Internacional ACM sobre Multimedia. 2020: 2003-2011.
[5]Xu Z, Yu X, Hong Z, et al. Facecontroller: edición de atributos controlables para rostros en la naturaleza [J]. Preimpresión de arXiv arXiv:2102.11464, 2021.
[6]Wang Y, Chen X, Zhu J, et al. HifiFace: Intercambio de rostros de alta fidelidad guiado previo semántico y forma 3D [J]. Preimpresión de arXiv arXiv:2106.09965, 2021.
[7]Mechrez R, Talmi I, Zelnik-Manor L. La pérdida contextual para la transformación de imágenes con datos no alineados[C]//Actas de la conferencia europea sobre visión por computadora (ECCV). 2018: 768-783.
[8]Yang T, Ren P, Xie X, et al. Red integrada anterior de GAN para la restauración de rostros ciegos en la naturaleza[C]//Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. 2021: 672-681.
[9]Yang L, Wang S, Ma S, et al. Hifacegan: Renovación facial mediante supresión y reposición colaborativas[C]//Actas de la 28ª Conferencia Internacional ACM sobre Multimedia. 2020: 1551-1560.

7. Conclusión

A continuación se proporciona la entrada de prueba para el servicio de cambio de rostro de la plataforma visual abierta de DAMO Academy: Demostración de capacidad
[Fusión de imágenes y rostros]
- Plataforma abierta visual inteligente de Alibaba Cloud

[Video Face Fusion]
Demostración de capacidad: plataforma abierta inteligente Alibaba Cloud Vision

Y el modelo de fusión de imagen y rostro en modelscope:
fusión de imagen y rostro

Supongo que te gusta

Origin blog.csdn.net/sunbaigui/article/details/132676952
Recomendado
Clasificación