El artículo resuelve el problema de la animación de imágenes. Suponiendo que hay imágenes fuente y videos de conducción, y que los objetos que contienen son del mismo tipo, el método del artículo hace que los objetos en las imágenes fuente se muevan de acuerdo con las acciones de los objetos en el video de conducción.
El método del artículo solo requiere un conjunto de videos de objetos similares y no requiere anotaciones adicionales.

método

Este método se basa en la estrategia de autosupervisión. El método principal es reconstruir el video de capacitación en función de un cuadro de imagen en el video de capacitación y la representación de la acción aprendida. Entre ellos, la representación de la acción consta de puntos clave específicos del movimiento y transformaciones afines locales. Tenga en cuenta que debido a que es un método autosupervisado, el algoritmo aprende los puntos clave aquí, a diferencia de los puntos clave en el algoritmo de detección de puntos clave faciales, que están designados artificialmente con significados específicos.
Insertar descripción de la imagen aquí
El diagrama de cuadro se muestra en la figura anterior y consta de dos partes, una es el módulo de estimación de movimiento y la otra es el módulo de generación de imágenes.
a partir del video de conducción \mathbf D \in \mathbb R^{3\times H \times W} $D \in R^{3 \times H \times W}$ a la imagen de origen $\mathbf S \in \mathbb R^{3\times H \times W}$ Campo de movimiento denso de $^{3}$ $^{\times}$ $^{H}$ $^{\times}$ $^{W.}$ Campo deportivo $\mathcal T_{\mathbf S \leftarrow \mathbf D}: \mathbb R^2 \rightarrow \mathbb R^2$ 将 $\mathbf D$ se asigna al correspondiente $\mathbf S$ 。 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ También llamado flujo óptico inverso. Se utiliza flujo óptico inverso en lugar de flujo óptico directo porque la deformación hacia atrás se puede lograr de manera eficiente de una manera diferenciable utilizando muestreo bilineal.

Transformacion afin

Primero recordemos la transformación radial (transformación afín).
En coordenadas homogéneas, la transformación afín se puede expresar mediante la siguiente fórmula:
${\begin{bmatrix}{\vec{y }} \\1\end{bmatrix}}= {\begin{bmatrix}\mathbf B&{\vec {b}}\ \\0,\ldots ,0&1\end{bmatrix}} {\begin{bmatrix}{ \vec {x}}\\1\end{bmatriz}}$ Debido a que la última fila de la matriz de operaciones se usa para completar la operación, la transformación afín en la imagen bidimensional está determinada por la matriz $\mathbf A = [\ mathbf B, \vec {b}] \in \mathbb R^{2 \times 3}$ .

módulo de estimación de movimiento

El módulo de estimación de movimiento se divide en dos partes.

estimación de movimiento grueso

La estimación de movimiento aproximado predice patrones de movimiento en puntos clave, es decir, flujo óptico inverso $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ 。 $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ Aproximado mediante expansión de Taylor de primer orden cerca de puntos clave.

Supongamos que hay un marco de referencia abstracto $\mathbf R$ _ De esta manera, necesitamos estimar dos transformaciones: de $\mathbf R$ 到 $\mathbf S$ （ $\mathcal T_{\mathbf S \leftarrow \mathbf R}$ ) y de $\mathbf R$ a $\mathbf D$ （ $\mathcal T_{\mathbf D \leftarrow \mathbf R}$ ). La ventaja de los marcos de referencia abstractos es que nos permiten procesar D de forma independiente $\mathbf D$ 和 $\mathbf S$ _
Para facilitar la descripción, utilice $\mathbf X$ representa $\mathbf S$ o $\mathbf D$ ，用 $p_1,\cdots,p_K$ Representa un marco de referencia abstracto $\mathbf R$ Las coordenadas de los puntos clave en $R$ $z$ representa las coordenadas de puntos en otros marcos. Estimamos que en puntos clave $p_1,\cdots,p_K$ TX alrededor de $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ . Específicamente, consideramos $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ En puntos clave $p_1,\cdots,p_K$ Además:
$\mathcal T_{\mathbf X \leftarrow \mathbf R}(p)=\mathcal T_{\mathbf X \leftarrow \mathbf R}(p_k)+(\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R} (p)} {dp}|_{p=p_k})(p-p_k)+o(\|p-p_k\|)$ Esto puede verse como una transformación afín $\mathbf A^k_{\mathbf X \leftarrow \mathbf R} \in \mathbb R^{2 \times 3}$ , $\mathcal T_{\mathbf X \leftarrow \mathbf R}(p_k)$ es el parámetro de traducción, $\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ son los parámetros del mapeo lineal.

$\mathcal T_{\mathbf X \leftarrow \mathbf R}$ La función K es una función jacobiana de forma libre.
$\mathcal T_{\mathbf X \leftarrow \mathbf R}(p) \approx \{\{ \mathcal T_{\mathbf X \leftarrow \mathbf R}(p_1),\frac{d\mathcal T_{\mathbf X \leftarrow\mathbf R}(p)}{dp}|_{p=p_1}\}, \cdots,\{ \mathcal T_ {\mathbf X \leftarrow \mathbf R}(p_K),\frac{d \mathcal T_{\mathbf X \leftarrow \mathbf R}(p)}{dp}|_{p=p_K}\} \}$
Suponemos que $\mathcal T_{\mathbf X \leftarrow \mathbf R}$ La localidad en cada punto clave es una biyección. Entonces para $\mathcal T_{\mathbf S \leftarrow \mathbf D}$ ，我们有
$\mathcal T_{\mathbf S \leftarrow \mathbf D}=\mathcal T_{\mathbf S \leftarrow \mathbf R} \circ \mathcal T^{ -1} _ {\mathbf D \leftarrow \mathbf R}$ En el caso de la capa límite
$\mathcal T_{\mathbf S \leftarrow \mathbf D}(z) \approx \mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k ); + J_k(z-\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k))\\ J_k=(\frac{d \mathcal T_{\mathbf S \leftarrow \mathbf R}(p)} {dp }|_{p=p_k})(\frac{d \mathcal T_{\mathbf D \leftarrow \mathbf R}(p)}{dp}|_{p=p_k})^{-1}$ $\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)$ 和 $\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)$ se predice utilizando la red predictora de puntos clavebasada en U-Net. Prediga un mapa de calor para cada punto clave y prediga K mapas de calor en total. La última capa del decodificador U-Net utiliza softmax para predecir el mapa de confianza de cada punto clave, que es la confianza del punto clave en cada posición de píxel, que satisface ∑ z ∈ ZW k (z) = $\sum_ {z \in \mathcal Z} \mathbf W^k(z)=1$ , donde $\mathcal Z$ representa todas las posiciones de píxeles.
$\mathcal T_{\mathbf S \leftarrow \mathbf R}(p_k)$ 和 $\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)$ es equivalente al parámetro de traducción en la transformación afín. Tenga en cuenta que es bidimensional (z incluye x e y). Los parámetros de traducción se calculan ponderados por el mapa de confianza de puntos clave:
$zb^k = \sum_{z \in \mathcal Z} \mathbf W^k(z)z$ $\frac{d \mathcal T_{\mathbf S \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ 和 $\frac{d \mathcal T_{\mathbf D \leftarrow \mathbf R}(p)}{dp}|_{p=p_k}$ Equivalentes a la parte de transformación lineal en la transformación afín, se estiman como los 4 parámetros restantes en la transformación afín utilizando los 4 canales adicionales de la red predictora de puntos clave, con 4 canales adicionales para cada punto clave. Utilice $WP^k_{ij} \in \mathbb R^{H \times W}$ representa el valor estimado de uno de los canales, donde $i,j\in\{1,2\}$ es la coordenada de la transformación afín. Los parámetros de la transformación lineal se ponderan y fusionan utilizando mapas de confianza de puntos clave:
$\mathbf B^k[i,j] = \sum_ {z \in \mathcal Z} \mathbf W^k(z)P^k_{ij}(z)$

estimación de movimiento denso

de cada píxel en la imagen completa \hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D} $\hat{t}_{S \leftarrow}$ 。

Usamos una red convolucional de $Expansión de Taylor TS en K$ puntos clave $\mathcal T_{\mathbf S \leftarrow \mathbf D}(z)$ y el cuadro de imagen de origen $\mathbf S$ $\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D$ } $\hat{t}_{S \leftarrow}$ .
Distorsionar el marco de la imagen fuente S usando transformaciones en puntos clave $\mathbf S$ , puedes obtener $K$ imágenes transformadas $\mathbf S^1, \cdots, \mathbf S^K$ _ Además, considere una imagen adicional $\mathbf S^0 = \mathbf S$ como fondo. $\mathbf H_k(z)$
para cada punto clave $h (z)$ Especifique la suavidad en el movimiento intrínseco
$\mathbf H_k (z) = exp(\frac{(\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)-z)^2}{\sigma}) - exp(\frac{(\mathcal T_{\ mathbf S \leftarrow \mathbf R}(p_k)-z)^2}{\sigma})$
将 $\mathbf H_k$ 和 $\mathbf S^0, \cdots, \mathbf S^K$ esuna red de movimiento denso. estimaciones de la red de movimiento denso $k + 1$ máscara $\mathbf M_k, k = 0, \cdots, K$ indica qué transformación local se utiliza para cada posición, cumpliendo $\sum_{k=0}^K \mathbf M^k(z)=1$ Definamos la ecuación de la siguiente manera:
$\ .hat{\mathbf T}_{\mathbf S \leftarrow \mathbf D}(z) = \mathbf M_0z + \sum_{k=1}^K \mathbf M_k(\mathbf T_{\mathbf S \ flecha izquierda \mathbf R }(p_k) + J_k(z-\mathcal T_{\mathbf D \leftarrow \mathbf R}(p_k)))$ $\sum_{k=1}^K \mathbf M^k(z) \mathbf A^k_{\mathbf S \leftarrow \mathbf D} {\begin{bmatrix}{z$
}
$\\1 \end{bmatriz}}$

Módulo de generación de imágenes

1. Según la predicción $\hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D}$ a El mapa de características de $S$ $\xi \in \mathbb R^{H'\times W'}$ Utiliza la operación de deformación.
2. En lasCuando hay oclusión en $S$ $D^{'}$ no se puede obtener completamente mediante la imagen fuente de deformación, pero requiere pintura. Entonces, predice un mapa de oclusión $\hat{\mathcal O}_{\mathbf S \leftarrow \mathbf D} \in [0,1 ]^{H '\veces W'}$ , que indica el área de la imagen de origen que debe pintarse. El mapa de oclusión se predice agregando una capa después de la red de movimiento densa.
El mapa de características transformado se puede expresar como:
$\xi' = \hat{\mathcal O}_{\mathbf S \leftarrow \mathbf D} \odot f_w(\xi, \hat{\mathcal T}_{\mathbf S \leftarrow \mathbf D})$ $f_w$ Representa la operación de deformación hacia atrás. El mapa de características convertido se ingresa en la capa posterior del módulo de generación de imágenes para su procesamiento y finalmente se genera una imagen.

tren

La pérdida de entrenamiento consta de varios elementos. La primera es la pérdida de reconstrucción basada en la pérdida de percepción. Esta pérdida utiliza la red VGG-19 previamente entrenada como extractor de características para comparar las diferencias de características entre los cuadros reconstruidos y los cuadros reales que impulsan el video.

Además, considerando que el aprendizaje de puntos clave no está etiquetado, lo que conducirá a un rendimiento inestable, se introduce una restricción de equivarianza para su uso en el aprendizaje de puntos clave no supervisado. Supongamos imagen $X$ sufre una transformación conocida $\mathcal T_{\mathbf X \leftarrow \mathbf Y}$ Obtener $Y$ 。Solución de restricción de equivarianza:
$\mathcal T_{\mathbf X \leftarrow \mathbf R} \equiv \mathcal T_{\mathbf X \leftarrow \mathbf Y} \circ \mathbf Y }; {\mathbf Y\flecha izquierda\mathbf R}$ Realizando una expansión de Taylor de primer orden en ambos lados y utilizando la pérdida L1 para restringir los valores y jacobiano en los puntos clave, respectivamente.

Referencias

《Modelo de movimiento de primer orden para animación de imágenes》
《Representaciones de movimiento para animación articulada》

Notas de lectura Modelo de movimiento de primer orden para animación de imágenes