CariGANs: traducción de foto a caricatura no emparejada

Un artículo de SIGGRAPH en 2018, el texto original está disponible en: CariGANs: Traducción de foto a caricatura sin emparejar .

Debido a limitaciones de tiempo, el editor solo publicó mi PPT aquí, ¡y el PPT completo puede chatear conmigo en privado!

 1. El problema a resolver

 2. Ideas básicas

 3. Preparación del conjunto de datos

 Aquí hay dos problemas principales:

1)为什么要自己标记,不用现成state-of-the-art的模型去检测?
首先是作为训练数据,最好足够准确;
其次则是考虑到对漫画人物的检测很难;
最后,作者使用标记的真人图像的数据去finetune一个已有的face landmarks detector网络,以供测试使用。

2)为什么要对landmark使用PCA降维?
首先,在神经网络中,坐标/位置的变换往往比图像转换难,因为直接使用landmark我们只能使用FC,丢失了空间信息;当然这里说的比较牵强,我们完全可以使用spatial的map来输入人脸,这主要是landmark使用方式不同;
其次,是直接使用坐标的致命弱点:sensitive to very small error。较小的误差都可能引起巨大的artifact,如脸的轮廓可能因为某一点过高或过低导致锯齿状;
最后,是使用PCA编码后降维的好处,它隐式地包含了“人脸”的先验知识,如五官的相对位置等;同时PCA可以保留足够的数据多样性信息,如表情、五官比例等。

4. Entrene a CariGeoGAN para la transformación geométrica

El marco de formación se muestra a continuación:

 El principio específico y la pérdida son los siguientes:

这里值得注意的是Feature loss,其思想是:

对于几何形状的变形,应该满足:该样例在源域与源域中心的位移(注意:包括大小和方向),与该样例映射到目标域后与目标域中心的位移,应该尽可能相似,于是cos距离越大(越接近于1),所以目标要最小化这个误差。

5. Para diferentes pérdidas, el autor hizo un experimento de corrosión.

 6. Red de transformación del estilo de formación CariStyGAN

Antes del entrenamiento, necesitamos hacer un conjunto de datos intermedio Y '.

 El marco de formación es el siguiente

"""
同样的也是采用CycleGAN的训练框架。这里先看一个方向的。

1. 对x用一个content encoder与style encoder 编码得到内容与样式的编码;
2. 取x的内容向量与随机采样得到的Y域的一个样式向量合并,经过Y'->X方向的解码器解码得到目标的风格化图像;
   同时,让x的内容向量与样式向量经过X->Y'方向的解码器得到重构的原图像x;
3. 让生成的目标漫画图像再次经过Y'->X方向的内容编码器与样式编码器,得到内容向量与样式向量;那么,理论上,如果内容与样式很好解耦的话,得到的内容向量应该与原来的内容向量是一样的,我们让这个新的内容向量与原来的样式向量结合,经过x->Y'方向的解码器,那么理论上应该是重构回原来的图像;
(实际上下面的分支就是一个CycleGAN,只不过这里是Cycle的编码器有两个)

4. 之前看到一篇文章,为了实现更好地解耦,还开将S_Y'与合成的漫画图像经过Y'->X方向的样式编码器E_Y'^s获得的新样式向量作L1误差计算。

** 这里的样式s_Y'可以是经过E_Y'^s对某一个y'抽取得到的,也可以是从正态分布随机抽取到的向量。于是我们就实现了多样性的合成!
"""

 Hay 4 pérdidas en cada dirección, un total de 8 pérdidas; tomando la dirección X → Y 'como ejemplo, el cálculo de la pérdida se muestra en la siguiente figura.

7. Finalmente, muestre algunos resultados.

8. El propio autor mencionó algunas deficiencias en el artículo, como:

"""
1. 只是在脸型上有明显的夸张,这是由于脸型的landmarks点占了33/63
——考虑用分部分地训练?
2. shape上是否可以像style那样实现解耦从而实现多样化?
——但夸张的定义并不明显。什么是内容什么是样式?
"""

 

Supongo que te gusta

Origin blog.csdn.net/WinerChopin/article/details/94346945
Recomendado
Clasificación