Un artículo de SIGGRAPH en 2018, el texto original está disponible en: CariGANs: Traducción de foto a caricatura sin emparejar .
Debido a limitaciones de tiempo, el editor solo publicó mi PPT aquí, ¡y el PPT completo puede chatear conmigo en privado!
1. El problema a resolver
2. Ideas básicas
3. Preparación del conjunto de datos
Aquí hay dos problemas principales:
1)为什么要自己标记,不用现成state-of-the-art的模型去检测?
首先是作为训练数据,最好足够准确;
其次则是考虑到对漫画人物的检测很难;
最后,作者使用标记的真人图像的数据去finetune一个已有的face landmarks detector网络,以供测试使用。
2)为什么要对landmark使用PCA降维?
首先,在神经网络中,坐标/位置的变换往往比图像转换难,因为直接使用landmark我们只能使用FC,丢失了空间信息;当然这里说的比较牵强,我们完全可以使用spatial的map来输入人脸,这主要是landmark使用方式不同;
其次,是直接使用坐标的致命弱点:sensitive to very small error。较小的误差都可能引起巨大的artifact,如脸的轮廓可能因为某一点过高或过低导致锯齿状;
最后,是使用PCA编码后降维的好处,它隐式地包含了“人脸”的先验知识,如五官的相对位置等;同时PCA可以保留足够的数据多样性信息,如表情、五官比例等。
4. Entrene a CariGeoGAN para la transformación geométrica
El marco de formación se muestra a continuación:
El principio específico y la pérdida son los siguientes:
这里值得注意的是Feature loss,其思想是:
对于几何形状的变形,应该满足:该样例在源域与源域中心的位移(注意:包括大小和方向),与该样例映射到目标域后与目标域中心的位移,应该尽可能相似,于是cos距离越大(越接近于1),所以目标要最小化这个误差。
5. Para diferentes pérdidas, el autor hizo un experimento de corrosión.
6. Red de transformación del estilo de formación CariStyGAN
Antes del entrenamiento, necesitamos hacer un conjunto de datos intermedio Y '.
El marco de formación es el siguiente
"""
同样的也是采用CycleGAN的训练框架。这里先看一个方向的。
1. 对x用一个content encoder与style encoder 编码得到内容与样式的编码;
2. 取x的内容向量与随机采样得到的Y域的一个样式向量合并,经过Y'->X方向的解码器解码得到目标的风格化图像;
同时,让x的内容向量与样式向量经过X->Y'方向的解码器得到重构的原图像x;
3. 让生成的目标漫画图像再次经过Y'->X方向的内容编码器与样式编码器,得到内容向量与样式向量;那么,理论上,如果内容与样式很好解耦的话,得到的内容向量应该与原来的内容向量是一样的,我们让这个新的内容向量与原来的样式向量结合,经过x->Y'方向的解码器,那么理论上应该是重构回原来的图像;
(实际上下面的分支就是一个CycleGAN,只不过这里是Cycle的编码器有两个)
4. 之前看到一篇文章,为了实现更好地解耦,还开将S_Y'与合成的漫画图像经过Y'->X方向的样式编码器E_Y'^s获得的新样式向量作L1误差计算。
** 这里的样式s_Y'可以是经过E_Y'^s对某一个y'抽取得到的,也可以是从正态分布随机抽取到的向量。于是我们就实现了多样性的合成!
"""
Hay 4 pérdidas en cada dirección, un total de 8 pérdidas; tomando la dirección X → Y 'como ejemplo, el cálculo de la pérdida se muestra en la siguiente figura.
7. Finalmente, muestre algunos resultados.
8. El propio autor mencionó algunas deficiencias en el artículo, como:
"""
1. 只是在脸型上有明显的夸张,这是由于脸型的landmarks点占了33/63
——考虑用分部分地训练?
2. shape上是否可以像style那样实现解耦从而实现多样化?
——但夸张的定义并不明显。什么是内容什么是样式?
"""