论文阅读1《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networ》

paper链接https://arxiv.org/abs/1711.10485,
code链接https://github.com/taoxugit/AttnGAN,
作者的homepage https://sites.google.com/view/taoxu

本文给出的是CVPR 2018的文章《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》。它是StackGAN++的后续工作。

一、相关工作

对GAN的相关理解:https://blog.csdn.net/zlrai5895/article/details/80648898

前作StackGAN的工作:http://blog.csdn.net/zlrai5895/article/details/81292167

二、基本思想

1、文章要做的事情(Text to Image Synthesis):
输入:text      输出:image

2、通过引入attentional generative network,AttnGAN可以通过关注自然语言描述中的相关单词来合成图像不同子区域的细粒度细节。此外,提出了一种deep attentional multimodal similarity model来计算细粒度图像-文本匹配损失,用于生成器的训练。

它首次表明 the layered attentional GAN 能够自动选择单词级别的condition来生成图像的不同部分。

三、 数据集

本次实验使用的数据集是加利福尼亚理工学院鸟类数据库-2011(CUB_200_2011)。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/evsunny/article/details/83373874