Text to image基于GAN的文本生成图像GAN-INT-CLS解析

文本生成图像简要回顾text to image

https://blog.csdn.net/mohole_zhang/article/details/89374420

文本生成图像论文与代码汇总:

http://bbs.cvmart.net/topics/356/arbitrary-text-to-image-papers-tu-xiang-wen-ben-sheng-cheng-lun-wen-hui-zong

目录

一、任务

1.1 任务描述

1.2 主流方法

二、基于GAN的文本到图像生成

2.1 概览及链接

2.2 GAN-INT-CLS概览

2.3 基于文本的DCGAN

2.4 GAN-CLS

2.5 GAN-INT插值法学习

三、实验及性能

3.1 CUB数据集与Oxford-102

3.2 风格转换

3.3 插值图像


一、任务

1.1 任务描述

描述性的文本生成一张与文本内容对应的图像。

1.2 主流方法

主流方法有下面这几种,但目前主流方法是GAN的方法。

  • VAE(Variational Auto-Encoder),变化自编码器
  • DRAW(Deep Recurrent Attention Writer)深度聚焦机制
  • GAN对抗生成网络的方法

基本流程均为,先用自然语言处理技术提取出文本信息,然后再用文本特征作为后面生成图像的约束。在GAN中生成器Generator根据文本特征生成图片,继而被鉴别器Discriminator鉴定其生成效果。

二、基于GAN的文本到图像生成

2.1 概览及链接

Generative Adversarial Text to Image Synthesis,Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016, May 18).

论文地址:

https://arxiv.org/abs/1605.05396

Reed et al自2016年提出了GAN-INT-CLS模型以来,GAN模型用来由文本生成图像成为主流。

2.2 GAN-INT-CLS概览

https://www.jianshu.com/p/1515958fd82a

https://blog.csdn.net/stdcoutzyx/article/details/78575240

作者用了自己之前的方法《Learning Deep Representations of Fine-Grained Visual Descriptions》 来提取句子信息。

2.3 基于文本的DCGAN

文本描述量,用于描述文本的张量。GAN的生成器阶段和判别器阶段都有输入。

生成器的输入为文本的张量和随机噪声。判别器输入是生成的图像和文本的张量。

论文中用到了两个判别器,GAN-CLS与GAN-INT

2.4 GAN-CLS

用于判别图片是否按照了文本的要求进行生成。

为了使判别模型能够拥有判断文本与图像是否匹配的能力,

  • <假图,描述>
  • <真图,描述>
  • <真图,不匹配描述>

前两个生成合理图像,第三个与第二个判别对相比,生成匹配描述。这样,判别器就能将是否合理图片和是否匹配的信号都传递给生成器了。

数据集中每张图片对应了五个描述

一次选batch个图片进行训练,对每个图片进行以下操作

1.对于图片给出的描述编码

2.任意一个不正确的描述也编码

3.随机选择噪声向量

4.将噪声连接描述升入到生成器中

5.这时,利用3种 描述-图像对, <假图,描述>    <真图,描述>     <真图,不匹配描述>

6.判别器的损失函数,更新判别器。第十行

7.生成器的损失函数,更新生成器。第十二行

2.5 GAN-INT插值法学习

深度学习网络在文本领域证明了文本embedding的线性插值是比较接近文本的流形的。即两个代表不同意义的句子A和B,A和B中间意思的的句子C的embedding会和A和B分别的embedding的均值比较接近。

那么就意味着将不同的随机向量和文本进行组合,可以得到不同风格的图像。

为了验证这一想法,先将G倒转学习到一个从图像到随机向量的映射S。在做风格转换的时候,首先使用S提取风格图像的风格信息到一个向量a,然后将向量a和文本进行组合输入给生成器得到某风格下的图像。

论文中提到的融合两个文本的公式:

  • beta是融合的比例,论文中取0.5,也就是各个句子融合一半
  • 随机噪声z与句子提取出的信息送入生成器网络G
  • 相应的loss就是GAN loss

风格迁移:

https://upload-images.jianshu.io/upload_images/5193446-5958118841e39705.png?imageMogr2/auto-orient/strip|imageView2/2/w/257

  • 首先使用S提取生成器一张图像的风格信息,得到s(style),
  • 然后将随机噪声替换为s,s和文本进行组合输入给生成器得到某风格下的图像。

三、实验及性能

3.1 CUB数据集与Oxford-102

CUB数据集是花,Oxford-102数据集是鸟。可以看到生成较为逼真。

在花的实验上,普通的GAN容易生成比较多样性的结果。

花的实验效果比鸟的要好,原因可能在于不同的鸟类之间差别比较大,容易被D区分出来,导致D提升有限,从而限制了G的提升。

3.2 风格转换

3.3 插值图像

左侧是保持随机向量不变,两段不同的文本做插值,可以看到从左到右,逐渐接近第二句的效果。右侧是保持文本不变,两个随机向量做插值,可以看到,生成的物体没有变化,而背景却在发生渐变。

发布了210 篇原创文章 · 获赞 584 · 访问量 30万+

猜你喜欢

转载自blog.csdn.net/weixin_36474809/article/details/102997864
今日推荐