NeurIPS 2023 | NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和Transformer】交流群

在CVer微信公众号后台回复:VisorGPT,可以下载本论文pdf、代码

7b2e90ac949b7f439e43447a86fab71c.png

代码:https://github.com/Sierkinhane/VisorGPT

论文:https://arxiv.org/abs/2305.13777

论文简介

可控扩散模型如ControlNet、T2I-Adapter和GLIGEN等可通过额外添加的空间条件如人体姿态、目标框来控制生成图像中内容的具体布局。使用从已有的图像中提取的人体姿态、目标框或者数据集中的标注作为空间限制条件,上述方法已经获得了非常好的可控图像生成效果。那么如何更友好、方便地获得空间限制条件?或者说如何自定义空间条件用于可控图像生成呢?例如自定义空间条件中物体的类别、大小、数量、以及表示形式(目标框、关键点、和实例掩码)。

本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式来建模上述视觉先验。因此,我们可以从学习好的先验中通过Prompt从多个层面,例如表示形式(目标框、关键点、实例掩码)、物体类别、大小和数量,来采样空间限制条件。我们设想,随着可控扩散模型生成能力的提升,以此可以针对性地生成图像用于特定场景下的数据补充,例如拥挤场景下的人体姿态估计和目标检测。

欢迎加入CVer计算机视觉知识星球!每天更新最新最前沿的AI论文、项目,扫描下方二维码,即可加入学习!

17c94e7b78aca63d425ca874b4654df1.jpeg

方法介绍

表1 训练数据

318d73c170c8aeb46de73154488edc91.png

本文从当前公开的数据集中整理收集了七种数据,如表1所示。为了以Generative Pre-Training的方式学习视觉先验并且添加序列输出的可定制功能,本文提出以下两种Prompt模板:

2066424e23f49b924ed4d363040873df.png

使用上述模板可以将表1中训练数据中每一张图片的标注格式化成一个序列x。在训练过程中,我们使用BPE算法将每个序列x编码成tokens={u1,u2,…,u3},并通过极大化似然来学习视觉先验,如下式:

5a337c50a791e8a500807339b56304aa.png

最后,我们可以从上述方式学习获得的模型中定制序列输出,如下图所示。

570f939e544e58c811b6d6dd44faa7fe.png

图1 定制序列输出

效果展示

ba9f340c5ae93d3e4a202c6fbaaa5876.png

aaf1ac72e41cba25e47a7d9b83b1cbdd.png

733b00962ae99c19c27a9d916190e062.png

更多技术细节请参阅原论文。

在CVer微信公众号后台回复:VisorGPT,可以下载本论文pdf、代码

点击进入—>【扩散模型和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
扩散模型和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/133327989
今日推荐