CVPR 2023 | Collaborative Diffusion怎样让不同的扩散模型合作?

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和Transformer】交流群

近一两年,扩散模型(diffusion models)展现了强大的生成能力。不同种类的扩散模型各显神通 —— text-to-image模型可以根据文字生成图片,mask-to-image模型可以从分割图生成图片,除此之外还有更多种类的扩散模型,例如生成视频,3D,motion等等。

倘若有一种方法让这些pre-trained的扩散模型合作起来,发挥各自的专长,那么我们就可以得到一个多功能的生成框架。比如当text-to-image模型与mask-to-image模型合作时,我们就可以同时接受text和mask输入,生成与text和mask一致的图片了。

CVPR 2023的Collaborative Diffusion提供了一种简单有效的方法来实现不同扩散模型之间的合作。

f347696c3551947644f979162547647f.png

Collaborative Diffusion for Multi-Modal Face Generation and Editing
论文: https://arxiv.org/abs/2304.10530

代码: https://github.com/ziqihuangg/Collaborative-Diffusion

网页: https://ziqihuangg.github.io/projects/collaborative-diffusion.html

视频: https://www.youtube.com/watch?v=inLK4c8sNhc

我们先看看不同扩散模型合作生成图片的效果~  

05e99197b6b442386d3fc581ffe585a0.jpeg

当text-to-image和mask-to-image通过Collaborative Diffusion合作时,生成的图片可以达到和输入的text以及mask高度一致。

f3041de257df47b9b92f08f671eae234.jpeg

给定不同的多模态输入组合,Collaborative Diffusion可以生成高质量的图片,而且图片与多模态控制条件高度一致。即便多模态输入是相对少见的组合,例如留长头发的男生,和留寸头的女生,Collaborative Diffusion依旧可以胜任。

那不同的扩散模型究竟怎样实现合作呢?  

 

首先,我们知道,扩散模型在生成图片的过程中,会从高斯噪声开始,逐步去噪,最终得到自然图像。

25da4718ec2c08123af490dda6a3c343.jpeg

图片来源:CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications

基于扩散模型迭代去噪的性质,我们的Collaborative Diffusion在去噪的每一步都会动态地预测不同的扩散模型如何有效合作,各取所长。Collaborative Diffusion的基本框架如下图所示。

9115fc86fec8f65e34f58cf0007bcadd.jpeg

我们在每一步去噪时,用Dynamic Diffusers动态地预测每个扩散模型对整体预测结果带来的影响(也就是Influence Functions)。Influence Functions会选择性地增强或者减少某个扩散模型的贡献,从而让各位合作者(也就是扩散模型)发挥专长,实现合作共赢。

值得注意的是,预测得到的Influence Functions在时间和空间上都是适应性变化的。下图展示了mask-to-image和text-to-image模型合作时,在不同时间和空间位置的Influence Functions强度。

8503d2ad970e5875f16f128aefe6842d.jpeg

从上图中我们可以观察到,在时间上,决定mask-to-image模型影响的Influence Functions在去噪初期很强(第一行左边),到后期逐渐变弱(第一行右边),这是因为扩散模型在去噪初期会首先形成图片内容的布局,到后期才会逐渐生成纹路和细节;而在多模态控制人脸生成时,图片的布局信息主要是由mask提供的,因此mask分支的Influence Functions会随着时间由强变弱。与之相对应地text-to-image模型的Influence Functions(第二行)会随着时间由弱到强,因为text提供的多数信息是与细节纹路相关的,例如胡子的浓密程度,头发颜色,以及与年龄相关的皮肤皱纹,而扩散模型的去噪过程也是在后期才会逐步确定图片的纹理以及细节。

与此同时,在空间上,mask-to-image模型的Influence在面部区域分界处更强,例如面部轮廓和头发的外边缘,因为这些地方对整体面部布局是至关重要的。text-to-image模型的Influence则在面中,尤其是脸颊和胡子所在的区域较强,因为这些区域的纹理需要text提供的年龄,胡子等信息来填充。

Collaborative Diffusion的通用性   

Collaborative Diffusion是一个通用的框架,它不仅适用于图片生成,还可以让text-based editing和mask-based editing方法合作起来。我们利用在生成任务上训练的Dynamic Diffusers来预测Influence Functions,并将其直接用到editing中。话不多说我们看图~ 

230f32d05c417bbd5dc20e3546fad941.jpeg

c29a021d311d963e2ba1eacf6bcfb3a9.jpeg

edd5ae07ad8d46ef19eef801477043e3.jpeg

b59f8233f38e6fdcf73e86c3372fba81.jpeg

完整的实验细节和实验结果,以及更多图片结果,请参考论文。

总结

(1)我们提出了Collaborative Diffusion,一种简单有效的方法来实现不同扩散模型之间的合作。

(2)我们充分利用扩散模型的迭代去噪的性质,设计了Dynamic Diffuser来预测在时间和空间上均有适应性的Influence Functions来控制不同的扩散模型如何合作。

(3)我们实现了高质量的多模态控制的人脸生成和编辑。

(4)Collaborative Diffusion是一个通用的框架,不仅适用于图片生成,还适用于图片编辑,以及未来更多的基于扩散模型的其他任务。

代码已开源,各位大佬走过路过不要忘记star~

https://github.com/ziqihuangg/Collaborative-Diffusion

点击进入—>【扩散模型和Transformer】交流群

最新CVPR 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

扩散模型和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型和Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看350bda4438fe30d7ffc2cfb0d17090e4.gif

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/130979909