CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:CSIG文档图像分析与识别专委会

8a3a6f85b3a7c2036f0ac38573ce6438.png

本文简要介绍CVPR 2023录用论文“Unifying Layout Generation with a Decoupled Diffusion Model”的主要工作。该论文提出基于解耦扩散模型的LDGM方法,将现有版面生成任务进行统一,实现更加通用的版面生成。LDGM将版面里任意缺失或粗定义的元素当作扩散过程中的中间状态。考虑到不同属性的不同特点,LDGM将不同属性的扩散过程进行解耦。实验结果表明LDGM可以在无条件\给定任意属性条件下进行版面生成。定量和定性比较实验表明LDGM性能优于现有的SOTA方法。

b9969c64a58d6a08fa387520901f742d.png

图1. LDGM将版面生成统一成扩散(加噪)过程和生成(去噪)过程.

  • 一、研究背景

版面决定了一些格式化场景(如出版物、文档、交互界面等)中元素的位置以及大小。版面生成任务旨在生成包含各种类别、大小、位置、相互关系的元素的版面。实现版面生成自动化可以有效降低版面设计工作者的工作量,可以辅助多种实际设计场景。现有方法大多仅针对版面生成任务中的特定子任务,例如在给定类别条件下进行生成、在给定类别和位置条件下进行生成、对版面进行微调等,而无法同时完成不同的子任务。为了将多种子任务进行统一,实现更加通用的版面生成,本文提出基于扩散模型的LDGM方法,将各种不同条件的输入当成扩散模型的中间过程,从而实现在无条件\给定任意属性条件下都能实现版面生成任务。本文提出对不同属性的扩散过程进行解耦,以此更好地满足不同属性的不同扩散特性要求,且可以作为一种数据增广方式,使得训练数据更加多样。

327d2d32774aa72f53e41b1312d4fbb6.png

图2. 子任务的定义. 传统的版面生成子任务定义(左图)可以被本文更通用的任务定义(右图)包含.

  • 二、方法原理简述

b910ab048ec135f5a676355a0031ac5d.png

图3.训练过程伪代码.

bb96731677c8c48b68f8652f14f7ffff.png

图4. 本文方法的整体网络结构.

af801f666310df0e539caedbae6bda2d.png

图5. 生成过程伪代码.

扩散加噪过程。本文基于VQ-diffusion方法采用离散扩散方式:定义8c305b06eee23ee1aba41d951d0249da.png为任意属性,其中K为该属性类别数,0822add1ad2c6ec4fcc8a965680a1c12.png由t-1时刻48087876ef0deed9cdd7a40a81d59878.png状态扩散到t时刻9761265b7f635ffff9f8ebe47207d194.png状态的概率由预定义的概率转移矩阵21a36224cd780aa4d50d4aedd6d15fdd.png决定:

9a819a499679dc8a62663db3591da9fc.png

其中42b90fdd16b0384fe8181883de82b438.png为保持类别不变的概率,a6c90554ff48ef68922bd8121da03db6.png为替换成另一类别的概率,3532d3d1e142918a0f63f07ee0a0c3a0.png为进行遮掩的概率,根据马尔可夫链性质:

df269e7ef24dab2695a49cc0328868b3.png

基于f241d5caf3da97914fde198be1385677.png,可以得到加噪过程的后验分布:

5aecfc1b3142b231027ebd705cd231c4.png

考虑到不同属性有不同的特点,本文将不同属性的扩散过程解耦开来,首先是概率转移矩阵的解耦,即对不同的属性定义不同的概率转移举证:对于元素类别这一属性,15beaf6d51360a452e0f3863d52d30ae.png8abbd97231ded68b291e2b313eea2a42.png都随扩散时间而线性增加,而对于几何相关的属性,如坐标和长宽,79593409521fb909eb6d4f5591079d63.png随扩散时间而线性增加,而74298b15a9cc74b9ddfc3bcde33760ec.png则依据状态之间的距离确定:

5e82a6c46a289187fe260263d06aa5ea.png

其中f8692c715335fdd6766df8cda4897246.png为状态所处类别的位置。

其次是扩散时间线的解耦:如图3训练伪代码所示,不同属性加噪所采用的时间t是不同的。

去噪生成过程。神经网络通过学习输出fb843a4fab5af6d6931a0a3b29dedc0e.png,优化目标为最小化目标分布和模型输出分布的KL散度以及精确定义属性的重构损失:

be456d8c0be6f94224d47e980aaa0a28.png

生成过程采用本文提出的5e8c5b82c18424f723c74718d83b90f6.png策略:如图5生成过程伪代码所示,每个时间步仅对预测概率在Top K的属性进行保留,而其余缺失位置则继续保持遮掩状态。

模型结构。如图4所示,本文采用基于Transformer的网络结构来预测,所有输入都进行了量化,输入Embedding包括二值的Condition Flag,指明属性是否精确定义;元素索引构成的Position Eembedding;属性类别的Attribute Type;以及属性的值Attribute Value。元素之间的关系则通过相对位置编码进行建模,即在做Self-attention时为K和Q分别加上一个偏置。两偏置项由元素间关系矩阵7f653f5663aeae41c6de7bcddf51196e.png经过Embedding得到。

8990c2e91b04d71611e0e0842750dc15.png

  • 三、主要实验结果及可视化结果

表1. 与现有SOTA方法在不同子任务下的定量比较.

f0be614965ebe150211ce5db586faf0c.png

9e55cc38eaf863369d3b0249b231e4d6.png图6. 与现有SOTA方法在不同子任务下的定性比较.

表2. 在Rico数据集上验证不同加噪方式性能.

994037c641c56bed123d9d7d5396a774.png

表3. 在Rico数据集上验证不同生成策略性能.

17ada380f0f538ed906afbb3aaa245e8.png

表4. Condition flag embedding的有效性验证.

4ec7885c459a47db73313836b702e38d.png

从表1和图6可以看出,本文方法在所有三个数据集以及现有的各种子任务定义上取得了SOTA结果,而且还能实现更通用的版面生成任务。从表2可以看出,针对不同属性采用不同的加噪时间线,可以有效提高模型性能,且本文采用的平行加噪方式效果最优。从表3可以看出本文所提出采样过程相比于直接按顺序预测、一次性全部预测效果都要更优。表4则验证了Condition Flag的有效性。

  • 四、总结及讨论

该论文创新性地提出了LDGM方法,其借助解耦的扩散模型将无条件\给定任意属性条件下的输入当成扩散过程中的中间状态,从而实现了更加通用的版面生成任务。针对版面属性特性进行针对性设计,包括将扩散过程进行解耦、生成策略等。实验结果证明了所提方法的有效性。

  • 五、相关资源

Unifying Layout Generation with a Decoupled Diffusion Model论文地址: https://arxiv.org/abs/2303.05049  


原文作者:Mude Hui, Zhizheng Zhang, Xiaoyi Zhang, Wenxuan Xie, Yuwang Wang, Yan Lu

撰稿:张家鑫 编排:高 学

审校:连宙辉 发布:金连文 

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

扩散模型和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/130143910