【论文精读】Text-To-4D Dynamic Scene Generation

首篇文本驱动动态场景生成的文章。
在这里插入图片描述

准备:DALLE-2

上方:CLIP语义识别
下方:输入文本的特征向量,prior层,自回归 or Diffusion,这里是Diffusion,然后输出图像的enbedding
在这里插入图片描述

text encoder

使用一个冻住的CLIP,通过输入的文本得到特征向量

Prior Diffusion Model

训练的时候目标是希望通过Prior model生成一个image feature,训练的时候image feature通过CLIP的带,在推断的时候只需要输入文本:
input: text feature and text token sequence
output: image feature

Decoder

使用Diffusion model进行解码。Produce images conditioned on CLIP image embeddings

Super-Resolution

超分网络。把解码器输出的64×64的图片上采样作为condition,用于超分。
超分时,把x和condition拼接在一起。

Abstract

MAV3D(Make-A-Video3D)
用动态的4D nerf
Text-to-video保证运动一致性
整体上看,是用2D的生成器去蒸馏4D的重建

存在问题:
①动态3D场景快速生成 end-to-end
②先用T2I生成静态的3D图像,SDS loss和motion regularizers(运动的约束)
③时间超分模型,提升分辨率

Pipline

在这里插入图片描述
优化时间平面和空间平面
绿色线:生成静态图像T2I
黄色线:优化动态场景MAV
红色线:超分网络,提升分辨率MAV SR

Method

4D场景表示

Hexolane
6个平面的动态NERF。
给出位置与方向无关
用MLP表示

动态场景优化

每个Batch中是一个视频序列
视频序列加噪声。

先优化静态模型,将时间设置为0。
用T2I的模型实现。

静态→动态
SDS-T
T2V

运动相机
可以物动像不动,也可物不动像动,也可都动。
发现动态相机可以减少multi-face的问题

FPS Sampling

Gaussian Annealing

Total Variation Loss

超分模型

在这里插入图片描述
每一堆图:
上:未超分
下:超分后

附录

在这里插入图片描述
上:小浣熊,未使用此方法,不同角度出错
下:小浣熊,使用此方法,连贯的。

猜你喜欢

转载自blog.csdn.net/m0_60634555/article/details/130321081