Text-To-4D Dynamic Scene Generation
首篇文本驱动动态场景生成的文章。
准备:DALLE-2
上方:CLIP语义识别
下方:输入文本的特征向量,prior层,自回归 or Diffusion,这里是Diffusion,然后输出图像的enbedding
text encoder
使用一个冻住的CLIP,通过输入的文本得到特征向量
Prior Diffusion Model
训练的时候目标是希望通过Prior model生成一个image feature,训练的时候image feature通过CLIP的带,在推断的时候只需要输入文本:
input: text feature and text token sequence
output: image feature
Decoder
使用Diffusion model进行解码。Produce images conditioned on CLIP image embeddings
Super-Resolution
超分网络。把解码器输出的64×64的图片上采样作为condition,用于超分。
超分时,把x和condition拼接在一起。
Abstract
MAV3D(Make-A-Video3D)
用动态的4D nerf
Text-to-video保证运动一致性
整体上看,是用2D的生成器去蒸馏4D的重建
存在问题:
①动态3D场景快速生成 end-to-end
②先用T2I生成静态的3D图像,SDS loss和motion regularizers(运动的约束)
③时间超分模型,提升分辨率
Pipline
优化时间平面和空间平面
绿色线:生成静态图像T2I
黄色线:优化动态场景MAV
红色线:超分网络,提升分辨率MAV SR
Method
4D场景表示
Hexolane
6个平面的动态NERF。
给出位置与方向无关
用MLP表示
动态场景优化
每个Batch中是一个视频序列
视频序列加噪声。
先优化静态模型,将时间设置为0。
用T2I的模型实现。
静态→动态
SDS-T
T2V
运动相机
可以物动像不动,也可物不动像动,也可都动。
发现动态相机可以减少multi-face的问题
FPS Sampling
Gaussian Annealing
Total Variation Loss
超分模型
每一堆图:
上:未超分
下:超分后
附录
上:小浣熊,未使用此方法,不同角度出错
下:小浣熊,使用此方法,连贯的。