生成系列论文:文本控制的3d点云生成 TextCraft(一):论文概览

TextCraft: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Text
论文原文: https://arxiv.org/abs/2211.01427

论文的研究动机

  • DALL2已经在文本控制的图像生成上取得很好的效果,但是基于文本控制的3d点云生成的研究还不太成熟,于是本文作者想要研究这个方向内容;
  • 但是这时候作者发现了新的问题:没有成熟的数据集;
  • 因此作者想要利用clip的预训练模型来解决这个问题。

论文的具体思路

其实这个思路不困难,就是整理本身有的东西,本身有的东西包括:

  • 3d点云数据和视图对
  • 利用视图控制生成3d点云的网络

现在想要获得:

  • 利用文字控制生成3d点云的网络

想到clip:

  • 提供了一个提取出文字和图片的共用特征

所以只需要利用这个共用特征控制生成3d点云,就可以在训练的阶段用“视图和3d模型对”训练,在预测阶段用文字输入生成3d点云。

论文网络结构

总体网络图
在这里插入图片描述
第一部分训练,这部分主要是找出来两个东西:隐层表达、读入隐层表达输出3d模型的网络,这样在之后,只需要获得这个隐层表达就可以获得相对应的3d点云。
在这里插入图片描述
第二部分训练,主要是用“视图和3d点云对”训练由视图生成隐层特征,
在这里插入图片描述
第三部分,增强隐层特征,感觉这里就是丰富一下隐层特征,增加生成的多样性,生成网络类型的东西,一般在低维度生成大方向,高维度则是小细节,这里应该就是在大方向确定的情况下丰富小细节。
在这里插入图片描述
接下来是预测阶段,主要是把控制信息换成由文字产生的共有特征。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43210957/article/details/129014687