文生视频领域SOTA工作 Show-1:论文和代码解读

Diffusion Models视频生成-博客汇总

前言:最近的text-to-video的论文Show-1在MSR-VTT测评数据集上取得了FVD和CLIPSIM指标上的第一名,FID指标上的第二名。采用混合模型的方法,结合了基于像素的VDM和基于潜在空间的VDM进行文本到视频的生成,不仅能取得很高的生成指标,还能大大降低推理资源消耗。这篇博客详细解读一下这篇论文和代码。

目录

贡献概述

方法详解

猜你喜欢

转载自blog.csdn.net/qq_41895747/article/details/133763751