Stable Diffusion的结构要被淘汰了吗?详细解读谷歌最新大杀器VideoPoet

Diffusion Models视频生成-博客汇总

前言:视频生成领域长期被Stable Diffusion统治,大部分的方式都是在预训练的图片Stable Diffusion的基础上加入时间层,学习动态信息。虽然有CoDi《【NeurIPS 2023】多模态联合视频生成大模型CoDi》等模型尝试过突破这一结构的局限,但是都没有对业界带来特别有影响力的工作。最近谷歌出手了,拿出了Decoder-Only结构视频生成模型,堪称王炸!华为曾经出过Decoder-Only的模型(还被群嘲过),但是事实逐渐证明这种能够把文本、音频、视频等各种模态通过编码成tokens组合在一起是多么具有想象力的事情!明年的ChatGPT-5也会是这样的形态吗?

目录

猜你喜欢

转载自blog.csdn.net/qq_41895747/article/details/135211141