AI教程之谷歌的新 Imagen 视频从文本生成视频

谷歌发布了Imagen Video,这是一个可以根据文本提示生成视频的 AI 系统。这看起来像是 Google 对Meta (Facebook 2.0)最近宣布的 Make-A-Video的回应。

这是初步结果的样子。
1_jGggNEIX98ageZZyZq30sA.gif

Imagen Video 在 1400 万个视频-文本对和 6000 万个图像-文本对以及公开可用的 LAION-400M 图像-文本数据集上进行训练,使其能够以每秒 24 帧的速度生成 1280x768 视频。

这个怎么运作

该过程从输入文本提示开始,并使用 T5 文本编码器将其编码为文本嵌入。然后,扩散模型生成 24x48 分辨率和每秒 3 帧的 16 帧视频。

然后使用一系列时间超分辨率 (TSR) 和空间超分辨率 (SSR) 模型进行上采样并生成更高的帧速率,在 1280x768 分辨率下高达 128 帧和每秒 24 帧的视频。

同样重要的是要注意 AI 模型能够呈现文本。DallE2 和 Stable Diffusion 等可公开访问的模型尚不具备这种能力。

在这里插入图片描述
谷歌声称,Imagen Video不仅能够生成高保真视频,而且具有高度的可控性和世界知识,使其能够生成不同艺术风格的动态。

在这里插入图片描述
它甚至可以理解 3D 上下文和

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/127262528
今日推荐