AIGC技术周报|为文生图模型提供“参考”;交互式prompt系统:让文生图模型更懂你

AIGC通过借鉴现有的、人类创造的内容来快速完成内容创作。ChatGPT、Bard等AI聊天机器人以及Dall·E 2、Stable Diffusion等文生图模型都属于AIGC的典型案例。「AIGC技术周报」将为你带来最新的paper、博客等前瞻性研究。

交互式prompt系统:让文生图模型更懂你

文生图模型展示了基于文本提示生成高质量图像的能力。然而,写出准确理解用户创作意图的提示仍然不太容易。它通常涉及费时费力的反复试验过程。

为了应对这些挑战,该研究提出了 Promptify,这是一个交互式 prompt 系统,利用由大型语言模型提供支持的建议引擎,来帮助用户快速探索和写出各种提示。

如下图,Promptify 允许用户灵活地组织生成的图像,并且根据他们的偏好,对原始提示进行更改。这个反馈循环,使用户能够不断改进他们输入的 prompt,并增强所需的功能,避免不需要的功能。

图片

该研究表明,Promptify 能有效地促进文生图的工作流程,且优于现有基线工具。下图展示了使用 Promptify(上排)和 Automatic1111(下排)生成图像的示例。

图片

论文链接:
https://arxiv.org/abs/2304.09337

“即插即用”的组合推理框架

大型语言模型在各种自然语言处理任务中展现出了亮眼的能力。然而,它们大多数依然面临着固有的局限性,比如无法获取最新的信息,无法利用外部工具,也无法进行精确的数学推理(ChatGPT Plus 除外)。

为解决这些问题,该研究提出了一个即插即用的组合推理框架 Chameleon。它将各种程序集成为各种工具,包括大型语言模型、视觉模型、网络搜索引擎、Python 函数以及根据用户兴趣定制的基于规则的模块。

如下图,作为一个自然语言规划器,Chameleon 在接收到一个任务后,会推断出一个适当的工具序列,然后执行,从而产生一个最终的结果。

图片

值得注意的是,使用 GPT-4 的 Chameleon 在 ScienceQA 上取得了 86.54% 的准确率,比已公布的最佳几率模型提高了11.37%。

进一步的研究表明,与 ChatGPT 等其他大型语言模型相比,使用 GPT-4 作为规划器显示出更一致和合理的工具选择,并且能够推断出给定指令的潜在约束。

论文链接:
https://arxiv.org/abs/2304.09842

“看”见音乐:用于音乐可视化的文生视频模型

视觉效果是音乐体验的核心部分,因为它们可以放大通过音乐传达的情感和信息。然而,创建音乐可视化是一个复杂、耗时且资源密集的过程。

该研究提出了 Generative Disco,这一生成式 AI 系统可以使用大型语言模型和文生图模型帮助生成音乐可视化。用户选择要可视化的音乐间隔,然后从音乐片段(描绘为波形)中,系统引导用户生成连接声音、语言和图像的提示,一对开始和结束提示可以参数化视频剪辑的生成。

图片

该研究引入了用于改进生成的视频的设计模式:“过渡”,表示颜色、时间、主题或风格的变化,以及 “保持”,鼓励视觉强调和一致性。研究表明,该系统令人愉快、易于探索且表现力强。

参考链接:
https://arxiv.org/abs/2304.08551

为文生图模型提供“参考”

基于扩散模型的文生图模型,在生成高保真图像方面显示出令人惊讶的能力。为了进一步提高可编辑性并实现精细化生成,该研究引入了一个多输入条件的图像合成模型,将草图作为一个新的模态,与参考图像一起纳入。

该框架可以对一个预先训练好的扩散模型进行微调,利用参考图像完成缺失区域,同时受草图的约束。如下图,用户可以通过提供参考图像和草图来编辑场景,在两种模式的指导下改变前景和背景,并获得高质量的结果。

图片

该研究使得用户能够在扩散过程中充分利用部分草图和参考图像,从而控制输出的结构,实现对任意场景的修改。

论文链接:
https://arxiv.org/abs/2304.09748

AI生成新闻,开启卷轴叙事

短视频是许多年轻人寻找和消费内容的主要方式。新闻媒体希望以新闻卷轴的形式将短视频呈现给观众,但目前很难将传统新闻格式转化为与平台风格相匹配的简短、有趣的视频。

围绕新闻故事构建卷轴式叙事的方法有很多种,从中选定出某一种是一项挑战。这是因为不同的新闻故事需要不同的框架。因此,需要在娱乐和信息之间进行不同的权衡。

为了解决这个问题,该研究展示了一个名为 ReelFramer 的系统,这是一个共同创建系统,支持记者基于新闻印刷品创建新闻卷轴。该系统由框架和脚本编写、角色板和故事板三个阶段组成,能简化新闻卷轴创作的构思和原型过程。

下图展示了使用 ReelFramer 创建的新闻卷轴的静态截图。这部影片用角色扮演的方式为一篇关于康菲石油公司在阿拉斯加钻探石油的新闻文章进行展示。ReelFramer 可以帮助用户有效地探索设计空间,并为他们提供一个好的起点,大大降低了将文章转换为新闻卷轴的难度。

图片

论文链接:
https://arxiv.org/abs/2304.09653

猜你喜欢

转载自blog.csdn.net/AMiner2006/article/details/130325526
今日推荐