OpenFlamingo 多模态是GPT-4 开源替代品

        非营利组织  LAION-AI  OpenFlamingo,这是一个用于训练和评估大型多模态模型 (LMM) 的框架,属于 DeepMind 的 Flamingo 模型(一种能够处理和推理图像、视频和文本的等多模态内容的框架)的开源复制品。

        

 Announcing OpenFlamingo: An open-source framework for training vision-language models with in-context learning | LAION

LAION-AI  称 OpenFlamingo 的目标是开发一个可以处理各种视觉语言任务的多模态系统,最终目标是在处理视觉和文本输入方面与 GPT-4 的功能相匹配。

OpenFlamingo 的首个版本主要包含如下内容:

  • 一个用于训练 Flamingo 风格 LMM 的 Python 框架(基于 Lucidrains 的 flamingo 实现和 David Hansmair 的 flamingo-mini 存储库)。
  • 具有交叉图像和文本序列的大规模多模态数据集。
  • 视觉语言任务的上下文学习评估基准。
  • ​​ OpenFlamingo-9B 模型(基于 LLaMA )的第一个版本

OpenFlamingo-9B 模型在 LAION-AI 自研的多模态 C4 数据集上训练,LAION-AI 称即将发布该数据集的细节。

OpenFlamingo 的整体架构图如下,可以看出技术细节上很大程度上是跟着 DeepMind 的 Flamingo 模型走,Flamingo 模型在包含交叉文本和图像的大规模网络语料库上进行训练,OpenFlamingo 同样是使用交叉注意力层来融合预训练的视觉编码器和语言模型。

扫描二维码关注公众号,回复: 14642029 查看本文章

猜你喜欢

转载自blog.csdn.net/ejinxian/article/details/129867623