MiniGPT-4 发布

企业开发 2023-08-12 18:54:03 阅读次数: 0

引言

相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手写文本生成网站并且还能够识别出图片中的幽默元素。这些优秀的能力在以前的视觉语言模型中很难实现。对于GPT-4惊人的多模态生成能力,其主要原因是使用了更先进的大型语言模型 (LLM)。
地址: https://minigpt-4.github.io/

背景介绍

近年来,大型语言模型 (LLM) 经历了快速发展。凭借出色的语言理解能力,这些模型可以通过零样本学习的方式执行各种复杂的语言任务。值得注意的是,最近推出的 GPT-4,它是一种大型多模态模型,并向我们展示了许多令人印象深刻的功能。
为了证实以上猜想,作者提出了一个名为 MiniGPT-4 的新模型:它使用先进的大型语言模型 (LLM)–Vicuna(其中 Vicuna 是基于 LLaMA 构建的)进行调优,在文本语言方面可以达到 ChatGPT 能力的90%。在视觉感知方面,作者采用了与BLIP-2相同的预训练视觉组件,其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。

MiniGPT-4

MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。具体来说,在文本方面,作者利用 Vicuna 作为语言解码器,在视觉感知方面,使用了与BLIP-2相同的视觉编码器,并且语言和视觉模型都是开源的。
在MiniGPT-4训练阶段,作者提出了一种两阶段训练方法。在第一阶段,因为在大量对齐的图像-文本对上对进行模型预训练,以获取视觉语言知识。在第二阶段,使用较小但高质量的图像文本数据集对预训练模型进行微调,以增强模型的生成可靠性和可用性。

实验结果

实验结果,发现 MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能。例如,MiniGPT-4 可以生成复杂的图像描述,根据手写文本指令创建网站,以及解释不寻常的视觉现象。
例如,MiniGPT-4可以通过观察令人垂涎欲滴的食物照片、工艺故事或受图像启发的说唱歌曲直接生成详细的食谱,为图像中的产品撰写广告,区分照片中显示的问题并提供相应的解决方案,并检索关于人的丰富事实,电影或直接来自图像的艺术,以及其他功能。

猜你喜欢

转载自blog.csdn.net/community_717/article/details/130230948

MiniGPT-4 发布

MiniGPT-4，开源了！

本地部署 MiniGPT-4

多模态：MiniGPT-4

MiniGPT-4部署过程

MiniGPT-4部署实战

MiniGPT-4, GPT4开源平替项目

基于MiniGPT-4的支持图文的双语开源对话模型

【MiniGPT-4】手把手教部署

MiniGPT-4本地部署的实战方案

MiniGPT-4：GIS领域AI图像理解测评

GPT-4平替版：MiniGPT-4，支持图像理解和对话，现已开源

MiniGPT-4(大型语言模型增强视觉语言理解)介绍、体验、部署教程

可识别图片的AI工具MiniGPT-4，开源且免费，实现GPT4没有的功能

基于LLMs的多模态大模型（MiniGPT-4，LLaVA，mPLUG-Owl，InstuctBLIP，X-LLM）

哪个视觉语言模型更优？InstructBLIP、MiniGPT-4？全面评估基准LVLM-eHub告诉你

仅用200条样本，训出超越MiniGPT-4的模型！这款数据选择器值得拥有

GPT-4开源平替miniGPT-4来了，仅需23G显存单机可run，附论文、项目代码地址

2023年4月中旬值得关注的几个AI模型：Dollly2、MiniGPT-4、LLaVA、DINOv2

Ai前沿技术汇总[1]：Quivr非结构化信息搜索、Drag Your GAN AI修图、MiniGPT-4、Falcon-40B、localGPT

MiniGPT-4开源了，史无前例的AI图片内容分析，甚至能用于逻辑验证码推理识别

MiniGPT4，开源了。

MiniGPT4，开源了

最新多模态模型MiniGPT-4 开源 | 提前感受GPT-4的识图能力 | 基于Vicuna构建的LLM | 能够生成图片描述 | 根据手写文本指令构建网站

发布4

Minigpt4实战搭建

【实战】minigpt4的体验和微调

第4章发布

4.Jetty发布

4.工程发布

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)