不用多模态GPT4，HuggingFace+LangChain实现“看图说话” - 代码天地

不用多模态GPT4，HuggingFace+LangChain实现“看图说话”

业界资讯 2023-12-17 05:00:18 阅读次数: 0

目前最热门的“闭源”人工智能是OpenAI，称得上是如日中天（遥遥领先？这个词最近听得太多，总感觉像是讽刺，对于真正的王者来说），然而其很多功能却没那么容易体验到，如多模态，暂时就无法通过API调用。

那么要实现一个简单的“看图说话”，要如何做呢？可以分两步：

通过开源的模型，让开源模型识别图片的内容，生成一句话文本描述；
让大语言模型针对文本描述生成一个简短的小故事。

提到开源模型，那就不能不提Hugging Face：https://huggingface.co/

Hugging Face是一个专注于自然语言处理(NLP)的人工智能研究组织，一个生气勃勃的开源AI社区。他们以其开源库Transformers 而闻名，该库为各种任务（如文本分类、翻译、摘要等)提供了先进的 NLP模型和工具。

我们先去Hugging Face上找图片到文本的模型：
在这里插入图片描述
我们这次用”Salesforce/blip-image-captioning-large“这个模型根据图片生成一句文本描述。不过这个模型有点大（1.8G），如果只是简单测试，也可以找小一点的模型，不然光下载模型都要花比较长的时间。

这些模型统称pretrained model，就是预先训练好了，不再需要训练，下载下来就可以直接使用。

生成图片描述

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())  # read local .env file

from IPython.display import Image
from transformers import pipeline

pipe = pipeline("image-to-text",
                model="Salesforce/blip-image-captioning-large")

def

猜你喜欢

转载自blog.csdn.net/fireshort/article/details/134459321

不用多模态GPT4，HuggingFace+LangChain实现“看图说话”

GPT4来了，多模态模型上线

GPT4多模态开源平替项目

【GPT4】微软 GPT-4 测试报告（2）多模态与跨学科的组合

看图说话实战

ChatGPT全面升级，GPT4支持多模态数据。

AIGC下的CV多模态原理解析：从CLIP/BLIP到stable diffusion/Midjourney、GPT4

springboot看图说话（图解springboot）

GPT4的应用

实战 | 一行命令实现看图说话（Google的im2txt模型）

【消息】GPT4有多强？

GPT4论文翻译 by GPT4 and Human

【GPT4】GPT4 官方报告解读

看图说话：如何高效地工作、学习及阅读？

看图说话——CNN和LSTM的联合应用

对Image caption的一些理解(看图说话)

【CV-project】看图说话(Image Captioning)

豌豆淘谈社群裂变——看图说话

【一看】看图说话之瓶颈

超详细！“看图说话”（Image Caption）项目实战

GPT3和GPT4

重磅突发！OpenAI正式推出多模态GPT-4

OpenFlamingo 多模态是GPT-4 开源替代品

【GPT4】微软 GPT-4 测试报告（4）GPT4 的数学能力

PyQt6: 多网卡适配器的选择与显示（GPT4帮写）

【GPT4】微软 GPT-4 测试报告（3）GPT4 的编程能力

GPT4国内镜像站

Transformers回顾：从BERT到GPT4

gpt4和chatGPT的区别

可以无限使用的GPT4

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)