不用多模态GPT4,HuggingFace+LangChain实现“看图说话”

目前最热门的“闭源”人工智能是OpenAI,称得上是如日中天(遥遥领先?这个词最近听得太多,总感觉像是讽刺,对于真正的王者来说),然而其很多功能却没那么容易体验到,如多模态,暂时就无法通过API调用。

那么要实现一个简单的“看图说话”,要如何做呢?可以分两步:

  1. 通过开源的模型,让开源模型识别图片的内容,生成一句话文本描述;
  2. 让大语言模型针对文本描述生成一个简短的小故事。

提到开源模型,那就不能不提Hugging Face:https://huggingface.co/

Hugging Face是一个专注于自然语言处理(NLP)的人工智能研究组织,一个生气勃勃的开源AI社区。他们以其开源库Transformers 而闻名,该库为各种任务(如文本分类、翻译、摘要等)提供了先进的 NLP模型和工具。

我们先去Hugging Face上找图片到文本的模型:
在这里插入图片描述
我们这次用”Salesforce/blip-image-captioning-large“这个模型根据图片生成一句文本描述。不过这个模型有点大(1.8G),如果只是简单测试,也可以找小一点的模型,不然光下载模型都要花比较长的时间。

这些模型统称pretrained model,就是预先训练好了,不再需要训练,下载下来就可以直接使用。

生成图片描述

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())  # read local .env file

from IPython.display import Image
from transformers import pipeline

pipe = pipeline("image-to-text",
                model="Salesforce/blip-image-captioning-large")

def

猜你喜欢

转载自blog.csdn.net/fireshort/article/details/134459321