AI一点通:使用Pinecone、Langchain和OpenAI嵌入构建强大的文本搜索系统

在当今数据驱动的世界中,企业和开发人员经常需要实现强大的文本搜索功能。传统的搜索算法在处理大量非结构化文本数据时可能无法提供最优结果。这就是Pinecone、Langchain和OpenAI服务发挥作用的地方。在本博客文章中,我们将探讨设置和利用这些工具来构建高准确性和高效率的文本搜索系统所需的步骤。

步骤1:设置索引

首先,我们需要在Pinecone中设置一个索引。安装所需的Python包,包括pinecone-client、openai和tiktoken。然后继续执行以下代码片段:

import pinecone

pinecone.init(api_key="YOUR_API_KEY", environment="YOUR_ENVIRONMENT")

pinecone.create_index("langchain-demo", dimension=1536, metric="cosine")

dimension参数设置为1536,因为我们将使用“text-embedding-ada-002”OpenAI模型,该模型的输出维度为1536。如果您需要删除索引,请使用pinecone.delete_index("langchain-demo")命令。

步骤2:导入库并设置密钥

接下来,我们需要导入所需的库并设置必要的密钥。导入以下库:

import os
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Pinecone
from langchain.document_loaders import TextLoader

将PINECONE_API_KEY和PINECONE_ENV变量设置为您的Pinecone API密钥和环境。此外,将OPENAI_API_KEY环境变量设置为您的OpenAI API密钥。

os.environ["OPENAI_API_KEY"] = 'your openai api key'

步骤3:准备数据和嵌入层

现在,加载文本数据(这里我们使用一个示例)并使用OpenAI服务准备嵌入层。使用Langchain的TextLoader类加载文本数据:

loader = TextLoader("state_of_the_union.txt")
documents = loader.load()

然后,使用CharacterTextSplitter类将文档拆分为较小的块:

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

最后,初始化OpenAI嵌入:

embeddings = OpenAIEmbeddings()

步骤4:切分文档并索引嵌入向量

在这一步中,我们将文档分割为较小的部分,并使用Pinecone索引OpenAI嵌入向量。使用以下代码片段:

import pinecone

pinecone.init(
    api_key=PINECONE_API_KEY,
    environment=PINECONE_ENV,
)

index_name = "langchain-demo"

docsearch = Pinecone.from_documents(docs, embeddings, index_name=index_name)

query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(query)

print(docs[0].page_content)

步骤5:向索引中添加更多文本

要将更多文本添加到现有索引或从空索引开始,使用以下代码片段:

index = pinecone.Index("langchain-demo")
vectorstore = Pinecone(index, embeddings.embed_query, "text")

vectorstore.add_texts(["More text to add as an example!"])

如果您需要向索引添加元数据,可以使用包含文本的字典列表进行传递:

vectorstore.add_texts(["More text to add as an example!"], [{'name':'example'}])

结论:

通过按照这些步骤,您可以使用Pinecone、Langchain和OpenAI服务构建强大的文本搜索系统。这些工具允许您利用先进的文本嵌入和索引能力,实现高准确性和高效率的搜索结果。无论您需要搜索大量文档还是实现推荐系统,这些工具的组合都可以显著提升应用程序的性能和用户体验。

阅读

英文原文

AI好书推荐

AI日新月异,但是万丈高楼拔地起,离不开良好的基础。您是否有兴趣了解人工智能的原理和实践? 不要再观望! 我们关于 AI 原则和实践的书是任何想要深入了解 AI 世界的人的完美资源。 由该领域的领先专家撰写,这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。 无论您是初学者还是经验丰富的 AI 从业者,本书都能满足您的需求。 那为什么还要等呢?

人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典

北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理

猜你喜欢

转载自blog.csdn.net/robot_learner/article/details/131803044