如何使用大型语言模型与任何 PDF 和图像文件聊天 — 使用代码 构建可以回答有关任何文件的问题的人工智能助手的完整指南

介绍

PDF 和图像文件中蕴藏着如此多有价值的信息。幸运的是,我们拥有强大的大脑,能够处理这些文件以查找特定信息,这实际上很棒。

但是,我们中有多少人内心深处不希望有一个工具可以回答有关给定文档的任何问题?

项目的一般工作流程

清楚地了解正在构建的系统的主要组件总是有好处的。那么让我们开始吧。

在这里插入图片描述
首先,用户提交要处理的文档,该文档可以是PDF或图像格式。
第二个模块用于检测文件的格式,以便应用相关内容提取功能。
然后使用该模块将文档的内容分成多个块Data Splitter。
Chunk Transformer这些块最终在存储到向量存储中之前使用 转换为嵌入。
在该过程结束时,用户的查询用于查找包含该查询答案的相关块,并将结果作为 JSON 返回给用户。

1. 检测文档类型

对于每个输入文档,根据其类型(无论是PDF、 还是image.

这可以通过辅助函数与内置 Python 模块中的函数detect_document_type相结合来实现。guess

def detect_document_type(document_path):
    
    guess_file = guess(document_path)
    file_type = ""
    image_types = ['jpg', 'jpeg', 'png', 'gif']
    
    if(guess_f

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132776248