So chatten Sie mit beliebigen PDF- und Bilddateien mithilfe großer Sprachmodelle – Eine vollständige Anleitung zur Verwendung von Code zum Erstellen eines KI-Assistenten, der Fragen zu jeder Datei beantworten kann

einführen

In PDF- und Bilddateien sind so viele wertvolle Informationen enthalten. Glücklicherweise verfügen wir über leistungsstarke Gehirne, die diese Dateien verarbeiten können, um bestimmte Informationen zu finden, was wirklich großartig ist.

Aber wie viele von uns wünschen sich im tiefsten Inneren nicht, dass es ein Tool gäbe, das jede Frage zu einem bestimmten Dokument beantworten könnte?

Allgemeiner Ablauf des Projekts

Es ist immer von Vorteil, ein klares Verständnis der Hauptkomponenten des Systems zu haben, das Sie aufbauen. Also lasst uns anfangen.

Fügen Sie hier eine Bildbeschreibung ein
Zunächst übermittelt der Benutzer ein zu verarbeitendes Dokument, das im PDF- oder Bildformat vorliegen kann.
Das zweite Modul wird verwendet, um das Format der Datei zu erkennen, um relevante Funktionen zur Inhaltsextraktion anzuwenden.
Der Inhalt des Dokuments wird dann mithilfe des Data Splitter-Moduls in Abschnitte aufgeteilt.
Chunk Transformer Diese Chunks werden letztendlich in Einbettungen umgewandelt, bevor sie im Vektorspeicher gespeichert werden.
Am Ende des Prozesses wird die Abfrage des Benutzers verwendet, um relevante Blöcke zu finden, die die Antwort auf die Abfrage enthalten, und die Ergebnisse werden als JSON an den Benutzer zurückgegeben.

1. Dokumenttyp erkennen

Für jedes Eingabedokument, basierend auf seinem Typ (ob PDF oder Bild).

Dies kann durch eine Hilfsfunktion in Kombination mit der Funktion discover_document_type im integrierten Python-Modul erreicht werden. erraten

def detect_document_type(document_path):
    
    guess_file = guess(document_path)
    file_type = ""
    image_types = ['jpg', 'jpeg', 'png', 'gif']
    
    if(guess_f

Ich denke du magst

Origin blog.csdn.net/iCloudEnd/article/details/132776248
Empfohlen
Rangfolge