Recherche zur Forschungs- und Entwicklungsrichtung und zu spezifischen Plänen des vertikalen Großmodells

Recherche zur Forschungs- und Entwicklungsrichtung und zu spezifischen Plänen des vertikalen Großmodells

1. Vorläufige Zusammenfassung der Forschungs- und Entwicklungsrichtungsforschung

Die vorläufige Auswahl des F&E-Technologiestapels für vertikale Großmodelle sieht wie folgt aus:

Haupttrainingsstrategie: allgemeines großes Modell + Vektorwissensdatenbank : Domänenwissensbasis plus allgemeines großes Modell. Bei Problemen mit relativ wenig Wissen im allgemeinen großen Modell werden Vektordatenbanken und andere Methoden verwendet, um relevante Inhalte in der domänenbasierten Wissensdatenbank zu finden zum Problem. Nutzen Sie dann die leistungsstarken Zusammenfassungs- und Qualitätssicherungsfunktionen des allgemeinen großen Modells, um Antworten zu generieren und die Entwicklung dieses vertikalen großen Modells abzuschließen.

Die wichtigsten Referenzmaterialien zur Festlegung der Richtung:
1. CLiB-Liste zur Leistungsbewertung chinesischer Großmodelle (kontinuierlich aktualisiert)
2. Überblick über gängige Vektordatenbanken
3. Ein Artikel zum Verständnis: Erstellen einer vertikalen Domänen-Großmodellanwendung ChatGPT
4. Eine kurze Diskussion von großen vertikalen Domänenmodellen
5, Einige Gedanken zu großen Modellen in vertikalen Feldern und Zusammenfassung von Open-Source-Modellen
6. Wie kann die lokale Wissensbasis mit dem großen Modell verbunden werden?
Referenz-Tutorial zur Modellbereitstellung:
1. Super detailliertes Llama2-Bereitstellungs-Tutorial – persönlicher GPT-Erfahrungsleitfaden!
2. LLAMA2 kann mit einem Klick ausgeführt werden und das Integrationspaket ist für Windows 10+ Consumer-Grafikkarten verfügbar (Meta Large Language Model)

2. F&E-Hintergrund und Strategieauswahl großer vertikaler Modelle

1. F&E-Hintergrund großer vertikaler Modelle

Derzeit hoffen viele Unternehmen, die Fähigkeiten großer Modelle innerhalb des Unternehmens nutzen zu können. Viele allgemeine große Modelle sind jedoch nur vorab trainierte Modelle, und das Wissen, das sie beantworten können, stammt hauptsächlich aus der im Internet veröffentlichten allgemeinen Wissensdatenbank. Für einige Vertikale Bereiche und interne Unternehmen. Fragen und Antworten in privaten Wissensdatenbanken liefern oft Antworten, die beliebt und universell sind und nicht personalisiert . Manchmal erhalten Benutzer keine zufriedenstellenden Antworten.

2. Auswahl von Forschungs- und Entwicklungsstrategien für große vertikale Modelle

Im Folgenden finden Sie eine kurze Einführung in die fünf Trainingsstrategien für große Modelle in vertikalen Branchen:

(1) Umschulung:

Unter Verwendung einer Mischung aus allgemeinen Daten und Domänendaten wurde ein großes Modell von Grund auf (von Grund auf) trainiert. Der typischste Vertreter ist BloombergGPT.

(2) Sekundäre Vorausbildung:

Die Fortsetzung der Vorschulung (weitere Vorschulung, sekundäre Vorschulung) erfolgt auf der Grundlage eines allgemeinen Modells. Beispielsweise führt LawGPT eine sekundäre Vorschulung durch. Viele Teams haben diese Lösung ausprobiert, aber die allgemeine Reaktion war mittelmäßig (nicht so direkt wie bei SFT).

(3) Feinabstimmung des grundlegenden großen Modells:

Die Durchführung von Instruction Tuning (SFT) auf der Grundlage eines allgemeinen Modells ist derzeit auch die gängigste Praxis in der Open-Source-Community. Es gibt viele Werke wie Huatuo, ChatLaw usw. Der Vorteil dieses Ansatzes besteht darin, dass Sie schnell gute Ergebnisse sehen können, es Ihnen jedoch schwerfällt, die Obergrenze zu erhöhen.

(4) Allgemeine Wissensdatenbank für große Modelle + Vektoren:

Die Domänenwissensbasis wird mit dem allgemeinen großen Modell kombiniert. Bei Problemen mit relativ wenig Wissen im allgemeinen großen Modell werden die Vektordatenbank und andere Methoden verwendet, um relevante Inhalte in der Domänenwissensbasis basierend auf dem Problem zu finden und dann Es werden leistungsstarke Zusammenfassungs- und Qualitätssicherungsfunktionen des allgemeinen großen Modells genutzt. Antwort generieren.

(5) Im Kontext ähnelt Lernen der Feinabstimmung:

Verwenden Sie direkt die Methode des kontextbezogenen Lernens, um durch die Erstellung domänenbezogener Eingabeaufforderungen direkt Antworten aus dem allgemeinen großen Modell zu generieren. Da die Branche das Kontextfenster immer größer macht, kann immer mehr Domänenwissen in Eingabeaufforderungen einfließen, und die direkte Verwendung allgemeiner großer Modelle kann auch gute Antworten auf Domänenprobleme liefern.

Die oben genannten fünf Strategien weisen auch einen unterschiedlichen Verbrauch von Hardware-Ressourcen + Daten auf : Für eine Neuschulung des Modells wie bei [Neuschulung] sind Hunderte von Karten erforderlich. Sie können auch Hunderte von Daten verwenden, um SFT wie [Grundlegende Feinabstimmung großer Modelle] durchzuführen, vielleicht reichen ein paar Karten aus.
Umfassende Analyse der aktuellen Entwicklungsperspektiven der LLM-Technologie und des spezifischen Ressourcenverbrauchs. Derzeit basieren viele technische Lösungen für vertikale Großmodelle hauptsächlich auf [Grundlegende Feinabstimmung großer Modelle] + [Vektor-Wissensdatenbank].

3. Implementierungsprozess eines großen vertikalen Modells

1. Gesamtprozess

1. Lokalisierte Bereitstellung großer Modelle : Die Wirkung großer vertikaler Modelle hängt eng mit der Leistung der Basis zusammen. Der erste Schritt bei der Entwicklung großer vertikaler Modelle besteht darin, eine Open-Source-Lösung für große Modelle zu ermitteln.
Fügen Sie hier eine Bildbeschreibung ein
In Bezug auf die umfassenden Fähigkeitsrankings wählen wir hauptsächlich llama2 als Basis für unsere Forschung und Entwicklung.
Github-Sprungadresse: https://github.com/facebookresearch/llama-Bereitstellungs-Tutorial
: Super detailliertes Llama2-Bereitstellungs-Tutorial – persönlicher GPT-Erfahrungsleitfaden!
2. Aufbau einer lokalen Wissensdatenbank in der vertikalen Industrie : Sammeln und organisieren Sie vertikales branchenbezogenes Domänenwissen/Unternehmenswissen/Berufswissen, führen Sie die Einbettungsvektorisierungsverarbeitung von Wissensdatenbankdokumenten in vertikalen Branchenfeldern durch und speichern Sie die verarbeiteten semantischen Vektoren in Vektoren In der Vektordatenbank Vector Database (dieser Schritt umfasst auch die erste Konvertierung unstrukturierter Daten in Textdaten und die Durchführung einer Splitter-Segmentierung für Langtext).

3. Vektorisierung von Benutzerfragen : Vektorisieren und Einbetten von Benutzerfragen in die Vektorsuche

4. Erhalten Sie die TopN übereinstimmenden Wissensteile : Fragen Sie die Vektorsuche der Benutzerfrage ab und gleichen Sie sie mit der Vektordatenbank ab und geben Sie die TopN Wissenstexte mit der höchsten Ähnlichkeit zurück.
5. Erstellen Sie eine Eingabeaufforderung und rufen Sie die OpenAI-API auf : Senden Sie den übereinstimmenden Text zusammen mit dem Fragekontext des Benutzers. Geben Sie es an LLM weiter und generieren Sie die endgültige Antwort basierend auf der Eingabeaufforderung

Fügen Sie hier eine Bildbeschreibung ein

Guess you like

Origin blog.csdn.net/qq_51116518/article/details/132266586