OpenAI-Entwicklungsreihe (7): LLM Prompt Engineering (Prompt) und Chain of Thought (CoT)

Der Volltext umfasst insgesamt mehr als 6.000 Wörter und die voraussichtliche Lesezeit beträgt etwa 13 bis 20 Minuten | Voller Trockenware, es wird empfohlen, sie zu sammeln!

Das Ziel dieses Artikels: die entstehenden Fähigkeiten und Argumentationsfähigkeiten des großen Modells (LLM) zu verstehen, mit der Einführungs-Prompting-Methode des Prompting-Projekts vertraut zu sein und einen industriellen Prompting-Prozess zu definieren (wichtig)

Bild-20230815154543241

1. Emergente Fähigkeit des großen Sprachmodells (LLM)

Bevor GPT explodierte, herrschte immer Konsens darüber, dass die Fähigkeit des Modells bei nachgelagerten Aufgaben umso stärker ist, je größer das Modell ist. Das ursprüngliche Trainingsziel von LLM besteht darin, natürlichen und kohärenten Text zu generieren . Da eine große Textmenge für das Vortraining akzeptiert wird, ist es nur die native Fähigkeit des Modells, Text gemäß den Eingabeaufforderungen zu vervollständigen und zu erstellen .

In der Kategorie der nativen Fähigkeiten verfügt das LLM-Modell über die Fähigkeit, Texte zu erstellen, beispielsweise das Schreiben von Romanen, Nachrichten und Gedichten. Für diese Aufgaben wurde zunächst das GPT-3-Modell verwendet. Die bloße Fähigkeit, Texte zu erstellen, reicht jedoch nicht aus, damit das große Sprachmodell eine neue Runde der technologischen Revolution auslöst. Der wahre Grund für die Auslösung dieser Runde der technologischen Revolution ist: die aufkommende Fähigkeit des großen Sprachmodells . Der Grund, warum die Menschen hinsichtlich der Technologie großer Sprachmodelle wirklich optimistisch sind, liegt darin, dass das Modell „Emergenzfähigkeit“ zeigt, wenn das Modell groß genug ist (die Parameter sind groß genug und die Trainingsdaten sind groß genug) .

Mit der kontinuierlichen Einführung neuer Modelle haben groß angelegte Sprachmodelle viele Fähigkeiten gezeigt, die über die Erwartungen der Forscher hinausgehen. Für diese unvorhersehbaren Fähigkeiten, die nicht im kleinen Modell, aber im großen Modell erscheinen, werden sie als aufstrebende Fähigkeiten bezeichnet . Die folgenden Definitionen werden in der Forschung von Jason Wei et al. gegeben:

In dem Artikel „Emergent Abilities of Large Language Models“ heißt es: Eine Fähigkeit ist „emergent“, wenn sie in kleineren Modellen nicht, aber in größeren Modellen vorhanden ist .

Mit anderen Worten: Die sogenannten Emergent Capabilities (EmergentCapabilities) beziehen sich auf die Fähigkeit des Modells, diese Aufgaben unter angemessenen Aufforderungen ohne Training für bestimmte Aufgaben zu bewältigen. Manchmal können Emergent Capabilities auch als Modellpotenzial verstanden werden, dessen technisches Potenzial enorm ist Grundursache für die Explosion von LLM.

Bei großen Sprachmodellen (z. B. dem Abschlussmodell) erhalten sie kein Dialogdatentraining, sodass die Dialogfähigkeit tatsächlich eine Manifestation ihrer Emergenzfähigkeit ist. Dazu gehören häufig verwendete Übersetzungen, Programmierung, Argumentation, semantisches Verständnis usw die Entstehung großer Sprachmodelle. Fähigkeit.

2. Wie man die Emergenzfähigkeit großer Modelle (LLM) stimuliert

Es gibt zwei Ansätze, um die Emergenzleistung großer Sprachmodelle zu motivieren: Prompt Engineering und Fine-Tuning .

2.1 Prompt Engineering (Prompt Engineering)

Hinweis-Engineering bezieht sich auf die Motivation der Emergenzfähigkeit eines Modells durch das Entwerfen spezieller Hinweise . Diese Methode erfordert kein zusätzliches Training des Modells, sondern muss das Modell lediglich durch das Entwerfen geeigneter Hinweise anleiten, um eine bestimmte Aufgabe auszuführen. Hint Engineering wird häufig verwendet, um neue Probleme schnell zu lösen, ohne die Modellparameter zu aktualisieren .

Führen Sie das Modell durch die Eingabe sinnvollerer Eingabeaufforderungen dazu, effektivere Ergebnisse auszugeben. Dies ist im Wesentlichen eine Methode, um die Fähigkeiten des Modells zu steuern und zu stimulieren

Dieser Ansatz wurde erstmals im GPT3-Artikel vorgeschlagen: Auf einen Hinweis hin (z. B. einen Befehl in natürlicher Sprache) kann das Modell eine Antwort geben, ohne die Parameter zu aktualisieren . Auf dieser Grundlage schlugen Brown et al. in derselben Arbeit eine Few-Shot-Eingabeaufforderung vor, fügten Eingabe- und Ausgabebeispiele zur Eingabeaufforderung hinzu und ließen dann das Modell den Argumentationsprozess abschließen. Dieser Prozess ist genau derselbe wie die Eingabe und Ausgabe, die von der nachgelagerten Aufgabe angegeben wird, und es gibt keinen anderen Zwischenprozess beim Abschließen der Aufgabe. Die folgende Abbildung zeigt die Testergebnisse verschiedener Aufgaben unter wenigen Aufnahmen unter verschiedenen großen Modellen:

Bild-20230718145029201

Unter ihnen ist die Abszisse die Skala des Modelltrainings vor dem Training (FLOPs: Gleitkommaoperationen, Gleitkommaoperationen). Die Trainingsskala eines Modells hängt nicht nur mit Parametern zusammen, sondern auch mit der Datenmenge und der Anzahl Trainingsrunden. Daher werden FLOPs verwendet, um eine Modellgröße umfassend darzustellen, und die vertikale Achse ist die Leistung nachgelagerter Aufgaben. Es kann festgestellt werden, dass, wenn die Modellgröße innerhalb eines bestimmten Bereichs liegt (die meisten FLOPs liegen in 1 0 22 10^{22})1 022 )Die Fähigkeit des Modells nimmt mit zunehmender Modellgröße nicht zu. Wenn das Modell einen kritischen Wert überschreitet, verbessert sich der Effekt sofort, und diese Verbesserung hat keinen offensichtlichen Zusammenhang mit der Struktur des Modells.

Derzeit gibt es immer mehr Möglichkeiten, Eingabeaufforderungen zu großen Modellen hinzuzufügen. Der Haupttrend besteht darin, dass die neue Methode es dem Modell im Vergleich zum normalen Eingabeaufforderungsmodus mit wenigen Schüssen (nur Eingabe und Ausgabe) ermöglicht, die Aufgabe abzuschließen . Es gibt weitere Zwischenprozesse , wie zum Beispiel einige typische Methoden: Gedankenkette, Notizblock usw. Durch die Verfeinerung des Argumentationsprozesses des Modells wird der Effekt der nachgelagerten Aufgaben des Modells verbessert. Die folgende Abbildung zeigt jeden Effekt eine Methode zur Verbesserung von Hinweisen zum Modell:

Bild-20230718150013397

In der obigen Abbildung werden vier spezifische Aufgabentypen verwendet, nämlich mathematische Probleme, Befehlswiederherstellung, numerische Berechnung und Modellkalibrierung. Die horizontale Achse ist die Trainingsskala und die vertikale Achse ist die Bewertungsmethode nachgelagerter Aufgaben. Ähnlich wie in der obigen Abbildung nimmt ab einem bestimmten Maßstab die Fähigkeit des Modells plötzlich mit dem Maßstab des Modells zu; das Phänomen unterhalb dieses Schwellenwerts ist nicht so offensichtlich. Unterschiedliche Aufgaben nutzen unterschiedliche Anregungsmethoden und auch die von den Modellen dargestellten Fähigkeiten sind unterschiedlich. Dies ist ein Prozess kontinuierlicher Forschung.

Die Vor- und Nachteile für die Motivation der neuen Fähigkeiten von Modellen durch Hint Engineering liegen auf der Hand:

  • Vorteile: Es handelt sich um eine leichtere Bootstrap-Methode mit geringeren Hürden beim Ausprobieren und Implementieren .
  • Vor- und Nachteile: Durch den Kontext des Modelldialogs ist die Anzahl der Eingabeaufforderungen begrenzt .

2.2 Feinabstimmung

Feinabstimmung bezieht sich auf zusätzliches Training für bestimmte Aufgaben auf der Grundlage vorab trainierter groß angelegter Sprachmodelle. Dieser Ansatz erfordert ein zusätzliches Training des Modells, kann jedoch die Leistung des Modells bei bestimmten Aufgaben verbessern. Feinabstimmung wird häufig verwendet, um Probleme zu lösen, die durch Hint Engineering nicht gelöst werden können .

Mit anderen Worten: Es modifiziert einige Parameter des Modells durch die Eingabe zusätzlicher Stichproben und verbessert dadurch bestimmte Fähigkeiten des Modells . Im Wesentlichen handelt es sich auch um eine Methode zur Anleitung und Förderung der Modellfähigkeiten

Die Feinabstimmung ist etwas, das später viel Zeit in Anspruch nehmen wird, deshalb werde ich hier nicht auf Details eingehen

Feinabstimmungsmethode im Vergleich zum Hint Engineering:

  • Vorteile: Dadurch kann das Modell einen bestimmten Fähigkeitsaspekt dauerhaft stärken .

  • Vor- und Nachteile: Der Modellteil muss neu trainiert werden, die Trainingskosten sind hoch, die Daten müssen sorgfältig vorbereitet werden und die technische Implementierung ist schwieriger .

Für diese beiden Methoden gibt es jeweils eigene Anwendungsszenarien, und die durch ** Prompt Engineering gelösten Probleme sind oft nicht fein abgestimmt (z. B. Argumentationsprobleme in kleinen semantischen Räumen). Die Feinabstimmung wird normalerweise verwendet, um Probleme zu lösen, die nicht gelöst werden können gelöst durch Feature Engineering. . **Sie werden häufiger als vor- und nachgelagerte technische Beziehung verwendet. Wenn Sie beispielsweise die Frage und Antwort der lokalen Wissensdatenbank anpassen möchten, ist es am besten, das Hinweisprojekt zum Markieren der Daten zu verwenden und diese dann zu verwenden markierte Daten zur Feinabstimmung.

Obwohl derzeit Hinweise zur Entwicklung und Feinabstimmung vorgeschlagen werden, um die Emergenzfähigkeit großer Modelle zu stimulieren, ist die Emergenzfähigkeit des Modells im Vergleich zur nativen Fähigkeit des Modells sehr instabil, und es sollten Techniken zur Hinweistechnik und Feinabstimmung verwendet werden Führen und stimulieren Die entstehende Fähigkeit des Modells ist sehr schwierig.

3. Fordern Sie das Konzept des Ingenieurwesens auf

3.1 Missverständnisse von Prompt Engineering

Viele Leute denken, dass das Prompt-Projekt so aussieht :

  • Fügen Sie ein einfaches Eingabeaufforderungssuffix hinzu: „Bitte bitten Sie das Modell, Schritt für Schritt zu denken und Schritt für Schritt zu antworten ...“.
  • Stellt eine Standardantwortvorlage bereit: „Bitte antworten Sie als Beispiel …“.
  • Legen Sie die Rollenidentität fest: „Bitte antworten Sie als XXX…“.

Es gibt fast keinen technischen Inhalt , und es hängt hauptsächlich davon ab, sich eine große Anzahl von Eingabeaufforderungswortvorlagen oder die sogenannten „Zehntausende von Eingabeaufforderungsvorlagen“ auf Online-Navigationsseiten zu merken, die im Grunde jeder beherrschen kann.

In praktischen Anwendungen hat effizientes Prompt Engineering jedoch Folgendes zur Folge:

  • Modelldenken effektiv leiten.
  • Verlassen Sie sich auf menschliche Erfahrung und technologische Innovation, um komplexe serielle oder verschachtelte Aufforderungsprozesse zu konstruieren.

Die perfekte Kombination aus menschlicher Erfahrung und komplexen Berechnungen kann das Potenzial des Modells zur Lösung vieler Herausforderungen in der Branche wirklich steigern. Dies ist ein sehr wertvolles technisches Gebiet .

Ein Prompt-Engineering-Prozess in Industriequalität sieht beispielsweise wie folgt aus:

20

3.2 Sprachprompting-Projekt (LanguagePrompting)

Bei Eingabeaufforderungsprojekten kann es weiter in Spracheingabeprojekte (Language Prompting) und Code-Eingabeaufforderungsprojekte (Code Prompting) unterteilt werden.

Language Prompt Engineering kann tatsächlich als der Prozess verstanden werden, bei dem ChatGPT verwendet wird, um komplexe Fragen und Absichten in natürlicher Sprache auszudrücken und mehrere Dialogrunden durchzuführen .

Es ist benutzerfreundlich und für technisch nicht versierte Personen geeignet, hat aber auch Nachteile. Beispielsweise kann Mehrdeutigkeit in der natürlichen Sprache zu einem falschen Verständnis des Modells oder zu irreführenden Antworten führen; es können grammatikalische Fehler oder unregelmäßige Wörter vorliegen, die es schwierig machen Modell richtig verstehen Problem: Die Interaktionsmethode kann schwierig sein, die Absicht und den Argumentationsprozess des Benutzers genau zu verstehen, und die Interpretierbarkeit ist schlecht. Diese Probleme sind alle vorhanden, daher sollte ein ausgezeichnetes Sprachaufforderungsprojekt die folgenden Grundprinzipien haben :

  1. Klare und eindeutige Fragenbeschreibung: Geben Sie eine klare und eindeutige Fragenbeschreibung an, damit das Modell die Absicht der Frage genau verstehen und eine genaue Antwort geben kann. Vermeiden Sie vage, mehrdeutige oder mehrdeutige Problembeschreibungen,

Beispiel: Der Zweck besteht darin, dass die Ausgabe eine durch Kommas getrennte Liste sein soll. Bitten Sie darum, eine durch Kommas getrennte Liste zurückzugeben.

Sofortige Idee: Wenn Sie möchten, dass es „Ich weiß nicht“ sagt, wenn es die Antwort nicht kennt, sagen Sie ihm: „Wenn Sie die Antwort nicht wissen, sagen Sie „Ich weiß nicht“.“

  1. Stellen Sie die erforderlichen Kontextinformationen bereit: Stellen Sie von Fall zu Fall geeignete Kontextinformationen bereit, um dem Modell zu helfen, das Problem besser zu verstehen. Kontextinformationen können relevanter Hintergrund, frühere Erwähnungen oder andere relevante Details sein.

  2. Unterteilen Sie komplexe Aufgaben in einfachere Teilaufgaben und stellen Sie wichtige Informationen bereit: Wenn die Frage komplex ist oder eine spezifische Antwort erfordert, können komplexe Aufgaben in einfachere Teilaufgaben unterteilt werden und Schritt für Schritt wichtige Informationen bereitstellen, die dem Modell helfen, Probleme besser zu verstehen und zu lösen.

  3. Vermeiden Sie redundante oder redundante Informationen: Vermeiden Sie die Bereitstellung redundanter oder unnötiger Informationen, um das Verständnis und die Antwort des Modells nicht zu beeinträchtigen. Halten Sie die Fragen prägnant und geben Sie wichtige, für die Frage relevante Informationen an

  4. Überprüfung und Befragung von Antworten: Überprüfen und hinterfragen Sie die vom Modell gegebenen Antworten, um die Richtigkeit und Rationalität der Antworten sicherzustellen. Geben Sie bei Bedarf Feedback oder zusätzliche Erläuterungen, um die Antworten des Modells weiter zu steuern.

  5. Probieren Sie verschiedene Ausdrücke aus: Wenn das Modell eine bestimmte Frage nicht genau beantworten kann, versuchen Sie, Fragen mit anderen Ausdrücken oder Blickwinkeln zu stellen, um mehr Hinweise zu geben, die dem Modell helfen, die richtige Antwort zu verstehen und zu geben.

  6. Generieren Sie mehrere Ausgaben und verwenden Sie dann das Modell, um die beste auszuwählen

3.3 Code-Eingabeaufforderung

Code-Hinweis-Engineering bezieht sich auf die Stimulierung der Emergenzfähigkeit von Modellen durch das Entwerfen spezieller Code-Hinweise . Diese Methode erfordert kein zusätzliches Training des Modells, sondern muss das Modell lediglich durch das Entwerfen geeigneter Code-Hinweise anleiten, um bestimmte Aufgaben auszuführen. Code-Hinweis-Engineering wird normalerweise verwendet, um Probleme zu lösen, die durch Sprach-Hinweis-Engineering nicht gelöst werden können, und das ist auch der Fall Bestandteil der weiteren Modellentwicklung. Oberste Priorität. Es wird später mehr Platz geben, um es zu erklären, daher werde ich es hier nicht im Detail erläutern.

3.4 Klassisches Wenig-Schuss

Der einfachste Weg, das Projekt aufzufordern, besteht darin, einige ähnliche Fragen und die Antworten auf die Fragen einzugeben, das Modell daraus lernen zu lassen und am Ende derselben Aufforderung neue Fragen zu stellen, um die Argumentationsfähigkeit des Modells zu verbessern. Diese Methode wird auch als One-Shot- oder Few-Shot-Prompting-Methode bezeichnet .

One-Shot und Few-Shot wurden erstmals vom OpenAI-Forschungsteam in dem Artikel „Language Models are Few-Shot Learners“ vorgeschlagen . Dieser Artikel ist auch der Urheber der Hint-Engineering-Methode. Er stellt nicht nur die beiden Kernmethoden des Hinweises vor Ingenieurwesen, sondern beschreiben Sie auch im Detail die spezifischen Gründe dafür.

In diesem Artikel wird ein solches Phänomen beschrieben: Das OpenAI-Forschungsteam vergrößerte das GTP3-Sprachmodell mit 175b-Parametern und maß dann seine Wenig-Schuss-Fähigkeit an diesem Modell, ohne den Gradienten zu aktualisieren oder eine Feinabstimmung durchzuführen. Rein ist der Test, und das Ergebnis ist ein plötzlicher Sprung. Die folgenden drei Diagramme wurden in einem Durchgang analysiert:

2

Die Schlussfolgerung des Papiers besteht aus zwei Punkten:

  • Bei Zero-Shot, One-Shot und Wenig-Shot gilt: Je größer der Maßstab, desto besser der Effekt
  • Solange die Parameter für wenige Schüsse nicht schlechter als fein abgestimmt sind

Wenn Ihnen das Prinzip des Bohrens gefällt, können Sie den Artikel selbst lesen, er ist sehr spannend.

Was die spezifische Anwendung betrifft, ist die Few-Shot-Eingabeaufforderungsmethode nicht kompliziert, sie erfordert lediglich die Eingabe einiger ähnlicher Fragen + Antworten als Teil der Eingabeaufforderung .

  • **Schritt 1: Zero-Shot-Hinweismethode**

Zero-Shot kann so verstanden werden: Geben Sie dem großen Modell keine Aufforderungen, stellen Sie direkt Fragen und lassen Sie das große Modell seine eigenen Entscheidungen treffen . wie:

Eingabeaufforderung 1 :

Ich habe Ihnen eine Bewertung von TB geschickt. Bitte helfen Sie mir herauszufinden, ob es sich um eine gute Bewertung, eine mittlere Bewertung oder eine schlechte Bewertung handelt.
Kommentare: Diese Schuhe sind sehr angenehm zu tragen und reiben überhaupt nicht an den Füßen.
Bewertungskategorie:

Die Antwort des großen Modells lautet wie folgt:

Bild-20230815120623009

Eingabeaufforderung 2 :

Ich habe Ihnen eine TB-Rezension geschickt. Bitte helfen Sie mir herauszufinden, ob es eine gute, eine mittlere oder eine schlechte Rezension ist.
Kommentar: Diese Schuhe sind zu schwer zu tragen und meine Füße bluten, wenn ich sie längere Zeit trage!
Bewertungskategorie:

Die Antwort des großen Modells lautet wie folgt:

Bild-20230815120849138

Es ist ersichtlich, dass ChatGPT über diese grundlegende Unterscheidungsfähigkeit verfügt, ohne dass ChatGPT Kriterien für die Aufteilung guter, mittlerer und schlechter Bewertungen mitgeteilt wird. Die Art und Weise, Fragen direkt zu stellen, um Antworten zu erhalten, kann als Zero-Shot verstanden werden.

Eingabeaufforderung 3 :

Bitte helfen Sie mir, whatpu in einem Satz zu verwenden

An dieser Stelle sieht die Antwort des Modells so aus:

Bild-20230815140446231

Wenn das große Modell auf sein unbekanntes Wissen stößt, ist es unmöglich, mit der Zero-Shot-Eingabeaufforderung eine bessere Antwort zu erhalten, aber das bedeutet nicht, dass es nicht lernfähig ist. Es ist immer noch sehr gut, also die erweiterte Eingabeaufforderung Die Methode heißt Few-shot.

  • **Schritt 2: Wenige-Schuss-Eingabeaufforderungsmethode**

Die Methode der Eingabeaufforderung mit wenigen Schüssen kann einfach so verstanden werden: Bevor Sie Fragen stellen, geben Sie dem großen Modell zunächst ein Beispiel und eine Erklärung, damit es lernen und nachahmen kann, und verleihen Sie ihm so bis zu einem gewissen Grad die Fähigkeit zur Generalisierung . Zum Beispiel:

Eingabeaufforderung 1 :

Beschreibung: Ein „Whatpu“ ist ein kleines, pelziges Tier, das in Tansania heimisch ist.

用 „whatpu“ 造句: Wir waren in Afrika unterwegs und haben diese sehr süßen Whatpus gesehen.

Hinweis: Ein „Farduddle“ zu machen bedeutet, sehr schnell auf und ab zu springen.

Verwende „farduddle“ in einem Satz:

Die Antwort des großen Modells lautet wie folgt:

Bild-20230815141132529

Aus dem obigen Prozess ist ersichtlich, dass das große Modell mit nur einem Beispiel lernen kann, wie eine Aufgabe ausgeführt wird, was in der Tat eine starke Emergenzfähigkeit darstellt. Wenn es um komplexe Denkaufgaben geht, ist es immer noch machtlos, wie folgt:

Eingabeaufforderung 3 :

Ich habe jetzt folgende Zahlen: 1, 3, 5, 23, 69, 70, 10, 84, 923, 32. Wie viele dieser Zahlen gibt es ungerade und wie viele gerade Zahlen gibt es?

Bild-20230718170115575

3.5 Tipps zur Gedankenkette (CoT).

Die Essenz der Denkkette besteht darin, komplexe Aufgaben in mehrere einfache Unteraufgaben zu zerlegen. Sie bezieht sich auf einen kontinuierlichen logischen Denkschritt oder eine zugehörige Sequenz in einem Denkprozess und ist eine Reihe miteinander verbundener Ideen, Meinungen oder Konzepte im Denkprozess. Serie . Gedankenketten werden oft verwendet, um Probleme zu lösen, Entscheidungen zu treffen oder Argumente zu finden. Es verbindet und organisiert das Denken in einer logischen Reihenfolge und zerlegt komplexe Probleme in einfachere Schritte oder Konzepte, um ein besseres Verständnis und eine bessere Problemlösung zu ermöglichen.

Wenn Menschen mathematische und mathematische Probleme lösen, leiten sie Schritt für Schritt die richtige Antwort ab, und das Gleiche gilt für Modelle. Daher wird in der Arbeit „Large Language Models are Zero-Shot Reasoners“ eine schrittweise Zero-Shot- Idee vorgestellt vorgeschlagen :

Die Idee, ein großes Modell für zweistufiges Denken zu verwenden, d. h. in der ersten Stufe wird die Frage in Abschnitte aufgeteilt und beantwortet (Begründungsextraktion) und dann wird in der zweiten Stufe die Antwort zusammengefasst (Antwortextraktion). ), wie in der Abbildung gezeigt :

Bild-20230718171001735

Bild-20230718171217981

Lösen Sie dieses Problem erneut mit der schrittweisen Zero-Shot-Anleitung:

**Eingabeaufforderung**:

Unter diesen Zahlen 1, 3, 5, 23, 69, 70, 10, 84, 923, 32, wie viele ungerade und wie viele gerade Zahlen gibt es? Denken wir Schritt für Schritt.

Bild-20230718171145035

Aus den Antworten geht hervor, dass der schrittweise Ansatz von Zero-Shot es dem Modell ermöglicht, Schritt für Schritt zu denken, was der Lösung etwas komplizierterer Argumentationsprobleme förderlich ist.

3.6 CoT+Few-Shot-Tipps

Es ist leicht zu glauben, dass bei gemeinsamer Verwendung von Chain of Thinking (CoT) und Few-Shot definitiv bessere Ergebnisse erzielt werden . Testen Sie es wie folgt, wenn Sie Zero-Shot allein verwenden

Eingabeaufforderung 1 :

Was ist 1356 mal 2569?

Bild-20230718171558999

Bei Verwendung von CoT + Few-Shot-Kombinationshinweisen wie folgt:

Eingabeaufforderung 2 :

Beispiel:

Was ist 13 mal 17? Vergleichen Sie zuerst die Größe von 13 und 17, 13 ist kleiner als 17, zerlegen Sie 17 entsprechend der Größenordnung in 10 + 7 und vergleichen Sie dann 13 und 17

Multiplizieren Sie die nach Größenordnungen zerlegten Ergebnisse, multiplizieren Sie 13 mit (10+7)=221

Was ist 256 mal 36? Vergleichen Sie zunächst die Größe von 256 und 36. 256 ist größer als 36 und zerlegen Sie 256 nach der Größenordnung in

200+50+6, dann multiplizieren Sie das Ergebnis von 36 und 256, zerlegen Sie es um die Größenordnung, multiplizieren Sie 36 mit (200+50+6)=9216 325 Mal

Wie viel ist 559 gleich? Vergleichen Sie zuerst die Größe von 325 und 559, 320 ist kleiner als 559, zerlegen Sie 559 entsprechend der Größenordnung in 500 + 50 + 9 und multiplizieren Sie dann das Ergebnis der Zerlegung von 325 und 559 entsprechend der Größenordnung, multiplizieren Sie 325 mit (500+50+9)=181675

Frage: Was ist 1356 mal 2569?

Bild-20230718171803153

3.7 STAR Fine-Tune-Hinweismethode

Die STaR Fine-Tune-Eingabeaufforderungsmethode (Self-taught Reasoner) generiert eine große Anzahl beschrifteter Datensätze, die zur Feinabstimmung des Modells durch eine wenige Schritte umfassende Eingabeaufforderungsmethode verwendet werden können .

Beschreibung: STaR: Autodidaktischer Reasoner, der das Denken mit dem Denken verbindet

Bild-20230718172453232

Der allgemeine Prozess ist:

  1. Nehmen Sie als Beispiel eine kleine Anzahl beschrifteter Proben

  2. Die Antwort auf die Verwendung eines Modells zur Generierung unbeschrifteter Daten und die Begründung für diese Antwort

  3. Behalten Sie die richtige Antwort und Begründung für die Antwort als Teil des Feinabstimmungsdatensatzes bei

  4. Bei Fragen, die nicht richtig beantwortet wurden, geben Sie die richtige Antwort erneut als Teil der Frage ein, verwenden Sie die Eingabeaufforderung mit wenigen Stichproben erneut, um die richtige Antwort und den entsprechenden Grund zu generieren, und fassen Sie sie im Feinabstimmungsdatensatz zusammen

  5. Verwenden Sie abschließend den endgültigen Datensatz zur Feinabstimmung des Modells

Ich habe diesen Teil noch nicht studiert und werde dies möglicherweise im Feinabstimmungsteil des Follow-ups tun. Wenn Sie interessiert sind, können Sie sich zunächst selbst einen Überblick verschaffen.

4. Argumentationsfähigkeit des Modells

Die Argumentationsfähigkeit des Modells bezieht sich auf die Fähigkeit des Modells, bei der Bewältigung neuer Probleme auf der Grundlage vorhandener Kenntnisse und Erfahrungen zu argumentieren und zu beurteilen, dh auf die Fähigkeit des Modells zum logischen Verständnis . Zum Beispiel, ob das Modell einige logische Argumentationsprobleme gut lösen kann oder die verborgene logische Beziehung dahinter entsprechend den Eingabeaufforderungen im Kontext finden und ausgraben kann.

Aus einer eher akademischen Sicht wird die Argumentationsfähigkeit des großen Modells auch als kombinierte Generalisierungsfähigkeit bezeichnet. Dies bezieht sich auf die Fähigkeit des Modells, die in den Trainingsdaten sichtbaren Konzepte und Strukturen zu verstehen und anzuwenden, um mit den vorhandenen Dingen umzugehen nicht in den Trainingsdaten gesehen. Situation oder Problem . **Der grundlegende Zweck des Prompt Engineering besteht darin, die Argumentationsfähigkeit des Modells zu verbessern. **Ob es sich also um ein Sprach-Prompt-Projekt oder ein Code-Prompt-Projekt handelt, es ist der Schlüsselfaktor zur Lösung des Problems.

V. Zusammenfassung

Dieses Papier enthüllt die Emergenzleistung von LLM-Modellen und zeigt, wie die Emergenzleistung großer Modelle durch Hint-Engineering und Feinabstimmung stimuliert werden kann. Anschließend werden verschiedene Aspekte des Hinting-Engineerings ausführlich besprochen, einschließlich seiner Missverständnisse, des Language-Hinting-Engineerings, des Code-Hinting-Engineerings und verschiedener Hinting-Methoden, wie z. B. klassische Small-Sample-Hints, Thought-Chain-Hints, CoT+Few-Shot-Hints und STaR Fine- Tune-Prompt-Methode. Am Ende des Artikels wird die Argumentationsfähigkeit des Modells diskutiert. Dieses Wissen hat einen wichtigen Referenzwert für das Verständnis und die Anwendung des LLM-Modells.

Abschließend möchte ich Ihnen danken, dass Sie diesen Artikel gelesen haben! Wenn Sie das Gefühl haben, etwas gewonnen zu haben, vergessen Sie nicht, mich zu liken, zu bookmarken und mir zu folgen. Dies ist die Motivation für meine kontinuierliche Kreation. Wenn Sie Fragen oder Anregungen haben, können Sie im Kommentarbereich eine Nachricht hinterlassen. Ich werde mein Bestes geben, um Ihr Feedback zu beantworten und anzunehmen. Wenn es ein bestimmtes Thema gibt, über das Sie mehr wissen möchten, lassen Sie es mich bitte wissen und ich schreibe gerne einen Artikel darüber. Vielen Dank für Ihre Unterstützung und freuen uns darauf, mit Ihnen aufzuwachsen!

Ich denke du magst

Origin blog.csdn.net/Lvbaby_/article/details/131792716
Empfohlen
Rangfolge