Das einzige ChatGPT im ganzen Netzwerk, das nicht herumalbert

 Datawal-Trockenwaren 

Autor: Ben, Sun Yat-Sen University, Datawhale-Mitglied

ChatGPT ist in letzter Zeit populär geworden und ist zu einem heißen Thema in den sozialen Medien geworden, genau wie vor einiger Zeit Stable Diffusion (AIGC). „ChatGPT wird die Google-Suche ersetzen?“ „Wird ChatGPT Programmierer arbeitslos machen?“ … Ähnliche Titel regten unsere Nerven wieder auf. Als Code-Farmer habe ich den letzteren Titel tatsächlich belächelt. Egal, welche Art von "Magie" ChatGPT verwendet, nach den bisher gezeigten Fähigkeiten zu urteilen, hat es höchstens gelernt, die API einer Programmiersprache kompetent zu nutzen, um eine bestimmte Funktion zu implementieren, um eine bestimmte kleine Aufgabe zu erledigen, die von Menschen gegeben wird. In einem realen Projektszenario müssen Programmierer in der Regel eine mehrdeutige Anforderung übernehmen, jedes Detail aussortieren, bis sich ein logischer Regelkreis bildet, und dann in konkrete Aufgaben abstrahieren und Funktionen realisieren.Bestehende KI kann höchstens helfen, geschweige denn das letzte bisschen Ganz zu schweigen davon, dass die wahren Probleme für Programmierer häufig Nebenläufigkeit, Transaktionskonsistenz und andere Probleme sind, die nicht durch vorhandene KI gelöst werden können.

Aber als Deep-Learning-Enthusiast bin ich erstaunt über die Fähigkeiten von ChatGPT. Ob es sich um die von OpenAI bereitgestellten Beispiele oder die verschiedenen Aktivitäten in den sozialen Medien handelt, ich habe mein bisheriges Verständnis der „künstlichen geistigen Behinderung“ aktualisiert, die nur für KI-Sprachmodelle gilt. Also bin ich eigentlich sehr neugierig, was ist das "magische" Prinzip von ChatGPT? Leider habe ich im chinesischen Internet keine gute Interpretation dieser Arbeit gefunden, und das direkte Lesen des Papiers ist sowohl mühsam als auch nicht besonders verständlich. Mit Hilfe einiger hochwertiger Interpretationsvideos im Internet habe ich nach und nach verstanden, was die sogenannte „Magie“ ist, und versucht, sie in den folgenden Text einzuordnen.

Das "magische" Prinzip von ChatGPT

Da ChatGPT kein Papier veröffentlicht hat, können wir die Designdetails von ChatGPT nicht direkt verstehen. Aber sein Blog erwähnt eine ähnliche Arbeit InstructGPT.Der Unterschied zwischen den beiden besteht darin, dass ChatGPT für Mehrrunden-Dialogtrainingsaufgaben auf der Grundlage von letzterem optimiert ist, sodass wir uns auf das letztere Papier beziehen können, um ChatGPT zu verstehen.

Das Papier von InstructGPT besteht jedoch aus 25 Seiten Text und 43 Seiten Anhängen, sodass dieser Artikel nicht versucht, jedes Detail einschließlich der Trainingsstrategien zu erklären. Um die Integrität des Kämmens zu gewährleisten, wird dieser Artikel in zwei Teile geteilt: Der erste Teil bezieht sich auf Li Hongyi  und  Chen Yunong  auf Youtube  , um die Verbesserungsideen von InstructGPT zu erklären; der zweite Teil bezieht sich auf Frank Tian, der UP-Master von Station B , der versucht, sein tiefes Verständnis von ChatGPT weiterzugeben.

Ideen zur Verbesserung von InstructGPT

Das Verständnis jeder Arbeit muss zu zwei Fragen zurückkehren : Die eine ist, welche Verbesserungen sie im Vergleich zu früheren Arbeiten aufweist, und die andere, auf welchen Designideen oder Verwendungen diese Verbesserungen basieren. Ein einfaches Verständnis von InstructGPT kann GPT durch Reinforcement Learning auf der Grundlage von menschlichem Feedback (RLHF) verfeinert werden. Dann gehen wir dazu über, RLHF zu verstehen, tatsächlich können wir ein allgemeines Verständnis von InstructGPT bekommen.

Gemäß dem Bild des folgenden Papiers können wir wissen, dass das Training von InstructGPT in drei Phasen unterteilt werden kann:

  1. Verwenden Sie menschliche Annotationsdaten (Demonstrationsdaten), um beaufsichtigte Schulungen zu GPT durchzuführen. Möglicherweise möchten Sie das fein abgestimmte GPT SFT nennen.

  2. Sammeln Sie mehrere verschiedene (z. B. 4) SFT-Ausgaben basierend auf derselben Eingabe, die dann von Menschen sortiert und zum Trainieren des Belohnungsmodells (RM) verwendet werden ;

  3. Die Belohnung erfolgt durch RM, und die Methode des Reinforcement Learning (PPO) wird verwendet , um die zuvor fein abgestimmte SFT zu trainieren.

Ein Detail, das hinzugefügt werden muss, ist, dass RM auf dem neuesten Stand gehalten wird, sodass Phase 2 und Phase 3 tatsächlich eingereicht werden.

ba920c26cd01c3a287a95149674619e8.png

Da ich zuvor nicht viel über bestärkendes Lernen wusste, konnte ich die Stufen 1 und 3 verstehen, als ich das erste Mal die Arbeit las, aber ich konnte nicht verstehen, wovon Stufe 2 sprach. Ich glaube, viele Leser haben ähnliche Fragen:

  1. Warum macht InstructGPT eine solche Verbesserung oder was ist neu?

  2. Warum ein RM trainieren, warum kann dieses seltsame RM als Belohnungsfunktion verwendet werden?

  3. Menschen sortieren die vielfältigen Ausgaben des Modells, warum können sie Überwachungssignale liefern oder wie erreicht man beim RM-Training die Gradientenrückgabe des Verlusts?

Einige Leute haben vielleicht andere Fragen, aber ich glaube, dass die Beantwortung dieser drei Fragen auch zum Verständnis beitragen sollte.

Die erste Frage wird tatsächlich im Blog von ChatGPT beantwortet. Die Verbesserungsidee dieser beiden Modelle besteht darin, die Ausgabe von GPT so weit wie möglich an einer benutzerfreundlichen Sprachlogik auszurichten, dh eine benutzerfreundliche GPT zu optimieren. Frühere GPT-Schulungen basierten auf einer großen Menge an unbeschriftetem Korpus, das normalerweise aus dem Internet gesammelt wird. Wir alle wissen, dass es im Internet viel „Jargon“ und „schwarze Wörter“ gibt, und das so trainierte Sprachmodell kann falsche, böswillige oder negative Emotionen haben. Daher ist es eine direkte Idee, GPT durch manuelles Eingreifen zu optimieren, um seine Ausgabe benutzerfreundlich zu gestalten.

Um die zweite Frage zu beantworten, ist es tatsächlich notwendig, einige Forschungen zum Reinforcement Learning etwas auszuweiten. Wir alle wissen, dass das klassische Reinforcement-Learning-Modell in Form der folgenden Abbildung zusammengefasst werden kann:

14fe771e041ed2c522fa5a2c037a8510.png

Genauer gesagt ist der Agent (Agent) das Modell, das wir trainieren möchten, und die Umgebung stellt ein Objekt dar, das Belohnungen bereitstellt. Dies kann ein menschlicher Schachspieler in AlphaGo, ein menschlicher Fahrer beim automatischen Fahren oder sogar eine Spielregel in einem Spiel sein KIs. Reinforcement Learning erfordert theoretisch keine große Menge an gekennzeichneten Daten, aber tatsächlich gibt es einige Mängel in der Belohnung, die es erfordert, was es schwierig macht, die Reinforcement-Learning-Strategie zu fördern:

  1. Die Formulierung von Belohnungen ist sehr schwierig. Beispielsweise kann es in der Spiele-KI erforderlich sein, Hunderte oder Tausende von Spielregeln zu formulieren, was nicht so einfach ist wie das Beschriften einer großen Datenmenge;

  2. In einigen Szenarien ist die Wirkung der Belohnung nicht gut. Beispielsweise ist es in dem mehrstufigen Entscheidungsfindungsszenario (sequentielle Entscheidungsfindung) des autonomen Fahrens für den Lernenden schwierig, häufig Belohnungen zu erhalten, und es ist leicht, Fehler zu akkumulieren und einige schwere Unfälle zu verursachen.

e1be90156a00b46626cd2653c468ca61.png

Es ist schwierig, das obige mehrstufige Entscheidungsproblem klar zu erklären, und ich verstehe es selbst nicht ganz. Kurz gesagt, um diese Probleme zu lösen, wurde das Nachahmungslernen (Imitation Learning) ins Leben gerufen. Die Idee des Nachahmungslernens besteht nicht darin, das Modell nach den von Menschen festgelegten Regeln selbst lernen zu lassen, sondern das Modell menschliches Verhalten nachahmen zu lassen. Einige Leute fragen sich vielleicht, gibt es Ähnlichkeiten und Unterschiede zwischen diesem und überwachtem Lernen? Ich denke, derselbe Punkt ist es, menschliche Annotationsdaten zu sammeln, der Unterschied besteht darin, dass Imitationslernen schließlich in Form von Reinforcement Learning durchgeführt wird; vereinfacht ausgedrückt, ersetzt Imitationslernen die Umgebung des Reinforcement Learnings durch ein Belohnungsmodell, und dieses RM ist es durch von Menschen gekennzeichnete Daten für das Training. Unter ihnen ist inverses Verstärkungslernen eine Form des Imitationslernens, wie in der folgenden Abbildung gezeigt. (PS: Da ich das Gebiet des bestärkenden Lernens wirklich nicht verstehe, ist das Verständnis hier möglicherweise nicht korrekt.)

354d1fadbe59bd3315a63a59fb6bb913.png

Nach der Beantwortung der zweiten Frage „Warum sollte RM trainiert werden“ ist die Antwort „Wie trainiere ich RM“ zu beantworten. Wie in der folgenden Abbildung gezeigt, besteht der Kern des RM-Trainings darin, mehrere Ausgaben (basierend auf derselben Eingabe), die von Menschen durch SFT generiert wurden, zu sortieren und sie dann zum Trainieren von RM zu verwenden. Gemäß der Definition von Imitationslernen kann das intuitive Verständnis sein, dass RM die Art und Weise imitiert, wie Menschen Sätze sortieren, oder gemäß dem OpenAI-Teampapier „Learning from Human Preferences“, dass es menschliche Präferenzen (Preference) imitiert . Wie wird es also nachgeahmt oder wie erreicht man eine Gradientenrückgabe?

286d8265020b126a51cb3119d8acc43a.png

Hier ersetzen wir eine Szene. Wie in der obigen Abbildung gezeigt, generiert SFT vier ABCD-Sätze, und dann treffen Menschen geeignete Sortierentscheidungen gemäß der Eingabeaufforderung, z. B. D>C>A=B. Die Essenz der Sortierung hier ist, dass Menschen die vier Sätze separat bewerten, zum Beispiel erzielte D 7 Punkte, C 6 Punkte und A und B 4 Punkte. Damit RM menschliche Vorlieben lernen kann (d. h. Sortieren), können die vier Aussagen paarweise kombiniert werden, um den Verlust zu berechnen, und sie dann addieren, um den Durchschnittswert zu erhalten, d. h. jeweils einen Verlust berechnen. Die spezifische Verlustform ist in der folgenden Abbildung dargestellt.

eeb2fc3e714337f97c7d08f53ebe0048.png

Es sollte beachtet werden, dass es die Eingabe von Prompt, die Ausgabe von SFT und die Ausgabe von RM ist. Dabei wird die Satzkombination immer höher bewertet und umgekehrt. Durch diese Form des Gradienten-Feedbacks lernt RM nach und nach, Sätzen wie D hohe Punktzahlen und Sätzen wie AB niedrige Punktzahlen zuzuordnen, wodurch menschliche Vorlieben nachgeahmt werden.

An dieser Stelle mag es so einfach sein, RLHF zu verstehen: Das sogenannte Verstärkungslernen von menschlichem Feedback besteht in gewisser Weise darin, menschliches Scoring als Belohnung zu verwenden. Obwohl wir bereits wissen, dass das Entwerfen von Belohnungen wirklich mühsam ist, warum sollten Sie RLHF anstelle anderer Formen verwenden? Und wie wendet ChatGPT diese Rahmen auf Mehrrunden-Dialogszenarien an?

Weiteres Verständnis von ChatGPT

In diesem Teil beantworten wir zwei Fragen: Erstens, warum ist RLHF? Zweitens, wie wird RLHF auf die Mehrrunden-Dialogszene in ChatGPT angewendet? Warum diese beiden Fragen gestellt werden und wie diese beiden Fragen weiter zum Verständnis von ChatGPT beitragen können, wird im Folgenden erläutert.

Erstens, warum RLHF? Natürlich wissen wir, dass die Belohnung von Reinforcement Learning (RL) einige Mängel hat, also hat jemand Imitationslernen (IL) vorgeschlagen, und das oben erwähnte RM hat eine gewisse Verbindung mit IL. Wie kann man also den Unterschied und die Verbindung zwischen RLHF, RL und IL verstehen?

Hier geben wir ein konkretes Szenario: Was können wir tun, wenn wir einen Roboter trainieren wollen, der sprechen kann? Im allgemeinen Reinforcement-Learning-Setting können wir Menschen die Rolle der Umgebung spielen und die Qualität (Belohnung) jedes Dialogs des Roboters messen, aber das ist natürlich sehr gequält. Das heißt, es ist sehr schwierig, einen geeigneten Belohnungsmechanismus zu bestimmen. Beim Imitationslernen (z. B. Inverse Reinforcement Learning) bewerten Menschen nicht den Dialog von Robotern, sondern Roboter imitieren wiederum menschliche Dialoge. Insbesondere kann eine große Menge historischer Dialogdaten aus dem Internet oder anderen Kanälen gesammelt werden, um ein Belohnungsmodell (RM) zu trainieren.

Es scheint, dass Imitationslernen das Problem des Belohnungsmechanismus gut löst, aber es bringt auch das Problem mit sich, wie man qualitativ hochwertige Daten sammelt, um RM zu trainieren. Nehmen wir als Beispiel einen Konversationsroboter. Wenn es sich nur um eine einfache Routine handelt, können Sie mit ein wenig Training einige gewöhnliche Menschen finden, aber wenn Sie medizinische Gespräche und andere Szenarien lösen möchten, ist es offensichtlich, dass gewöhnliche Menschen nicht kompetent sind. und eines erfahrenen Arztes. Die Kosten für die Etikettierung von Daten können höher sein als die von zehn normalen Menschen. Daher ist es eine vernünftige Idee, die Schulungskosten von RM zu reduzieren, indem auf die Idee der Reduzierung der Kennzeichnungskosten beim überwachten Lernen verwiesen wird.

Meiner Meinung nach ist der Rang im RLHF wie ein schwaches Etikett beim überwachten Lernen – er liefert kein direktes Überwachungssignal. Aber durch das Erlernen einfacher Rankings kann RM menschliche Vorlieben lernen. Wie ist hier also die "Präferenz" zu verstehen? Zum Beispiel gibt es eine Kühlschrankfabrik, die mehrere Arten von Kühlschränken herstellt.Obwohl keiner dieser Kunden weiß, wie man Kühlschränke herstellt (oder nicht muss), können sie den Herstellern die Einstellung der Verbraucher zu Kühlschränken durch das Konsumverhalten vermitteln Die "Präferenz" von Kühlschranktypen kann Kühlschrankhersteller dazu anleiten, Kühlschränke mit besseren Verkaufszahlen herzustellen.

38a7ef3ec2893e8fbb0c60be6ae05013.png

Da RLHF einige Probleme von RL und sogar IL sehr gut lösen kann, hat es auch in InstructGPT gute Ergebnisse erzielt. Kann es also logisch auf Mehrrunden-Dialogszenarien migriert werden?

Wir können dieses Problem aus der Annahme des bestärkenden Lernens verstehen. „We all know“, das von PPO vertretene Reinforcement-Learning-Modell basiert auf der Annahme von Markov. Ein einfaches Verständnis von Markov ist, dass sein zukünftiger Zustand nur von der Gegenwart abhängt und nichts mit der Vergangenheit zu tun hat. Mit anderen Worten, Markov hat ein sehr wichtiges Merkmal: kein Gedächtnis. In dem Mehrrunden-Mensch-Computer-Dialogszenario sollte das Modell jedoch einige beobachtbare Markov-Eigenschaften haben, das heißt, das Sprachmodell muss "Speicher" haben. Dies ist auch relativ intuitiv zu verstehen.In einer Mehrrunden-Dialogszene besteht die Möglichkeit, dass das Pronomen in einer bestimmtenDialogrunde auf eine bestimmte Person oder ein Objekt in der vorherigen Dialogrundezeigt, wenn das Modell kein Gedächtnis hat , es kann damit nicht gut umgehen. Diese Art von Problem. Offensichtlich widerspricht die Annahme des bestärkenden Lernens dem Mehrrunden-Dialogszenario, und es ist schwierig, es ohne eine gewisse Optimierung direkt anzuwenden. Dann stellt sich eine weitere Frage, wie wird ChatGPT optimiert?

Hier beginnen wir mit dem grundlegendsten Sprachmodell für Aufgaben in natürlicher Sprache. Ein Sprachmodell bedeutet wahrscheinlich, dass es Ihnen das nächste Wort gibt, wenn Sie die vorherigen Wörter angeben; und wenn Sie das nächste Wort haben, wird es Ihnen ein weiteres Wort geben und so weiter. Dies ist wie die Verwendung einer Mobiltelefon-Eingabemethode: Nachdem Sie einige Wörter und Sätze eingegeben haben, liefert die Eingabemethode mehrere Kandidatenwörter – die Mobiltelefon-Eingabemethode ist hier eigentlich ein Sprachmodell. Wie können wir also dieses grundlegendste Sprachmodell verwenden, um Multi-Turn-Dialogprobleme zu modellieren? Tatsächlich kann die Frage, die wir an ChatGPT stellen, als Satz oder als Eingabe des Bildes unten betrachtet werden. Dann können wir die von ChatGPT gegebene Antwort in die Ausgabe in der folgenden Abbildung abstrahieren. Sprachmodelle wie ChatGPT bieten mehrere "Kandidatensätze", ähnlich wie bei Mobiltelefoneingabemethoden, und jeder Kandidatensatz hat eine andere Wahrscheinlichkeit. Das sogenannte Sprachmodelltraining besteht eigentlich darin, das Modell die dem Kandidatensatz entsprechende Wahrscheinlichkeit anpassen zu lassen, sodass die Wahrscheinlichkeit des Kandidatensatzes, den wir Menschen ausgeben wollen, so groß wie möglich ist, und die Wahrscheinlichkeit, dass wir das nicht wollen Ausgabe ist so klein wie möglich.

fb5a917defdcef68a58da3ecb6c73d5a.png

Was ist also die Verbindung zwischen diesem Sprachmodell und Reinforcement Learning? Beim bestärkenden Lernen haben wir ein Paradigma von Agent/Modell (Agent), das mit der Umgebung (Environment) interagiert. Aber in der von ChatGPT verwendeten Trainingsmethode wird die Umgebung gewissermaßen durch ein anderes Modell (d. h. das oben erwähnte RM) gesperrt. Wie in der Abbildung unten gezeigt, ist der Zustand State in der Abbildung der zuvor erwähnte Eingabesatz, und wenn der Agent einen erhält, ist die Aktion, die er ausführt, tatsächlich das nächste Wort. Beachten Sie, dass GPT tatsächlich einen ganzen Satz ausgeben kann, aber um diese endgültige Ausgabe zu vervollständigen, müssen Sie mehrere Aktionen ausführen, wie in der Abbildung gezeigt. Wenn die Umgebung (oder RM) das von ihr gegebene Wort empfängt, fügt sie das Wort an das Ende der bestehenden Wortfolge ein, gibt dann die neue Wortfolge an den Agenten zurück und so weiter. Beispielsweise ist der Agent hier die Mobiltelefon-Eingabemethode, und die Umgebung ist der Benutzer, der die Eingabemethode verwendet. Der Benutzer wählt ein Wort basierend auf einer bestimmten Präferenz aus, nachdem die Eingabemethode eine Reihe von Kandidatenwörtern geliefert hat, und lässt dann die Eingabemethode des Mobiltelefons das nächste Wort erraten, bis die Eingabemethode den gesamten Satz errät. Hier verstehen wir, was der Zustand und die Aktion des Verstärkungslernens im Sprachmodellszenario entsprechen, also was ist die Belohnung Reward? Ist die Belohnung in ChatGPT außerdem der oben erwähnte RM?

664501248df2bcedaa23c024f6668056.png

Wir haben zuvor gelernt, dass das, was RM lernt, tatsächlich die Rangordnung mehrerer Ausgabeergebnisse der menschlichen SFT ist, dh die menschliche Präferenz für Sätze. Was es tatsächlich direkt lernt, ist die Bewertung von Sätzen durch Menschen. Kann dieses RM-Modell also direkt der Belohnung beim Reinforcement Learning entsprechen? Eigentlich nicht alle. In der Belohnungsfunktion von InstructGPT in der Abbildung unten ist ein Teil davon tatsächlich die vom RM-Modell basierend auf den erlernten menschlichen Vorlieben vergebene Punktzahl, und der andere Teil ist eine gewisse Lücke zwischen ChatGPT, das am Reinforcement Learning teilgenommen hat, und seiner ursprünglichen Version SFT— — Hier wollen wir nicht, dass diese Lücke zu groß wird. Der Grund, warum wir das spätere Bias-Item hinzufügen möchten, ist, dass wir befürchten, dass ChatGPT sich während des Trainingsprozesses des Verstärkungslernens zu sehr gehen lässt und lernt, Menschen auf eine knifflige Weise zu gefallen, anstatt ehrlich die richtige Antwort basierend zu geben zu menschlichen Fragen.

Gleichzeitig kann der letztere Bias-Term als KL-Divergenz betrachtet werden, und die KL-Divergenz kann in die Form Kreuzentropie minus Entropie aufgeteilt werden. Beachten Sie, dass hier Querentropie minus Entropie ist, also ist in der gesamten Belohnungsfunktion das Vorzeichen vor der Entropie positiv – dies spiegelt eine Idee des Reinforcement Learning wider, das heißt, die Entropie der Strategie so groß wie möglich zu machen der zulässige Bereich, der die Erforschung von Strategien erleichtern kann.

Diese Belohnungsfunktion gilt jedoch für den gesamten Eingabesatz und den gesamten Ausgabesatz, und wir haben zuvor besprochen, dass der Agent die gesamte Antwort Wort für Wort zusammensetzt. Die Belohnungsfunktion in der Abbildung kann nur Belohnungen für vollständige Antworten geben, was ist also die Belohnung, die den Wörtern entspricht, die durch jede Aktion im Prozess der Generierung von Antworten durch den Agenten gegeben werden?

70de534d432c477774fd3188f3760d9f.png

Dieses Detail ist in InstructGPT nicht angegeben. Glücklicherweise gibt eine Pin-Anmerkung in einem anderen Artikel „Learning from summary from Human feedback“ des OpenAI-Teams eine Antwort auf diese Frage. Der Autor sagte, dass das Belohnungsmodell nur Belohnungen gibt, nachdem die endgültige Antwort generiert wurde, und keine Belohnungen im mittleren Prozess gibt. Hier verwendet der Autor nicht das Wort Antwort, sondern das Wort Zusammenfassung, denn seine Aufgabe ist es, einen langen Artikel zusammenzufassen. Dem Gedankengang des Autors folgend endet die gesamte Trajektorie erst, wenn ChatGPT das EOS-Token ausgibt (EOS-Token ist ein Zeichen, das in der Verarbeitung natürlicher Sprache verwendet wird, um das Ende eines Absatzes anzuzeigen).

6fd9f27e55503e9faa1407dff51d066f.png

Hier können wir die wesentliche Beziehung zwischen RLHF und GPT klären. Tatsächlich dient die Verwendung von RLHF hier dazu, das Problem zu lösen, dass wir kein diskretes Training ableiten können. Der Einsatz von Reinforcement Learning zur Lösung dieses Problems ist nicht nur ChatGPT vorbehalten: Bereits 2016 hatten die Autoren von SeqGAN eine solche Methode eingesetzt. Daher können wir ChatGAN aus der Perspektive der Essenz des Problems verstehen: Es kombiniert Transformer und "SeqGAN". Natürlich ist dieses „SeqGAN“ keine Standardversion, denn es lernt nicht durch Lehren wie Imitationslernen, sondern durch menschliche Vorlieben. Von der Essenz des Problems her besteht der größte Unterschied zwischen ChatGPT und früheren Arbeiten darin, dass es SeqGAN zur Feinabstimmung verwendet. (PS: Ich habe begrenzte Fähigkeiten und kann nur die Hauptansicht von UP kopieren, aber diese sind sehr inspirierend für mich, denn als ich das Papier las, hatte ich auch das Gefühl, dass das von ChatGPT verwendete Reinforcement Learning ein bisschen wie GAN~ ist )

7918a5d0cc42b4cfa59ffb041bf8fb4b.png

Lassen Sie uns abschließend die zweite Frage überprüfen: Wie wird RLHF auf die Mehrrunden-Dialogszene in ChatGPT angewendet? Da mehrere Dialogrunden die Erinnerung an das Sprachmodell erfordern, kann Reinforcement Learning nicht direkt verwendet werden. Der Widerspruch spiegelt sich hier speziell in der Belohnungsfunktion wider: Die Belohnungsfunktion von ChatGPT gilt für einen ganzen Eingabesatz und einen ganzen Ausgabesatz von GPT; während das Sprachmodell von ChatGPT in der Trainingsstrategie des Verstärkungslernens liegt, gibt jede Aktion tatsächlich aus ein Wort. Daher kann das OpenAI-Team den oben genannten Widerspruch lösen, indem es die Zwischengenerierung der Sequenz nicht belohnt, und diese Lösung kommt der Idee von SeqGAN sehr nahe.

Nachtrag des Autors

Nachdem ich diesen ChatGPT-Interpretationsartikel aussortiert habe, habe ich ein tieferes und detaillierteres Verständnis von ChatGPT. Ich erinnere mich noch, als ich das erste Mal das Video von UP-Meister Frank Tian sah, war ich geschockt, was mich auch dazu veranlasste, viel Energie aufzuwenden, um diesen Artikel zu sortieren. Ein Punkt, den ich hervorheben möchte, ist, dass wir eigentlich eine respektvolle und intime Haltung gegenüber Technologie, insbesondere KI, haben sollten, nicht mit Ehrfurcht, geschweige denn mit Verachtung. Ich bin optimistisch, was die Entwicklung der künstlichen Intelligenz langfristig angeht, aber es ist unwahrscheinlich, dass derzeit neue Technologien hervorstechen, denn alle Technologien wachsen langsam in iterativer Entwicklung. Schließlich kann dieser Artikel aufgrund meiner begrenzten Fähigkeiten möglicherweise nicht alle Details behandeln.

Referenzlink:

1. https://www.bilibili.com/video/BV1zW4y1g7pQ/?share_source=copy_web&vd_source=fe0ed33242ba9d84a6e7da7e017223c2

2. https://www.youtube.com/watch?v=e0aKI2GGZNg

3. https://www.youtube.com/watch?v=ORHv8yKAV2Q

62acb23adec8cbdf9a1ad2f14e7a3e3c.png

Es ist nicht einfach zu organisieren, also mag ich es dreimal

Ich denke du magst

Origin blog.csdn.net/Datawhale/article/details/128326616
Empfohlen
Rangfolge