RLHF: Reinforcement Learning von Sprachmodellen basierend auf menschlichem Feedback [Reinforcement Learning from Human Feedback]

HuggingFace hat einen Blog veröffentlicht, in dem das technische Prinzip hinter ChatGPT – RLHF ausführlich erläutert wird.

Nach der Lektüre ist der Autor der Meinung, dass die Erklärung recht klar ist. Deshalb habe ich den Kernkontext verfeinert, in der Hoffnung, Freunden, die sich für die technischen Prinzipien von ChatGPT interessieren, Hilfe zu bieten.

Darüber hinaus habe ich am Ende des Artikels einige der 12 beliebtesten Artikel über RLHF zusammengestellt, die man unbedingt lesen muss. Die süße Soße wurde verpackt und hinter den Kulissen des offiziellen Kontos aufgehängt. Interessierte Freunde können im antworten Hinter den Kulissen des offiziellen Kontos „Xi Xiaoyaos süßes Haus“ [1212 】erhalten.

In den letzten Jahren hat das auf dem Prompt-Paradigma basierende generative KI-Modell große Erfolge erzielt und viele interessante KI-Anwendungen entwickelt, z. B. das Schreiben von Romanen durch KI, das Schreiben von Codes durch KI, das Zeichnen durch KI und sogar das Erstellen von Videos durch KI.

Tatsächlich ist dieses generative Modell jedoch schwer zu trainieren. Am Beispiel des Sprachmodells verwenden die meisten von ihnen die Methode der „autoregressiven Generierung“, um Inhalte Wort für Wort oder Wort für Wort durch zyklische Dekodierung zu generieren. Während des Trainings ist es oft einfach, das nächste Wort anhand von Kontextinformationen vorherzusagen und dann mithilfe der Kreuzentropie den Verlust jedes Wortes zu berechnen. Offensichtlich kann ein solcher Verlust auf Token-Ebene die Richtung der Modelloptimierung nicht anhand der Gesamtausgabeebene bestimmen.

Um die Gesamtqualität der Modellausgabe zu beschreiben (anstelle eines einzelnen Wortes), verwenden Menschen häufig Bewertungsindikatoren wie BLEU oder ROUGH, um die Ähnlichkeit zwischen der Modellausgabe und menschlichen Präferenzen zu beschreiben, dies gilt jedoch nur auf der Bewertungsebene. Wenn das Modell trainiert, ist es unmöglich, die tatsächlichen Vorlieben dieser Menschen zu erkennen.

Wenn Sie also in der Trainingsphase direkt menschliche Präferenzen (oder menschliches Feedback) verwenden, um die Belohnung oder den Verlust für die Gesamtausgabe des Modells zu berechnen, ist dies offensichtlich sinnvoller als die herkömmliche Verlustfunktion „den Kontext gegeben und vorhergesagt“. nächstes Wort" oben. viele. Basierend auf dieser Idee führt es zu dem in diesem Artikel diskutierten Objekt - RLHF (Reinforcement Learning from Human Feedback): Das heißt, die Methode des Reinforcement Learning wird verwendet, um das Sprachmodell mithilfe menschlicher Feedbacksignale direkt zu optimieren .

Das Gesicht umarmen: der Algorithmus hinter ChatGPT - RLHF | Anbei sind 12 RLHF-Artikel, die man unbedingt lesen muss_Xiaoyaos Blog-CSDN-Blog

ChatGPT von Grund auf implementieren – technische Hinweise zu RLHF – Programmierer gesucht

Veranschaulichung des verstärkenden Lernens aus menschlichem Feedback (RLHF)

おすすめ

転載: blog.csdn.net/u013250861/article/details/128494971