GPT-2 kann GPT-4 überwachen, Ilya übernimmt die Führung in OpenAI Super Alignments erster Artikel ist da: KI-Ausrichtung KI erzielt empirische Ergebnisse

Menschen können superintelligente KI nicht überwachen, künstliche Intelligenz jedoch schon. In einem aktuellen Interview sagte Ilya Sutskever, Chefwissenschaftler von OpenAI, mutig voraus: Wenn das Modell das nächste Wort gut vorhersagen kann, bedeutet dies, dass es die tiefgreifende Realität verstehen kann, die zur Entstehung des Wortes geführt hat.

Im vergangenen Jahr haben große Modelle, deren Kern darin besteht, „den nächsten Token vorherzusagen“, viele Aufgaben in der menschlichen Welt übernommen und das enorme Potenzial künstlicher Intelligenz demonstriert.

In einem aktuellen Interview sagte Ilya Sutskever, Chefwissenschaftler von OpenAI, mutig voraus: Wenn das Modell das nächste Wort gut vorhersagen kann, bedeutet dies, dass es die tiefgreifende Realität verstehen kann, die zur Entstehung des Wortes geführt hat. Das heißt, wenn sich die KI auf ihrem derzeitigen Weg weiterentwickelt, wird möglicherweise in naher Zukunft ein künstliches Intelligenzsystem entstehen, das den Menschen übertrifft.

Noch besorgniserregender ist jedoch, dass „superkünstliche Intelligenz“ einige unerwartete negative Folgen haben könnte. Dies ist auch die Bedeutung von „Ausrichtung“.

Frühere Ausrichtungsmethoden beruhten auf menschlicher Aufsicht, wie beispielsweise Reinforcement Learning with Human Feedback (RLHF), das im ChatGPT-Training eine Schlüsselrolle spielte. Aber zukünftige KI-Systeme könnten in der Lage sein, Verhaltensweisen auszuführen, die so komplex und kreativ sind, dass Menschen Schwierigkeiten haben werden, sie zuverlässig zu überwachen. Beispielsweise könnte ein transhumanes Modell Millionen Zeilen neuartigen, potenziell gefährlichen Computercodes schreiben, der selbst für menschliche Experten schwer zu verstehen wäre.

Wenn künstliche Intelligenz den Menschen übertrifft, wie sollten wir dann künstliche Intelligenzsysteme überwachen, die viel intelligenter sind als wir selbst? Wird die menschliche Zivilisation irgendwann untergraben oder sogar zerstört?

Sogar akademische Giganten wie Hinton sind in dieser Frage pessimistisch – er sagte, er habe „noch nie einen Fall gesehen, in dem etwas mit einem höheren Intelligenzniveau von etwas mit einem viel niedrigeren Intelligenzniveau kontrolliert wurde“.

Gerade hat das OpenAI-Team „Super Alignment“ sein erstes Papier seit seiner Gründung veröffentlicht und behauptet, eine neue Forschungsrichtung für die empirische Ausrichtung übermenschlicher Modelle eröffnet zu haben.

Link zum Papier: https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

Das OpenAI-Team „Super Alignment“ wurde im Juli dieses Jahres gegründet. Sein Ziel ist es, das Ausrichtungsproblem superintelligenter KI innerhalb von vier Jahren zu lösen, also herauszufinden, wie man einen vertrauenswürdigen Forscher auf menschlicher Ebene aufbauen und ihn dann nutzen kann um das Ausrichtungsproblem zu lösen. Es heißt, dass dieses Team 20 % der Rechenleistung des Unternehmens investiert habe.

In diesem Artikel stellt OpenAI eine einfache Analogie zum Problem der „menschlichen Überwachung superkünstlicher Intelligenz“ her: Lassen Sie kleine Modelle große Modelle überwachen.

Untersuchungen zeigen, dass das GPT-2-Modell mit 1,5 Milliarden Parametern verwendet werden kann, um die meisten Fähigkeiten von GPT-4 zu stimulieren, wodurch eine Leistung nahe dem GPT-3,5-Niveau erreicht wird und es sogar korrekt auf schwierige Probleme verallgemeinert werden kann, bei denen kleine Modelle versagen .

OpenAI nennt dieses Phänomen „schwach-zu-starke Generalisierung“, was darauf hindeutet, dass ein starkes Modell implizit weiß, wie eine Aufgabe auszuführen ist, und seine Aufgaben auch dann ausführen kann, wenn ihm schlechte Anweisungen gegeben werden. Finden Sie dieses Wissen in sich selbst.

Bild

Die Studie wies jedoch auch darauf hin, dass immer noch eine große Lücke zwischen starken Modellen, die mit schwacher Aufsicht trainiert wurden, und starken Modellen, die mit echten Labels trainiert wurden, besteht. Dies deutet darauf hin, dass Techniken wie Reinforcement Learning with Human Feedback (RLHF) ohne zusätzliche Arbeit möglicherweise nicht gut auf übermenschliche Modelle anwendbar sind. Besonders groß ist der Leistungsunterschied bei der ChatGPT-Belohnungsmodellierungsaufgabe.

Mehrere einfache Methoden können die Verallgemeinerung von schwach nach stark erheblich verbessern, z. B. die Verwendung mittlerer Modellgrößen für die Bootstrap-Überwachung, das Hinzufügen eines zusätzlichen Vertrauensverlusts während der Feinabstimmung, um das Modell zu ermutigen, auch bei Widersprüchen mit schwachen Bezeichnungen sicher zu bleiben, oder das Repräsentationslernen durch zu verbessern zusätzliches unbeaufsichtigtes Vortraining.

Um andere Forscher zu ermutigen, sich mit solchen Problemen auseinanderzusetzen, gab OpenAI heute außerdem bekannt, dass es 10 Millionen US-Dollar für die Erforschung verschiedener Vergleichsmethoden bereitstellen wird.

Nachfolgend finden Sie die Papierdetails.

Forschungsmethoden

Dieses Papier leitet oder richtet das Modell hauptsächlich durch verstärkendes Lernen mit menschlichem Feedback (RLHF) aus. Sie tun dies, indem sie Verhaltensweisen verstärken, die von Bewertern hoch bewertet werden, und Verhaltensweisen bestrafen, die von Bewertern niedrig bewertet werden. Wenn menschliche Bewerter genau beurteilen können, ob das Modellverhalten gut oder schlecht ist, ist dieser Ansatz sehr effektiv und diese Methode ist auch ein zentraler Bestandteil des Trainings großer Sprachmodelle wie ChatGPT.

Das Problem besteht jedoch darin, dass Supermodels möglicherweise komplexe und kreative Verhaltensweisen zeigen, die Menschen nicht vollständig verstehen können. Wenn beispielsweise ein Superassistentenmodell eine Million Codezeilen generiert, sind Menschen nicht in der Lage, wichtige Aufgaben im Zusammenhang mit der Ausrichtung zuverlässig zu überwachen, einschließlich der Frage, ob der Code der Absicht des Benutzers folgt und ob das Assistentenmodell Fragen zum Code wahrheitsgemäß beantwortet und ob der Code ausgeführt wird. Ist er sicher oder gefährlich usw.

Wenn wir ein Supermodell unter menschlicher Aufsicht verfeinern, können wir daher nicht sicher sein, wie gut sich das Modell auf komplexe Verhaltensweisen verallgemeinern lässt, die Menschen selbst nur schwer zuverlässig überwachen könnten. Mit anderen Worten bedeutet dies, dass selbst unter menschlicher Führung die Leistung dieser Supermodelle bei der Bewältigung einiger komplexer oder unbekannter Situationen immer noch ungewiss ist.

Dies stellt die Abstimmung von Supermodels vor eine Herausforderung: Wie kann ein weniger intelligenter Vorgesetzter ein Modell kontrollieren, das viel intelligenter ist als er? Trotz der Bedeutung dieses Themas ist es derzeit schwierig, empirische Untersuchungen durchzuführen.

Im Allgemeinen besteht eine zentrale Herausforderung der Superausrichtung darin, dass Menschen Modelle überwachen müssen, die intelligenter sind als sie selbst. Dies ist ein Problem des schwachen bis starken Lernens: Wie kann ein schwacher Vorgesetzter ein Modell überwachen, das viel intelligenter ist als es ist? Um dieses Problem zu lösen, schlägt dieses Papier eine einfache Analogie vor, schwache menschliche Vorgesetzte durch schwache Modelle als Vorgesetzte zu ersetzen.

Im Allgemeinen konzentriert sich das traditionelle maschinelle Lernen auf dieses Szenario, in dem von Menschen überwachte Modelle schwächer sind als Menschen. Aber beim ultimativen Super-Alignment-Problem wurden sie von von Menschen überwachten Modellen überlistet. Daher untersucht dieser Artikel ein ähnliches Problem: die Verwendung schwacher Modelle zur Überwachung starker Modelle.

So machen sie es für eine bestimmte Aufgabe:

  1. Aufbau schwacher Vorgesetzter. In diesem Artikel werden schwache Supervisoren konstruiert, indem kleinere vorab trainierte Modelle anhand von Ground-Truth-Labels verfeinert werden. Sie bezeichnen die Leistung schwacher Supervisoren als schwache Leistung und generieren schwache Labels durch die Vorhersagen schwacher Modelle.
  2. Trainieren Sie starke Schülermodelle mit schwacher Aufsicht. In diesem Artikel werden die generierten schwachen Etiketten zur Feinabstimmung des starken Modells verwendet. Das Modell wird als starkes Schülermodell bezeichnet, und die von ihm erzeugte Leistung wird als schwache bis starke Leistung bezeichnet.
  3. Trainieren Sie ein starkes Modell, das auf Ground-Truth-Labels beschränkt ist. Zum Vergleich optimiert dieses Papier das starke Modell mithilfe von Ground-Truth-Labels. Die endgültige Leistung dieses Modells wird als starke Deckenleistung bezeichnet.

Typischerweise liegt eine schwache bis starke Leistung irgendwo zwischen schwacher Leistung und starker Höchstleistung. In diesem Artikel wird PGR (wiederhergestellte Leistungslücke) als Funktion der oben genannten drei Leistungstypen (schwach, schwach bis stark und starke Obergrenze) definiert, wie in der folgenden Abbildung dargestellt.

Bild

Wenn eine perfekte Verallgemeinerung von schwach nach stark erreicht wird, beträgt der PGR 1. Wenn das schwache bis starke Modell nicht besser abschneidet als der schwache Supervisor, ist der PGR 0.

Experimentelle Ergebnisse

In diesem Artikel wird die Leistung starker Schülermodelle bei NLP-Aufgaben, Schach und Belohnungsmodellierungsaufgaben bewertet. Die Ergebnisse sind wie folgt. Insgesamt beobachten wir in allen Settings eine schwache bis starke Verallgemeinerung: Starke Studentenmodelle übertreffen durchweg ihre schwachen Vorgesetzten.

Bild

In diesem Artikel wird festgestellt, dass die Verallgemeinerung von schwach nach stark mit einfachen Methoden erheblich verbessert werden kann, wie in Abbildung 4 dargestellt.

Bild

Abbildung 5 zeigt, dass die Leistung kleinerer, starker Schüler zwar etwas schlechter ist als bei der naiven Grundlinie, die verbesserte Generalisierungsfähigkeit jedoch immer noch offensichtlich ist.

Bild

Abbildung 7 (a) zeigt die Genauigkeitskurve des Ground-Truth-Tests während des Trainingsprozesses der ChatGPT-RM-Aufgabe, und Abbildung 7 (b) und (c) vergleichen die Genauigkeit des besten und des endgültigen Ground-Truth-Tests.

Bild

Abbildung 9a betrachtet 7 repräsentative NLP-Aufgaben und vergleicht Feinabstimmung, Zero-Shot-Hinweise und 5-Shot-Hinweise; für Zero-Shot- und 5-Shot-Grundlinien verwenden wir aufgabenspezifische Hinweise, die in Tabelle 2 zusammengefasst sind. 

Bild

Acho que você gosta

Origin blog.csdn.net/leyang0910/article/details/135028482
Recomendado
Clasificación