Was ist die Konvergenz der Politikbewertung?

perfekter Lernalgorithmus

Gestern habe ich mit meinen Klassenkameraden in einem Gruppenchat über das Bad-Case-Problem in DRL gesprochen. Plötzlich brachte ein Klassenkamerad eine Meinung vor: „Der schlechte Fall existiert nicht wirklich, da theoretisch nachgewiesen wurde, dass einige Algorithmen eindeutige Extrempunkte haben, und mit einigen Glättungstechniken zur Steuerung des Optimierers wird es unweigerlich konvergieren.“

Als ich diesen Standpunkt hörte, war ich für einen Moment sprachlos. Denn das größte Problem in der aktuellen Deep-Learning-Forschung besteht darin, dass zig Millionen Parameter-Neuronale Netze, für deren Training viel Ressourcen aufgewendet wurden, einfach nicht funktionieren und alles verschwendet wird. Daher gibt es Methoden wie NAS, die versuchen, die Struktur in der frühen Trainingsphase entsprechend einigen dynamischen Eigenschaften anzupassen und geeignete Hyperparameter zu finden, aber die Ergebnisse sind mittelmäßig. Wenn es wirklich einen so perfekten Lernalgorithmus gäbe, wäre er dann nicht in der Lage, jedes Problem zu lösen? Aber nach meinem gesunden Menschenverstand ist das unmöglich. Ganz zu schweigen davon, dass es in der Wissenschaft keine derartigen Jobs gibt. Konvergenz hängt offensichtlich mit der Netzwerkstruktur und dem Optimierer zusammen. Wie kann ein Forall-Ergebnis bewiesen werden, wenn diese Einstellungen ignoriert werden?

Ich habe ihm diese Frage gestellt. Er sagte: „Dem Beweis zufolge hängt die Aufgabengröße nur von der Konvergenzgeschwindigkeit ab und hat nichts damit zu tun, ob sie konvergiert. Solange ein neuronales Netzwerk verbunden ist, das stark genug ist, können Sie …“

Tatsächlich weiß ich wahrscheinlich, worum es bei dem „Beweis“ geht, von dem er spricht. Zur Bestätigung fragte ich jedoch immer noch nach dem von ihm erwähnten „Beweisartikel“, und als ich ihn sah, stellte ich fest, dass es sich tatsächlich um die Art von Beweis für Autoräder handelte.

Komprimierungsabbildung und lineare Konvergenzgeschwindigkeit

Dieser „Beweisartikel“ ist DRLs bekanntes Werk eines Soft-Actor-Kritikers. Der sogenannte Konvergenzbeweis nimmt eine Seite der 16-seitigen Arbeit ein. Tatsächlich lässt sich bei flüchtiger Lektüre erkennen, dass der „Konvergenzbeweis“ im Artikel für die „tabellarische Einstellung“, also die diskrete Form, gilt. Für die kontinuierliche Form weist der Artikel darauf hin, dass ein neuronales Netzwerk zur Annäherung an die Richtlinienbewertung verwendet werden muss, und wendet sich dann den Implementierungsdetails des neuronalen Netzwerks zu. Ob die Richtlinienbewertung konvergieren kann, bestimmt, ob der gesamte Algorithmus konvergieren kann. Hier verwendet die Richtlinienbewertung ein neuronales Netzwerk zur Annäherung, und der Kern dreht sich darum, ob das neuronale Netzwerk konvergieren kann. Das neuronale Netzwerk hat jedoch unterschiedliche Aufgaben. Ob es konvergieren kann, ist die Kernfrage, aber der Artikel behandelt es nicht. Tatsächlich gibt es derzeit keinen Gelehrten auf der Welt, der diese Frage beantworten kann.

Einige Studenten denken vielleicht: Wenn die Konvergenz in diskreten Fällen gewährleistet werden kann, können viele Probleme gelöst werden. Aber haben Sie jemals über die sogenannte „diskrete Konvergenz und kontinuierliche Nichtkonvergenz“ nachgedacht? Wo ist die Lücke? Wenn es im kontinuierlichen Fall nicht wahr ist, wird es dann im diskreten Fall so perfekt sein? Natürlich ist es unmöglich.

Nach meinem Verständnis ähnelt der Beweisprozess der Konvergenz im SAC-Papier tatsächlich dem Beweis der iterativen Konvergenz traditioneller Strategien, mit der Ausnahme, dass er die durch ihre Arbeit hervorgerufenen Änderungen (maximaler Entropieterm usw.) ergänzt und dies nicht beeinflusst Erstellung des Originalbeweises. Um das Problem zu veranschaulichen, verwende ich daher direkt den herkömmlichen Konvergenzbeweis für Richtlinieniterationen. Ich war ein Mittelschüler, als ich diesen Beweis vor vielen Jahren las. Damals warf ich nur einen Blick darauf: Oh, es kann konvergieren. Dann habe ich aufgehört, mich darum zu kümmern. Aber wenn ich es mir jetzt ansehe, kann ich nicht anders, als an das Problem zu denken. Wie der Klassenkamerad sagte, berücksichtigt dieser Beweisprozess die Aufgabe überhaupt nicht. Er basiert nur auf der Annahme des verstärkenden Lernens. Die staatliche Aufteilung (von (die Aufgabe, die Sie erledigen möchten) entspricht dem Marr-Kov-Prozess und beweisen Sie dann direkt: Bei der Iteration auf dieser Markov-Kette muss die Richtlinienschätzung konvergieren. Basierend auf der Konvergenz der Richtlinienschätzung wird dann die Gesamtkonvergenz des Algorithmus abgeleitet. Tatsächlich werden Studierende, die intensiv gelernt haben, das Gefühl haben, dass die Strategieschätzung ein sehr wichtiger Schritt ist, und es ist auch ein Schritt, bei dem sehr leicht Fehler gemacht werden können (es ist leicht, das Training nicht zu absolvieren). Es kam leicht zu dem Schluss, dass Konvergenz vorliegt, ohne die Aufgabe überhaupt zu berücksichtigen, und es handelte sich um eine „lineare Geschwindigkeitskonvergenz“. Wie konnte es so etwas Gutes bewirken? Ist die „Konvergenz“, die sie beweist, dasselbe wie das, worüber wir sprechen?

Der Beweis für die Politikschätzung ist etwas komplizierter. Wir versuchen, uns auf zwei wichtige Punkte zu konzentrieren, die Aufmerksamkeit erfordern:

1. Die Bellman-Gleichung ist eine komprimierte Karte

2. Wenn es sich um eine Komprimierungsabbildung handelt, folgt sie dem Komprimierungsabbildungssatz und konvergiert mit linearer Geschwindigkeit zum eindeutigen Festpunkt.

Es gibt online viele Erklärungen für diesen Beweis, aber die meisten davon sind nicht intuitiv. Ich werde diese beiden Punkte anhand meines intuitiven Verständnisses locker erklären. Für den ersten Punkt lautet der ursprüngliche Beweisprozess:

Im ersten Schritt sind A und  die optimalen Aktionen  von  A' bzw.   . Im zweiten Schritt entspricht das Platzieren des Folgeelements   in der Mitte des vorherigen Elements der Auswahl einer Aktion, die  beim nächsten Mal . Daher wird der Wert des letztgenannten Termes kleiner und der Gesamtwert größer, wodurch das Ungleichheitszeichen entsteht. Wenn Sie diesen Prozess in umgekehrter Reihenfolge betrachten, können Sie verstehen, dass der Hauptgrund für die Komprimierung des Werts nach der Anwendung des Bellman-Operators darin besteht, dass bessere Aktionen häufiger ausgewählt werden (bessere Strategien werden häufiger angewendet), d. h. Ausbeutung . Jeder, der sich tatsächlich mit Reinforcement Learning beschäftigt hat, weiß, dass nur Exploitation nicht so perfekt sein kann.V1V2max_aV2

Wie wird Exploration in diesem Beweis gehandhabt? Dies wird in einem anderen Abschnitt, dem Prozess der Politikverbesserung, demonstriert:

q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]

\pi(a|s)=argmax(q_{\pi}(s,a))

Um es ganz klar auszudrücken: Es geht darum, jeden Zustand zu durchlaufen und dann jede Aktion in jedem Zustand zu durchlaufen, den Wert zu berechnen, der jeder Aktion im durchquerten Zustand entspricht  q_{\pi}(s,a), und die Aktion zu ergreifen, die den Wert maximiert, als neueste Strategie für den aktuellen Zustand – — Nachdem dies gesagt ist, werden Sie wissen, warum sein „Beweis“ keine Berücksichtigung von Aufgaben erfordert und nur in diskreten Situationen verwendet werden kann. Weil er alle Situationen einfach heftig betrachtet und man sie nicht alle hintereinander betrachten kann ;P

Schauen wir uns die sogenannte lineare Konvergenzgeschwindigkeit im Komprimierungsabbildungssatz an:

f^n(x)-x^*=f^n(x)-f(x^*)<k(f^{n-1}(x)-x^*)<k^n(xx^*) )

Das ist leicht zu verstehen. Der iterative Prozess zum Finden des Fixpunkts liegt im  F Funktionsbereich (der als Zustandsraum oder Strategieraum verstanden werden kann). Diese sogenannte „lineare Konvergenzgeschwindigkeit“ gibt eine Obergrenze an. Das n (in der Formel k^n(xx^*)) dieser „linearen Komplexität“ entspricht tatsächlich der Größe der Domäne, also dem Maßstab des Problems. Obwohl es gesagt wird Um linear zu sein, wird diese Kombination berechnet. Der Zählvorgang ist exponentiell! Um es ganz klar auszudrücken: Der auf dieser Obergrenze implementierte „Verstärkungslernalgorithmus“ unterscheidet sich nicht vom „Ausprobieren aller Kombinationen, um die Maximal- und Minimalwerte zu finden“, sodass diese Obergrenze für die meisten Probleme keine praktische Bedeutung hat.

Ich glaube, jeder erinnert sich daran, dass viele Leute, die Go spielten, nachdem die KI vor vielen Jahren Schach kaputt gemacht hatte, sagten, dass ein Computer niemals in der Lage sein würde, Go zu kaputt zu machen, weil die Anzahl der Zustände in Go größer ist als die Anzahl der Teilchen im Universum. Sie setzen die Anzahl der Zustände mit der Schwierigkeit des Problems gleich, die sich nicht von der sogenannten „linearen Obergrenze“ in dieser Formel unterscheidet. Aber müssen wir wirklich jeden Zustand durchlaufen? Mithilfe speziell entwickelter Algorithmen war AlphaGo das erste Unternehmen weltweit, das nur einen kleinen Teil des Zustandsraums erfasste. Dies ist auch der Kern des Reinforcement Learning: wie man Algorithmen entwirft, um den Zustandsraum zu erkennen und Strategien effizienter zu aktualisieren. Vielleicht ist der von uns entworfene Algorithmus nicht linear komplex, aber unser Algorithmus ist schneller als diese Obergrenze, weil das n der beiden grundlegend unterschiedlich ist! Der Zweck unserer Sorge um die Komplexität besteht darin, sie am Ende schneller laufen zu lassen, und nicht darin, wie die Formel oberflächlich aussieht. Aus diesem Grund habe ich gesagt, dass der ungefähre Polynom-Maximum-Flow-Algorithmus, der vor einiger Zeit von vielen OIern im Weltraum verwendet wurde, OI nicht ändern wird (lacht), weil die darin verwendeten Techniken zu komplex sind und selbst wenn er implementiert wird, die tatsächliche Geschwindigkeit wird wahrscheinlich nicht schneller sein als die aktuellen Mainstream-Methoden. Die „Konvergenz“, die uns am Herzen liegt, ist, ob der von uns entworfene Erkennungsalgorithmus konvergieren kann, anstatt die alberne Methode in Betracht zu ziehen, „alle Situationen noch einmal zu betrachten“. Wenn jemand diesen scheinbar fundierten Beweis liest und das Gefühl hat, dass alle Reinforcement-Learning-Algorithmen konvergieren können und dass alle Reinforcement-Learning-Algorithmen eine lineare Komplexität aufweisen, kann man nur sagen, dass er nicht herausgefunden hat, was er tut.

Alchemie des Mathematikers

Obwohl dieser Klassenkamerad kein Mathematiker ist, bin ich auch kein Mathematiker. Aber viele Mathematiker haben ähnliche Fehler gemacht. Ich glaube, jeder kennt das Sprichwort „Das Ende der Computer ist Mathematik“ und ist sehr abergläubisch gegenüber Menschen, die sich mit Mathematik beschäftigen. Aber wissen Menschen, die wirklich Mathematik studieren, was sie tun? Das glaube ich nicht. Egal um welches Fachgebiet es sich handelt, es gibt nur sehr wenige Menschen, die es wirklich verstehen. Ich habe mit vielen mathematikbesessenen Studenten Optimierungsprobleme besprochen, die neuronalen Netzen ähneln. Ich war jedoch sehr schlecht und habe ihnen nicht gesagt, dass ich über neuronale Netze spreche. Viele Leute wurden von mir getäuscht und gaben mir eine tiefgreifende Methode: Fügen Sie diese Einschränkung hinzu, fügen Sie diese Glätte hinzu, und basierend auf einer bestimmten fortgeschrittenen Theorie wird es definitiv konvergieren. Aber warum gab es in der Welt des maschinellen Lernens noch nie eine so perfekte Methode? Liegt es daran, dass diejenigen, die am Computer arbeiten, nichts über diese mathematischen Theorien wissen? Tatsächlich ist der Grund sehr einfach: Nichts ist kostenlos. Solange Einschränkungen hinzugefügt werden, wird die Ausdrucksfähigkeit zwangsläufig eingeschränkt. Wenn die Ausdrucksfähigkeit eingeschränkt ist, wird die Gradientenverteilung beeinflusst. Selbst wenn die zu optimierende Mannigfaltigkeit geglättet wird, beträgt der Gradient in den meisten Bereichen 0 Funktioniert nicht mit tatsächlichen Daten. Was nützt es? Der Grund, warum sie diesen Fehler machen, ist, dass sie eigentlich nicht verstehen, was sie tun – ich verwende nicht den Begriff „neuronales Netzwerk“. Sie verlassen sich nur auf symbolische Beschreibungen und haben keine Ahnung, was für ein komplexes System dahinter steckt von ihnen sieht so aus. Ich habe noch nie einen eigenen Algorithmus implementiert. Wenn ich nicht die Leistung eines Computers nutze, um einen Blick darauf zu werfen und es auszuprobieren, kann ich nur Papier, Stift und Gehirn verwenden. Auf diese Weise werde ich es nicht tun in der Lage sein, die Form eines komplexen Systems zu erfassen. Das ist auch der Grund, warum dieser Klassenkamerad so entschieden zu dem unglaublichen Schluss kommen kann, dass „es einen perfekten Lernalgorithmus gibt“ – denn auch er hat diese Algorithmen noch nie ausprobiert oder den Trainingsprozess beobachtet. Er hält es einfach für selbstverständlich und hält es für selbstverständlich . .

Es gibt auch einige Studenten, die nur wenig von dem sehen können, was vor ihnen liegt, und sich im luftleeren Raum mit einigen sphärischen Theorien beschäftigen. Dann verachten sie diejenigen, die sich mit maschinellem Lernen beschäftigen, und sagen, sie seien alle „Alchemisten“. Aber Alchemie basiert auf einigen Tricks, die derzeit in der Produktionsumgebung nicht verfügbar sind, und verbessert die Wirkung um einige Punkte. Was Sie tun, basiert auf einigen unrealistischen Annahmen und einigen Theorien, von denen Sie nicht wissen, wann sie verwendet werden. Wer ist besser als das andere? Wolltuch? Meiner Meinung nach betreiben diese Mathematikstudenten, die mit der Flasche nicht zufrieden sind, die „Alchemie“ in der Mathematikwelt. Sie unterscheiden sich nicht von den Computerstudenten in der Industriewelt, die Zufallscodes schreiben und über Designmuster und den Computer sprechen Studenten in der Welt des maschinellen Lernens, die Modelle verwenden, um Alchemie herzustellen.

Einige Schüler, die ich kenne, sind nach dem Gewinn des CMO-Preises in die Yao-Klasse gegangen und haben seitdem die Maske des Schmerzes aufgesetzt – sie sind so gut in Mathematik, aber wenn sie nicht Mathematik machen, warum sollten sie dann diese Computer-Dinge studieren? Ich glaube, dass viele Studenten, die Mathematik lieben, diese Idee haben. Aber ich denke, das Wichtigste beim Lernen ist, bescheiden mit dem Wissen umzugehen und immer neugierig zu bleiben. Viele Menschen lesen viele Bücher und Aufsätze und prägen sich einige oberflächliche Kenntnisse und beängstigende Begriffe ein, haben aber kein tiefes Verständnis für die Bedeutung dahinter. Zu diesem Zeitpunkt ist das Programmieren tatsächlich ein sehr gutes Werkzeug, um die eigenen Fehler zu erkennen, da Sie die Klassenkameraden um Sie herum mit Ihrem Jargon täuschen können, aber Sie können den Computer nicht täuschen. Selbst für rein mathematische Theorien können Sie Theorembeweiser wie coq als Lernhilfe nutzen. Wenn Ihre praktischen Fähigkeiten jedoch nicht hoch sind, werden Sie zurückschrecken, wenn Sie auf kleine Schwierigkeiten wie das Programmieren stoßen. Auf lange Sicht wird es schwierig sein, echtes Wissen zu erlernen.

Ich glaube, dass heutzutage ein „Mathematiker“, der keine Programme schreiben kann, nie mehr leisten kann als ein Informatiker. Denn angesichts tatsächlich komplexer Probleme sind viele Dinge ohne die Hilfe von Computern einfach nicht zu erkennen. Menschen, die denken, dass Mathematik keine Computer braucht, oder Computer sogar verachten, werden in Wirklichkeit nur von Buchwissen überwältigt und geben sich ihm dann hin, aber sie erwarten nicht, dass sie von der größeren Welt hinter ihnen geblendet werden.

Guess you like

Origin blog.csdn.net/FYZDMMCpp/article/details/123877155