Verhaltensklonen vs. PPO-Vergleichsalgorithmus (Proximal Policy Optimization) und TensorFlow-Implementierung beim Reinforcement Learning

Autor: Zen und die Kunst der Computerprogrammierung

1. Einleitung

Beim Reinforcement Learning sind Behavior Cloning (Behavior Cloning) und Proximal Policy Optimization (PPO) zwei ähnliche, aber unterschiedliche modellbasierte Methoden, die zur Lösung vieler Probleme des maschinellen Lernens eingesetzt werden. Beide gehören zu einer Art zielbasiertem RL-Algorithmus, dessen Zweck darin besteht, bekannte Modellparameter zu optimieren, um einen Controller zu trainieren, der Aktionen ausführen kann, die mit der Umgebung interagieren und Belohnungen maximieren. Allerdings gibt es auch Unterschiede, insbesondere:

  1. Die Klonmethode ist anders: Die Klonmethode bezieht sich auf die Verwendung des vorhandenen Simulatordatensatzes als Eingabe für das Modelllernen, um Nachahmungslernen durchzuführen. Diese Methode kann dazu führen, dass der Controller bei einer kleinen Anzahl von Trainingsbeispielen bessere Fähigkeiten hat, aber wenn die Trainingsbeispiele nicht ausreichen, ist die Genauigkeit begrenzt; und PPO verwendet eine Reihe von Verlustfunktionen, um den Simulator dazu zu ermutigen, die gewünschten Aktionen auszuführen Zustand, sodass es in verschiedenen Umgebungen eine gute Leistung erbringen kann, ohne zusätzliche Datensätze bereitzustellen.
  2. Die Optimierungsziele sind unterschiedlich: Die Klonmethode besteht darin, den Vorhersagefehler direkt zu optimieren, in der Hoffnung, die Varianz und Verzerrung des Modells zu verringern. Dieses Ziel trägt dazu bei, eine Überkomplexität und Überanpassung des Modells zu vermeiden. Dieses Ziel lässt sich jedoch nur schwer konvergieren, sodass mehr Trainingsbeispiele erforderlich sind, um einen stabilen Effekt zu erzielen. PPO definiert das Ziel als Maximierung der ermäßigten Belohnung (Discounted Reward). Zu diesem Zeitpunkt gibt es keine Varianz oder Verzerrung, und das Modell kann nur durch die Bereitstellung besserer Trainingsdaten konvergieren.
  3. Die Struktur des Strategienetzwerks ist unterschiedlich: Die von der Klonmethode verwendete Netzwerkstruktur ist relativ einfach, mit nur einer verborgenen Schicht; während PPO eine verbesserte Version des Strategienetzwerks verwendet – Distribution Estimation Network (DND). DND kann die Aktionswahrscheinlichkeitsverteilung auf effiziente Weise modellieren und so die durch diskrete Aktionen verursachten Stichprobenschwierigkeiten effektiv überwinden.
  4. Die Größe des Datensatzes ist unterschiedlich: Die Klonmethode kann nur auf kleine und statische Umgebungen angewendet werden

おすすめ

転載: blog.csdn.net/universsky2015/article/details/132364044