Deep Reinforcement Learning – Kapitel 10 Sparse Rewards

Deep Reinforcement Learning – Kapitel 10 Sparse Rewards


Referenzhinweise:
1. Datawhale Deep Reinforcement Learning Notes
2. Tianjin Baozi Stuffing Zhihu Deep Reinforcement Learning Spalte

1.Spärliche Belohnung

1.1 Aufgeworfene Fragen

Es ist sehr schwierig, einen Agenten auszubilden, ohne eine Belohnung zu erhalten. Angenommen, Sie möchten einen Roboterarm trainieren und auf dem Tisch liegen eine Schraube und ein Schraubenzieher. Dann möchten Sie ihm beibringen, die Schraube mit dem Schraubenzieher festzuschrauben. Dann ist das schwierig. Warum? Weil Sie wissen, dass Ihr Agent am Anfang noch nichts weiß und der einzige Grund, warum er unterschiedliche Aktionen ausführen kann, die Erkundung ist. Wenn Sie beispielsweise Q-Learning durchführen, wird es eine gewisse Zufälligkeit geben. Lassen Sie es einige Aktionen ausführen, die in der Vergangenheit nicht durchgeführt wurden. Dann müssen Sie zufällig genug sein, um zu sagen, dass es den Schraubenzieher aufnimmt und dann schraubt es in , und dann erhalten Sie Belohnung 1, was niemals passieren wird. Egal, was Ihr Akteur tut, seine Belohnung wird immer 0 sein, und egal, welche Aktion er ausführt, es ist gleich schlecht oder gleich gut. Am Ende lernt es also nichts.

Wenn die Belohnung in der Umgebung sehr spärlich ist, wird das Problem des verstärkenden Lernens sehr schwierig, aber Menschen können mit einer sehr spärlichen Belohnung lernen. Die meiste Zeit unseres Lebens verbringen wir einfach dort, ohne Belohnung oder Strafe. Dennoch können Menschen unterschiedliche Verhaltensweisen annehmen. Daher sollte eine wirklich leistungsstarke KI in der Lage sein, auch bei spärlichen Belohnungen zu lernen, mit der Umgebung zu interagieren.

1.2 Lösungen

1.2.1 Belohnungsgestaltung

Belohnungsgestaltung bedeutet, dass die Umgebung eine feste Belohnung hat, die die eigentliche Belohnung ist. Damit der Agent jedoch das gewünschte Ergebnis erfährt, haben wir bewusst einige Belohnungen entworfen, um unseren Agenten zu leiten.

  1. Beispiel 1
    behandelt das Kind als Agent.
    Für dieses Kind kann es zwei Aktionen ausführen. Eine Aktion besteht darin, dass es rausgehen kann, um zu spielen. Wenn es rausgeht, um zu spielen, erhält es in der nächsten Sekunde die Belohnung 1. Aber wenn er die monatliche Prüfung ablegt, sind seine Noten möglicherweise schlecht. Nach 100 Stunden erhält er also eine Belohnung von -100. Dann kann er sich auch dazu entschließen, zu lernen, und dann ist er beim nächsten Mal sehr verärgert, weil er nicht zum Spielen ausgegangen ist, und erhält die Belohnung -1. Aber nach 100 Stunden kann er eine Belohnung von 100 erhalten. Aber ein Kind möchte vielleicht lieber spielen statt lernen. Wir berechnen die angesammelte Belohnung, aber vielleicht ist der Abzinsungsfaktor eines Kindes sehr groß, sodass ihm zukünftige Belohnungen egal sind. Und da er ein Kind ist, hat er noch nicht viel Erfahrung, sodass seine Q-Funktionsschätzung sehr ungenau ist. Wenn man ihn also darum bittet, die kumulierte Belohnung abzuschätzen, die er langfristig erhalten wird, kann er sie nicht wirklich vorhersagen. Zu diesem Zeitpunkt müssen ihn also die Erwachsenen führen. Wie können sie ihn führen? Lügen Sie ihn einfach an und sagen Sie, wenn Sie sich zum Lernen hinsetzen, gebe ich Ihnen einen Lutscher. Daher wird für ihn die Belohnung, die er zum nächsten Zeitpunkt erhält, positiv. Also dachte er, vielleicht ist es besser, dieses Studium zu absolvieren als zu spielen. Obwohl dies keine wirkliche Belohnung ist, sondern eine Belohnung dafür, dass andere Menschen ihn angelogen haben, sagen Sie ihm, dass es gut für Sie ist, diese Maßnahme zu ergreifen.

  2. Beispiel 2:
    Der Agent von Facebook spielt VizDoom. VizDoom ist ein Ego-Shooter-Spiel. In diesem Shooter-Spiel erhalten Sie eine positive Belohnung für das Töten eines Feindes und eine negative Belohnung für das Töten. Sie haben einige neue Belohnungen entworfen und die neuen Belohnungen verwendet, um den Agenten anzuleiten, damit er bessere Leistungen erbringen kann. Dies ist nicht die eigentliche Belohnung im Spiel. Beispielsweise werden 0,05 Punkte für Blutverlust abgezogen, Punkte werden für Munitionsreduzierung abgezogen, Punkte werden für das Aufnehmen von Versorgungsbeuteln hinzugefügt, Punkte werden für das Bleiben an Ort und Stelle abgezogen und Punkte werden für das Bewegen hinzugefügt. Für das Überleben gibt es einen kleinen Punktabzug, da die Maschine sonst einfach nur am Leben bleiben und ständig Feinden aus dem Weg gehen möchte, was die Maschine etwas aggressiver macht. Die Parameter in der Tabelle werden alle aufgerufen.

  3. Defekte
    Da wir beispielsweise Domänenwissen benötigen, möchte der Roboter lernen, die blaue Tafel durch die Säule zu führen. Roboter sind schwer zu erlernen, wir können Belohnungen gestalten. Eine plausible Aussage ist, dass die Belohnung umso größer ist, je näher die blaue Tafel an der Säule ist. Es gibt jedoch ein Problem mit der Art und Weise, wie sich die Maschine nähert, sie wird mit blauen Brettern auf die Pfeiler treffen. Und wir müssen die blaue Tafel auf die Säule legen, um die blaue Tafel durch die Säule zu führen. Diese Art der Belohnungsgestaltung ist nicht hilfreich. Welche Belohnungsgestaltung hilfreich ist und welche Belohnungsgestaltung nicht hilfreich ist, wird zu einem Domänenwissen, und Sie müssen es anpassen.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_45549370/article/details/109523123
conseillé
Classement