Studiennotizen zu „Reinforcement Learning and Optimal Control“ (2): Vergleich einiger Begriffe zwischen Reinforcement Learning und Optimal Control

vorne geschrieben

Link zum vorherigen Artikel:

„Reinforcement Learning and Optimal Control“ Studiennotizen (1): Deterministische dynamische Programmierung und stochastische dynamische Programmierung

In diesem Artikel werden hauptsächlich einige Begriffe des bestärkenden Lernens (RL) und der optimalen Steuerung behandelt.Tatsächlich werden Freunde, die ein wenig Verständnis für bestärkendes Lernen haben, beim Studium dieses Buches feststellen, dass, obwohl die Optimierungsziele von RL und DP unterschiedlich sind (RL Verfolgen Sie die Maximierung des Belohnungswerts, DP verfolgt die Minimierung des Overheads), aber unabhängig von der Struktur, dem Kontrollsystem oder der Methode können die verwendeten Ideen eine Eins-zu-Eins-Entsprechung sein, wie in der folgenden Abbildung gezeigt, dies ist gerecht was ich im Internet gefunden habe Ein Bild von einem Bild, dieser Artikel wird eine detailliertere Beschreibung des Inhalts von Abschnitt 1.4 des Buches geben.

1.4 Reinforcement Learning und Optimal Control – Verwandte Begriffe

Wie bereits erwähnt, gibt es große Unterschiede in Sprache und Fokus zwischen RL-basierten Diskussionen (unter Verwendung von Begriffen im Zusammenhang mit künstlicher Intelligenz) und DP-basierten Diskussionen (unter Verwendung von Begriffen im Zusammenhang mit optimaler Steuerung). Die in diesem Buch verwendeten Begriffe sind Standardterminologie in DP und optimale Kontrolle. Um zu verhindern, dass der Leser mit RL oder optimaler Kontrollterminologie verwechselt wird, enthält dieses Buch eine Liste ausgewählter Begriffe, die häufig in RL verwendet werden, und ihre Gegenstücke zu optimaler Kontrolle .

(a) Agent (intelligente Stelle) = Entscheidungsträger oder Kontrolleur (Entscheidungsträger oder Kontrolleur, Ausgangsentscheidung oder Kontrollmodell).

(b) Aktion = Entscheidung oder Kontrolle.

(c) Umgebung = System.

(d) Belohnung einer Stufe = (Antisense) Kosten einer Stufe.

(e) Zustandswert (Zustandswert, Belohnungen, die ab diesem Zustand erhalten werden können) = (Antisense) Kosten ab einem Zustand (die Kosten für den Beginn der Ausgaben in diesem Zustand).

(f) Wert- (oder Belohnungs- oder Zustandswert-)Funktion (Wertfunktion) = (Gegensinn) Kostenfunktion (Kostenfunktion).

(g) Maximieren der Wertfunktion = Minimieren der Kostenfunktion.

(h) Aktions- (oder Zustands-Aktions-) Wert = Q-Faktor (oder Q-Wert) eines Zustands-Kontroll-Paares (Q-Wert wird auch oft in RL verwendet.) (Zustands-Q-Faktor oder Q-Wert von das Kontrollpaar).

(i) Planung = Lösen eines DP-Problems mit einem bekannten mathematischen Modell (die Verwendung eines bekannten mathematischen Modells zum Lösen eines DP-Problems bedeutet, die dynamischen Eigenschaften des Systems zu kennen, die in einem deterministischen System bekannt sind) f_k(x_k,u_k).

(j) Lernen = Lösen eines DP-Problems ohne Verwendung eines expliziten mathematischen Modells (Es ist kein explizites mathematisches Modell erforderlich, um DP-Probleme zu lösen. Beim modellfreien bestärkenden Lernen wird oft eine große Menge von Daten abgetastet, die mit der Umgebung interagieren .ungefähre Systemdynamik).

(k) Selbstlernen (oder Selbstspiel im Kontext von Spielen) = Lösen eines DP-Problems durch eine Art von Policy-Iteration. Finden der optimalen Strategie durch Strategiebewertung und Strategieförderung)

(l) Deep Reinforcement Learning = Annähern von DP unter Verwendung von Wert- und/oder Richtlinienannäherung mit tiefen neuronalen Netzwerken (d. h. Verwenden von neuronalen Netzwerken zum Annähern von DP-Problemen).

(m) Vorhersage = Politikbewertung.

(n) Verallgemeinerte Richtlinieniteration = Optimistische Richtlinieniteration.

(o) Zustandsabstraktion (Zustandsvereinfachung) = Aggregation (Aggregation, persönliches Verständnis bedeutet, einige ähnliche Zustände als denselben Zustand zu behandeln).

(p) Lernen eines Modells (Lernmodell) = Systemidentifikation (Systemidentifikation besteht darin, die dynamischen Eigenschaften des Systems zu finden).

(q) Episodische Aufgabe oder Episode = Trajektorie eines Finite-Step-Systems (d. h. eine Trajektorie vom Anfangszustand zum Endzustand (Finite-Time-Step-System)).

(r) Kontinuierliche Aufgabe = Trajektorie des Systems mit unendlichen Schritten (d. h. eine Trajektorie vom Anfangszustand zum Endzustand (unendliches Zeitschrittsystem)).

(s) Backup = Anwenden des DP-Operators in einem bestimmten Zustand.

(t) Sweep = Anwenden des DP-Operators bei allen Zuständen.

(u) Greedy-Strategie in Bezug auf eine Kostenfunktion JMinimierungsstrategie im DP-Ausdruck definiert durch J.JJ

(v) Nachzustand = Zustand nach der Entscheidung.

(w) Erfahrungswiederholung = Wiederverwendung von Beispielen in einem Simulationsprozess (beim Erlernen der Strategie werden wir einige Daten, die mit der Umgebung interagieren, in den Erfahrungspool stellen und sie dann regelmäßig abtasten, um zu lernen).

Einige Begriffe werden im folgenden Inhalt erwähnt (ich habe sie noch nicht gesehen, daher weiß ich nicht, wie ich sie erklären soll, und ich werde sie später aktualisieren) .

auf der Rückseite geschrieben

Link zum nächsten Kapitel:

„Reinforcement Learning and Optimal Control“ Studiennotizen (3): Überblick über Median Space Approximation und Policy Space Approximation durch Reinforcement Learning

おすすめ

転載: blog.csdn.net/qq_42286607/article/details/123460936