RL-Zhao-(8)-Value-Based03: Q-Learning-Funktionsnäherung [Ziel: Berechnen Sie die optimalen Parameter der „Wertfunktion“ und den optimalen Aktionswert, der durch diese „Wertfunktion“ berechnet wird]

Fügen Sie hier eine Bildbeschreibung ein

我们知道:
„TD-Lernen“ mit „Wertfunktionsnäherung“:
$\color{red} {w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{v}(s_{t+1},w_t)-\hat{v}(s_t,w_t)\ rechts]\nabla_w\hat{v}(s_t,w_t)}$

„Sarsa算法“ mit „Wertfunktion angenähert“:
$\color{red}{w_{t +1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{q}(s_{t+1},a_{t+1},w_t)-\hat{q}(s_t, a_t,w_t)\right]\nabla_w\hat{q}(s_t,a_t,w_t)}$

In ähnlicher Weise kann tabellarisches Q-Learning auch auf den Fall der Wertfunktionsnäherung erweitert werden. Die Q-Wert-Aktualisierungsregel lautet:

„Q-learning算法“ mit „Wertfunktionsnäherung“:

$\color{red}{w_{t+1}=w_t+\alpha_t}\left[r_{t+1}+\gamma\max_{a\in\mathcal{A}(s_{t +1})}\hat{q}(s_{t+1},a,w_t)-\hat{q}(s_t,a_t,w_t)\right]\nabla_w\hat{q}(s_t,a_t, w_t)$

Dies ist derselbe Algorithmus wie Sarsa mit Funktionsnäherung, außer $^ ( s t + 1 , a t + 1 , w t ) \hat{q}\left(s_ {t+1 },a_{t+1},w_t\right)$ 被替换为 $\mathrm{max }_{a\in\mathcal{A}(s_{t+1})}\hat{q}\left(s_{t+1},a,w_t\right)$ 。

Fügen Sie hier eine Bildbeschreibung ein
Q-Learning mit Funktionsnäherungs-Pseudocode (On-Policy-Version):

Für jede Episode machen wir Folgendes:

Wenn der aktuelle Zustand $s_t ist$ Es ist noch nicht der Zielzustand, dann führen wir die folgenden Operationen aus. Diese Aufgabe besteht eigentlich darin, dass ich von einem Zustand aus beginne und dann nur noch einen guten Weg zum Zielzustand finden muss. Der erste Schritt besteht also darin, die Daten zu generieren:
- Ich bin $s_t$ Wenn , muss ich dies auf $π_t(s_t) basieren$ Aktion nach Strategie $a_t$ und interagieren Sie dann mit der Umgebung, um $r_{t+1},s_{t+1} zu erhalten$ 。
- 然后根据这个数据下面我们来做Wertaktualisierung:
  $w_{t+1}\quad=\quad w_{t}\quad+\quad \alpha_{t}\left[r_{t+1}+\gamma\max_{a\in\mathcal{A}(s_{t+1})}\hat{q}(s_{t+1}, a,w_{t})-\hat{q}(s_t,a_t,w_t)\right]\nabla_w\hat{q}(s_t,a_t,w_t)$
  Beachten Sie, dass wir hier nicht direkt aktualisieren $\hat{q}(s_ { t+1},a_{t+1})$ ，不是要计算 $\hat{q}(s_{t+1 },a_{t+1})$ sollte gleich nichts sein, aber wir möchten seinen Gewichtsparameter $w$ , das ist der einzige Unterschied zum vorherigen tabellarischen Sarsa.
Damit können wir eine Richtlinienaktualisierung durchführen, die genau der gleichen ist wie die vorherige tabellarische Sarsa. Das heißt, ich werde bei $s_t wählen$ Unter allen Aktionen erhält die Aktion mit dem größten Aktionswert eine relativ große Wahrscheinlichkeit. Die Strategie hier ist ε-Greedy, und andere Aktionen erhalten eine relativ kleine Wahrscheinlichkeit.
- Es ist erwähnenswert, dass ich in der vorherigen tabellarischen Situation tatsächlichdirekt zum Index gehen könnte, um dies zu erhalten< a i=3> q ^ ( s t + 1 , a t + 1 ) \hat{q}(s_{t+1},a_{t+1}) $\overset{Q}{^} (s_{t + 1}, A_{t + 1})$ ；
- Jetzt muss ich einige Berechnungen durchführen. Ersetzen Sie dieses s und das entsprechende a in dieser"Wertfunktion" und führen Sie die Berechnungen durch. Die Wert dieser Funktion $\hat{q}(s_{t+1},a_{t+1})$ und dann vergleichen;

Fügen Sie hier eine Bildbeschreibung ein

Referenzmaterialien:
[Reinforcement Learning] Mathematische Grundlagen des Reinforcement Learning: Wertfunktionsnäherung
6. Wertfunktionsnäherung a>
Vorlesung 6: Wertfunktionsnäherung (Wertfunktionsnäherung)

RL-Zhao-(8)-Value-Based03: Q-Learning-Funktionsnäherung [Ziel: Berechnen Sie die optimalen Parameter der „Wertfunktion“ und den optimalen Aktionswert, der durch diese „Wertfunktion“ berechnet wird]

Supongo que te gusta