Schreiben Sie nach langem Nachdenken über Ihr aktuelles Verständnis des DQN-Prozesses
Das neuronale Netzwerk gibt den S-Zustand ein
, gibt alle
gierigen Q-Strategien aus, wählt die Aktionsumgebung mit dem größten Q aus,
gibt zu diesem Zeitpunkt R an
, aktualisiert das neuronale Netzwerk
, wechselt zum nächsten Zustand und führt
eine Schleife durch