Ein vorläufiges Verständnis von DQN

Schreiben Sie nach langem Nachdenken über Ihr aktuelles Verständnis des DQN-Prozesses

Das neuronale Netzwerk gibt den S-Zustand ein
, gibt alle
gierigen Q-Strategien aus, wählt die Aktionsumgebung mit dem größten Q aus,
gibt zu diesem Zeitpunkt R an
, aktualisiert das neuronale Netzwerk
, wechselt zum nächsten Zustand und führt
eine Schleife durch

おすすめ

転載: blog.csdn.net/Bad_foxS/article/details/110457132