función de pérdida de aprendizaje por refuerzo no lo hace declive

Descripción del problema

PPO algoritmo utilizando la formación gym.make('CartPole-v0')medio ambiente.
Los parámetros son los siguientes:

hidden_units = 50
layers = 3
learning_rate = 0.001 # critic 和 actor learning rate相同
max_train_episodes = int(1e4)

Durante efecto del entrenamiento cambió gradualmente para mejor, un incremento de 50 pasos por la recompensa promedio, pero la función de pérdida no lo hace declive
Aquí Insertar imagen Descripción

Pero el proceso de formación de la pérdida crítica y la pérdida de agente (tensorboard) no ha disminuido

Aquí Insertar imagen Descripción

Análisis de la causa

A medida que el entrenamiento progresa, los datos en los datos crecientes buffer ha sido dinámico, por lo tanto, el actor y crítico de la formación conjunto de datos es dinámico, este conjunto de datos fijos y aprendizaje supervisado son diferentes, por lo que la pérdida no muestra una tendencia a la baja.
Referencia:
https://stackoverflow.com/questions/47036246/dqn-q-loss-not-converging

Publicado 36 artículos originales · ganado elogios 0 · Vistas a 20000 +

Supongo que te gusta

Origin blog.csdn.net/weixin_38102912/article/details/97614897
Recomendado
Clasificación