Descripción del problema
PPO algoritmo utilizando la formación gym.make('CartPole-v0')
medio ambiente.
Los parámetros son los siguientes:
hidden_units = 50
layers = 3
learning_rate = 0.001 # critic 和 actor learning rate相同
max_train_episodes = int(1e4)
Durante efecto del entrenamiento cambió gradualmente para mejor, un incremento de 50 pasos por la recompensa promedio, pero la función de pérdida no lo hace declive
Pero el proceso de formación de la pérdida crítica y la pérdida de agente (tensorboard) no ha disminuido
Análisis de la causa
A medida que el entrenamiento progresa, los datos en los datos crecientes buffer ha sido dinámico, por lo tanto, el actor y crítico de la formación conjunto de datos es dinámico, este conjunto de datos fijos y aprendizaje supervisado son diferentes, por lo que la pérdida no muestra una tendencia a la baja.
Referencia:
https://stackoverflow.com/questions/47036246/dqn-q-loss-not-converging