Política de aprendizaje por refuerzo gradiente y optimizar la profundidad de la (dos) - DDPG

NPG

   Antes de discutir los play aplicación DQN juegos de Atari. Sin embargo, estos se realizan en un ambiente discreto, que tiene un número limitado de actos. Considere un entorno continuo de espacio, tales como el entrenamiento del robot para caminar. En estas circunstancias, no podemos usar QQQ aprendizaje, esto se debe a la estrategia codiciosa en cada paso de tiempo requiere una gran cantidad de optimización. Incluso si el entorno continua discreta, puede perder algunas características importantes, con el fin de terminar con un gran espacio de acción. En este caso, es difícil asegurar la convergencia.

   Para ello, utiliza una técnica llamada nuevos actores crítico de arquitectura, incluyendo las dos redes: la red de actores y críticos de la red. Actores crítico de arquitectura es política de estado y el comportamiento de los valores de la función gradiente combinados. comportamiento de la acción de la red es parámetros ajustables θ \ theta

Supongo que te gusta

Origin blog.csdn.net/weixin_43283397/article/details/105144144
Recomendado
Clasificación