Política de aprendizaje por refuerzo gradiente y optimizar la profundidad de (a) - PolicyGradient

introducción

  Antes de hablar de todo tipo de algoritmos de aprendizaje de refuerzo, tales como DQN, DRQN, A3C. En estos algoritmos, el objetivo es encontrar la estrategia adecuada para ser capaz de obtener la mayoría de la recompensa. Dado que la función Q que el comportamiento puede ser el mejor comportamiento lleva a cabo en un estado, por lo tanto, el uso de la función Q para encontrar la estrategia óptima. En el método de gradiente de la política, no podemos aplicar la política para conseguir la mejor estrategia.

gradiente de estrategia

  Política de aprendizaje por refuerzo gradiente (RL) de un algoritmo increíble para optimizar los parámetros de la política directamente a través de una serie de parámetros. Antes de esto, hemos estudiado el uso de la función Q para encontrar la estrategia óptima. Ahora se encuentra el estudio de casos estrategia óptima de cómo no utilizar la función Q. En primer lugar, la función de la política se define como π (a | s) \ pi (a | s)π ( en

Supongo que te gusta

Origin blog.csdn.net/weixin_43283397/article/details/105140600
Recomendado
Clasificación