introducción
Antes de hablar de todo tipo de algoritmos de aprendizaje de refuerzo, tales como DQN, DRQN, A3C. En estos algoritmos, el objetivo es encontrar la estrategia adecuada para ser capaz de obtener la mayoría de la recompensa. Dado que la función Q que el comportamiento puede ser el mejor comportamiento lleva a cabo en un estado, por lo tanto, el uso de la función Q para encontrar la estrategia óptima. En el método de gradiente de la política, no podemos aplicar la política para conseguir la mejor estrategia.
gradiente de estrategia
Política de aprendizaje por refuerzo gradiente (RL) de un algoritmo increíble para optimizar los parámetros de la política directamente a través de una serie de parámetros. Antes de esto, hemos estudiado el uso de la función Q para encontrar la estrategia óptima. Ahora se encuentra el estudio de casos estrategia óptima de cómo no utilizar la función Q. En primer lugar, la función de la política se define como π (a | s) \ pi (a | s)π ( en