Breve descripción del algoritmo de gradiente de políticas

Este artículo presenta brevemente el método de gradiente de políticas en el aprendizaje de refuerzo profundo (aprendizaje de refuerzo profundo) mediante la clasificación del contenido del tutorial de aprendizaje automático del Sr. Li Hongyi.

El enlace de la estación B del curso de Li Hongyi:
Li Hongyi, aprendizaje de refuerzo profundo, gradiente de políticas

Notas relacionadas:
Resumen del algoritmo de optimización de políticas proximales Resumen del algoritmo
DQN (red Q profunda) Resumen del algoritmo
actor-crítico

Supongamos:
la trayectoria de un juego (trayectoria): $\tau$
jugador (actor) estrategia (política): $\theta$

Entonces, el valor esperado del incentivo (recompensa) se puede estimar mediante N muestreo (muestreo) (incentivo $R$ es una variable aleatoria):
$\bar R_{\theta} = \sum_{\tau} R (\tau) P(\tau | \theta) \approx \frac{1}{N} \sum_{n=1}^{N} R(\tau^{n})$

La estrategia óptima es:
$\theta^{*} = \arg \max_{\theta} \bar R_{\theta}$

Dé la siguiente ecuación para un ascenso de gradiente
$\triangle abajo \bar R_{\theta} = \sum_{\tau} R(\tau) \triangledown P(\tau | \theta) = \sum_{\tau} R(\tau) P(\; tau | \theta ) \ frac { \ Triangledown PAGS ( \ tau | \ theta )} { PAGS ( \ tau | \ theta )} = \ sum_{ \ tau } R ( \ tau ) PAGS ( \ tau | \ theta ) \ Triangledown \ln P( \tau | \theta) \approx \frac{1}{N}\sum_{n=1}^{N} R(\tau^{n}) \triangledown \ln P(\tau^ {n}|\ theta)$

Entre ellos, el principio de operación del logaritmo:
$\frac {d \ln (f(x))} {dx} = \frac{ 1}{f(x)}\frac{df(x)}{dx}$

Dado que la probabilidad de que la trayectoria ocurra bajo la condición de la política:
$P(\tau | \theta) = p(s_1) p(a_1 | s_1, \theta) p(r_1, s_2 | s_1, a_1) p(a_2 | s_2, \theta) p(r_2 , s_3 | s_2 , a_2) \cdots = p(s_1) \prod_{t=1}^{T} p(a_t | s_t, \theta) p(r_t, s_{t+1} | s_t, a_t)$

Entre ellos, $s$ es el estado del juego (estado) en cada momento, $a$ es la acción del jugador.
Solo $p(a_t | s_t, \theta)$ parte y la estrategia del jugador $\theta$ está relacionado, los otros dos términos $p(s_1)$ 和 $p(r_t, s_{t+1} | s_t, a_t)$ son independientes de la estrategia del jugador.

Definamos la ecuación:
$\ln PAGS(\tau | \theta) = \ln p(s_1) + \sum_{t=1}^{T} [\ln p(a_t | s_t, \theta) + \ln p(r_t, s_{t+1} | s_t, a_t)] \\ \triangledown \ln P ( \tau | \theta) = \sum_{t=1}^{T} \triangledown \ln p(a_t | s_t, \theta);$

Tenemos las siguientes ecuaciones:
$\triangledown \bar R_{\theta } \approx \frac{1}{N} \sum_{n=1}^{N} R(\tau^{n}) \triangledown \ln P(\tau^{n} | \theta) = \frac { 1}{N} \sum_{n=1}^{N} R(\tau^{n}) \sum_{t=1}^{T_n} \triangledown \ln p(a^n_t | s^n_t , \theta) = \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}R(\tau^{n})\triangledown\ln p( a ^n_t | s^n_t, \theta)$

Tenga en cuenta los siguientes puntos:

Primero, el incentivo multiplicado por la fórmula anterior es el beneficio global, no un incentivo de un solo paso, de lo contrario no será posible aprender las acciones que motivan los momentos posteriores. (El cuarto punto se mejorará en consecuencia)

En segundo lugar, la razón para tomar el logaritmo:

Dado que tomar el logaritmo y luego encontrar el gradiente es equivalente a calcular el gradiente de la probabilidad y dividirlo por la probabilidad misma:
$\ Triangledown \ln p(a^n_t | s^n_t, \theta) = \frac {\triangledown p(a^n_t | s^n_t, \theta)} {p(a^n_t | s ^n_t, \theta) }$

Y dividir por la probabilidad en sí misma puede evitar que ciertas acciones con incentivos bajos se muestreen varias veces, lo que resulta en la acumulación de incentivos excesivos:
La razón para ir logarítmica

En tercer lugar, introduzca la línea de base (baseline):

Cuando el incentivo del juego es constante y no negativo, para evitar que disminuya el valor de probabilidad de la acción de alto incentivo no muestreada, se agrega la línea de base:

Razones para introducir líneas de base 1

Una de las formas más sencillas de establecer la línea de base es para $R(\tau)$ se promedia:
$\approx E[R(\tau)]$

Cuarto, asigne los créditos apropiados a cada acción:

Acciones en cada momento, considerando únicamente la suma de todos los incentivos después de este punto de tiempo hasta el final del juego:
$\triangledown \bar R_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t= 1} ^{T_n} (\sum_{t^{\prime}=t}^{T_n} r_{t^{\prime}}^n - b) \triangledown \ln p(a^n_t | s^n_t , \ theta)$

Además, descontar los incentivos futuros, es decir, cuanto mayor sea el tiempo, menor será la influencia: ▽
$\triangledown \bar R_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N } \sum_{t =1}^{T_n} (\sum_{t^{\prime}=t}^{T_n} \gamma^{t^{\prime} - t} r_{t^{\prime} }^n - b ) \triángulo abajo \ln p(a^n_t | s^n_t, \theta)$

Entre ellos, el factor de descuento $\gamma$ es $[0, 1]$ , por lo general toma $0,9$ o $0,99$ $_$ $0.99$ , si toma $0$ , significa que solo se preocupan por los incentivos inmediatos, si es $1$ , significa que los incentivos futuros son iguales a los incentivos inmediatos.

Breve descripción del algoritmo de gradiente de políticas

Supongo que te gusta