Notas de estudio intensivo-06 Estudio de división de tiempo TD de diferencia temporal

Este artículo son las notas de lectura del blogger sobre "Aprendizaje por refuerzo: una introducción". No implica la traducción del contenido, sino principalmente para la comprensión y el pensamiento personal.

El aprendizaje TD es el núcleo de los métodos modernos de aprendizaje por refuerzo. Es una combinación del método de Monte Carlo y el método de programación dinámica . Por un lado, al igual que el método de Monte Carlo, no necesita comprender completamente el entorno, sino que aprende de la interacción del entorno. Por otro lado, es similar al método de programación dinámica, que actualiza la nueva ronda de estimación basada en la ronda de estimación anterior, en lugar de estimar la actualización a través de la recompensa final como el método de Monte Carlo. Se puede ver que el aprendizaje TD sigue siendo similar al proceso de iteración de política generalizada (GPI) En comparación con el método de Monte Carlo y el método de programación dinámica, la diferencia central radica en la estimación de la función de valor.

1. Estimación del aprendizaje TD

Primero, consideramos la función de estimación de valor del método de Monte Carlo discutido en la sección anterior , y la cambiamos al siguiente proceso iterativo de actualización, es decir, la nueva ronda de estimación se actualiza a través de la ronda de estimación anterior. En este momento, si el factor de actualización $\alfa$ está configurado para ser fijo, se denomina método MC de paso fijo.

$\\ Q_n(s,a)=\frac{\sum_{k=0}^n \rho_k(s,a)G_k(s,a) }{\sum_{k=0}^n \rho_k(s, a)} \\ =\frac{\sum_{k=0}^{n-1} \rho_k(s,a)G_k(s,a) + \rho_n(s,a)G_n(s,a)} {\sum_{k=0}^{n-1} \rho_k(s,a)}\frac{\sum_{k=0}^{n-1} \rho_k(s,a) }{\sum_{ k=0}^{n} \rho_k(s,a)} \\ =(Q_{n-1}(s,a)+\frac{\rho_n(s,a)G_n(s,a)}{ \sum_{k=0}^{n-1} \rho_k(s,a)})(1-\frac{\rho_n(s,a)}{\sum_{k=0}^{n} \rho_k (s,a)})\\ =Q_{n-1}(s,a) + \frac{\rho_n(s,a)}{\sum_{k=0}^{n} \rho_k(s, a)}(G_n(s,a)-Q_{n-1}(s,a))\\ =Q_{n-1}(s,a) + \alpha (G_n(s,a)-Q_{ n-1}(s,a))$

En este momento, considere la fórmula para resolver el ingreso acumulativo G en la programación dinámica. En este momento, representa $s',a'$ el siguiente estado y acción, y $R$ representa la recompensa

$G_n(s,a)=R + \gamma Q_\pi (s', a')$

En este momento, la fórmula para la actualización iterativa se puede reescribir como

$\\ Q_{n}(s,a)=Q_{n-1}(s,a) + \alpha (G_n(s,a)-Q_{n-1}(s,a))\\ =Q_ {n-1}(s,a) + \alpha (R+\gamma Q_\pi (s',a')-Q_{n-1}(s,a))$

Significa $Q_\pi (s',a')$ que bajo la decisión óptima $\Pi$ , esto es incognoscible, por lo que solo podemos usar lo que se conoce actualmente $Q_{n-1} (s',a')$ para resolverlo. Así que habrá una cierta discrepancia entre esto. Pero podemos deducir que $\gamma <1$ en ese momento , esta desviación puede converger. Supongamos que $\delta_t = R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_{t},A_{t})$ , en este momento, la desviación se puede escribir como:

$G(S_t,A_t)-Q(S_t,A_t)=R_{t+1} +\gamma G(S_{t+1},A_{t+1})-Q(S_t,A_t) + \gamma Q (S_{t+1},A_{t+1})-\gamma Q(S_{t+1},A_{t+1})\\ =R_{t+1} +\gamma Q(S_{ t+1},A_{t+1})-Q(S_t,A_t) + \gamma(G(S_{t+1},A_{t+1})- Q(S_{t+1},A_ {t+1}))\\ =\sum_{k=t}^{T-1} \gamma^{k-1}\delta$

Especialmente cuando el factor de actualización $\alfa$ se establece en un valor pequeño, esta desviación es aproximada y la teoría demuestra que puede converger a la función de decisión óptima.

El aprendizaje TD combina las ventajas de la programación dinámica y Monte Carlo. Por un lado, no necesita modelar el entorno. Por otro lado, no necesita esperar una ronda de muestreo completa de muestras como el método Monte Carlo. Por lo tanto, para algunas rondas cuando el tiempo es demasiado largo o el costo es demasiado alto, usar el aprendizaje TD puede acelerar el aprendizaje.

Describimos completamente la versión inicial del método de aprendizaje de TD anterior, también llamado Sarsa (control de TD en la política)

2. Fuera de la política

En la última sección, nuestra estimación de la rentabilidad acumulada G está determinada por el estado real $s'$ y la acción de la próxima ronda . Este método se denomina estrategia con política. De hecho, podemos referirnos a la estrategia sin política en la sección anterior. capítulo y no use la siguiente ronda. $a'$ Es una forma intuitiva de estimar un estado y una acción en función de la función de valor existente, y este método también se denomina Q-learning.

$G(s,a)=R + \gamma \text{max}_{\hat{a}}\ Q(s', \hat{a})$

Pero tomar max traerá el llamado sesgo de maximización, porque el valor de tomar argmax es a menudo mayor que su valor esperado real, a saber:

$\text{max}_{\hat{a}}\ Q (s', \hat{a})\geq E(Q (s', a))\approx Q_\pi(s',a')$

Por lo tanto, una forma es no tomar el valor máximo, sino tomar la expectativa, que es el llamado método Sarsa esperado. Comparado con el anterior, puede eliminar mejor la varianza causada por acciones de selección aleatoria, por lo que tendrá un efecto más estable Pero buscar expectativas al mismo tiempo también aumenta el costo computacional

$G(s,a)=R + \gamma \sum_{\hat{a}}\pi(\hat{a}|s')Q (s', \hat{a})$

Hay otra forma llamada Double Q-learning, que cree que el sesgo de maximización es causado principalmente por la distribución (hay una probabilidad mayor que la expectativa, debe haber una probabilidad menor que la expectativa), porque distorsiona esto a través de dos Q independientes. desviación de las distribuciones.

$G(s,a)=R + \gamma Q_1 (s', \text{argmax}_{\hat{a}}\ Q_2 (s', \hat{a}))$