Notas de estudio intensivo-05 Método Monte Carlo Método Monte Carlo

Este artículo son las notas de lectura del blogger sobre "Aprendizaje por refuerzo: una introducción". No implica la traducción del contenido, sino principalmente para la comprensión y el pensamiento personal.

La sección anterior introdujo el método de programación dinámica para resolver el problema de aprendizaje en el entorno MDP del proceso de decisión de Markov mejorado. El método de programación dinámica asume que el entorno es completamente conocido, es decir, para la probabilidad de transición entre las acciones de estado p(s',r |s,a) Es completamente cognoscible, o dado el estado y la acción de la operación, el siguiente estado puede conocerse con certeza.

Sin embargo, cuando el entorno es desconocido, se puede utilizar el método de Monte Carlo para resolverlo. Obtiene recompensas reales al muestrear una serie de estados y acciones del entorno real. En este momento, el valor de la acción del estado se puede obtener por Recompensas promedio para estimar.

El aprendizaje general de Monte Carlo todavía se basa en la política general dos procesos iterativos (GPI), que se divide en Evaluación de políticas (predicción) y Mejora de políticas. La etapa de Evaluación de la Política fija la Política y completa la estimación de la función de valor. En Mejora de políticas, la política se optimiza a través de la estimación de la función de valor. Para el método de Monte Carlo, la clave está en la estimación de la función de valor de la función de valor. Una vez completada la estimación de la función de valor, es lógico optimizar la política.

1. Método de Montecarlo

A. Evaluación de políticas

En el análisis anterior, hay dos tipos de funciones de valor: función de valor de estado y función de valor de acción, sin embargo, cuando se desconoce el entorno y se conoce la función de valor del estado conocido, la función de política no se puede derivar porque el estado actual y el siguiente estado de la acción no se puede determinar. Por lo tanto, lo que Monte Carlo necesita estimar es la función de valor de la acción q(s,a), es decir, su valor estimado es el valor promedio del estado actual y el ingreso futuro bajo la acción:

q(s,a)=media(G(s,a))

El método de Monte Carlo divide el proceso de entrenamiento en varias rondas, y cada ronda se denomina episodio. En cada ronda, comienza con un determinado estado inicial Entoncesy acción inicial Oh, y muestra una serie de estados, acciones y secuencias de recompensas del entorno. :

S_o,A_o,R_1,S_1,A_1,...,S_{T-1},A_{T-1},R_{T},S_{T}

donde G(s,a)representa el pago acumulado después de la primera aparición del estado sy la acción , a saber:a

G(s=S_t,a=A_t)=\sum^{T}_{i=t}\gamma^{it} R_i

B. Mejora de la política

\pi(a|s)=\begin{casos} 1& \text{ si } a= \text{argmax}_a\ q(s,a)\\ 0& \text{ si } a\neq \text{argmax} _a\ q(s,a) \end{casos}

La función de política se puede calcular directamente en función de la función de valor q(s,a), pero debido a que el método de Monte Carlo muestrea una serie de acciones estatales basadas en la función de política, si es \pi(a|s)demasiado difícil, algunas acciones estatales nunca tendrán la oportunidad de ser muestreadas. En otras palabras, se puede perder la exploración (explorar) la oportunidad de la solución óptima, por lo que una forma de pensar es usar el método ε-codicioso, y la siguiente fórmula representa la \Lambda(s)cantidad de sacciones que se pueden tomar en el estado a.

\pi(a|s)=\begin{cases} 1-\varepsilon +\frac{\varepsilon }{\lambda(s)}& \text{ if } a= \text{argmax}_a\ q(s, a) \\ \frac{\varepsilon }{\Lambda(s)}& \text{ if } a\neq \text{argmax}_a\ q(s,a) \end{casos}

Otro método es elegir el estado inicial y la acción, de modo que cada par de estado y acción tenga una cierta probabilidad de selección, denominada inicio de exploración.

2. Método de Monte Carlo fuera de la política

En el artículo anterior, discutimos el equilibrio entre explorar y explotar en el método de aprendizaje por refuerzo. Por un lado, necesitamos encontrar una mejor dirección y, por otro lado, necesitamos explorar nuevas direcciones. Nuestro método anterior consiste en ajustar la función de política de acuerdo con ε-voraz y otros métodos para tener en cuenta tanto la exploración como la explotación. Este método de generar la siguiente ronda de datos de entrenamiento a través de la función de política de destino se denomina método en política.

Otro método más intuitivo es dividir los procesos de exploración y explotación en dos funciones de política, entre las cuales la función de política de optimización se llama política de destino, y la otra se usa especialmente para generar pares de estado y acción, y la función de decisión para exploración se llama Es una política de comportamiento, y la siguiente ronda de datos de entrenamiento no se emite a través de la función de política de destino, por lo que se denomina método fuera de política. El enfoque fuera de la política describe un enfoque más general para el aprendizaje por refuerzo.

Otro problema es que fuera de la política, la distribución de la función de la política objetivo y la función de la política de comportamiento serán inconsistentes. Esta inconsistencia conducirá a desviaciones estimadas. Por lo tanto, la mayoría de las estrategias fuera de la política introducen un muestreo de importancia para ajustar la función de la política objetivo y Desviación entre funciones de política de comportamiento.

A. Muestreo de importancia

Para el método de Monte Carlo, esta desviación se \pi(s|a)diferencia principalmente en la probabilidad de generación de la secuencia de muestreo producida por la función de política, se supone que Callela acción está determinada por la función de decisión desde el estado inicial En, y finalmente se generan una serie de secuencias :

S_t,A_t,R_{t+1},S_{t+1},A_{t+1},...,S_{T-1},A_{T-1},R_{T},S_{ T}

Su probabilidad de generación se puede expresar como:

P(R_{t+1},S_{t+1},A_{t+1},...,S_{T-1},A_{T-1},R_{T},S_{T} |S_t,A_t\sim \pi)=\Pi^{T-1}_{k=t} \pi(A_k|S_k)P(S_{k+1}|S_k,A_k)

La desviación entre la función de política objetivo \pi_\año (s|a)y la función de política de comportamiento \pi_b (s|a)se puede expresar como:

\rho(A_k,S_k)=\frac{\Pi^{T-1}_{k=t} \pi_\tau (A_k|S_k)P(S_{k+1}|S_k,A_k)}{\ Pi^{T-1}_{k=t} \pi_b(A_k|S_k)P(S_{k+1}|S_k,A_k)}=\frac{\Pi^{T-1}_{k= t} \pi_\tau (A_k|S_k)}{\Pi^{T-1}_{k=t} \pi_b(A_k|S_k)}

En este punto, corregimos el sesgo en los rendimientos acumulados:

G_\rho(A_k,S_k)=\rho(A_k,S_k)G(A_k,S_k)

B. Muestreo de importancia ponderada Muestreo de importancia ponderada

A través del muestreo de importancia, multiplicaremos un factor de desviación en el rendimiento acumulativo original. Este factor de desviación puede llegar a ser muy grande debido a la desviación entre la función de política objetivo y la función de política de comportamiento, lo que resulta en una desviación excesiva de la recompensa real observada. , es difícil ayudar al aprendizaje de la función de política objetivo, por lo que el muestreo de importancia ponderada consiste en sustituir el factor de desviación en el cálculo de la función de valor:

q(s,a)=\frac{media(\rho(A_k,S_k)G(A_k,S_k))}{media(\rho(A_k,S_k))}

Sin embargo, este método está sesgado y su estimación de función de valor está más sesgada hacia la política de comportamiento, pero su estimación es más estable.

C. Selección de funciones de política de comportamiento:

De hecho, para el método de Monte Carlo, se puede usar cualquier función suave para la función de la política de comportamiento y se deben cumplir dos condiciones:

  • Puede garantizar que la función política objetivo converja
  • Todas las acciones estatales tienen la oportunidad de ser elegidas.

D método

 

Supongo que te gusta

Origin blog.csdn.net/tostq/article/details/130689211
Recomendado
Clasificación