Breve descripción del algoritmo de gradiente de políticas

Este artículo presenta brevemente el método de gradiente de políticas en el aprendizaje de refuerzo profundo (aprendizaje de refuerzo profundo) mediante la clasificación del contenido del tutorial de aprendizaje automático del Sr. Li Hongyi.

El enlace de la estación B del curso de Li Hongyi:
Li Hongyi, aprendizaje de refuerzo profundo, gradiente de políticas

Notas relacionadas:
Resumen del algoritmo de optimización de políticas proximales Resumen del algoritmo
DQN (red Q profunda) Resumen del algoritmo
actor-crítico


Supongamos:
la trayectoria de un juego (trayectoria): τ \tauτ
jugador (actor) estrategia (política):θ \thetai

Entonces, el valor esperado del incentivo (recompensa) se puede estimar mediante N muestreo (muestreo) (incentivo RRR es una variable aleatoria):
R ˉ θ = ∑ τ R ( τ ) PAGS ( τ ∣ θ ) ≈ 1 norte ∑ n = 1 NR ( τ n ) \bar R_{\theta} = \sum_{\tau} R (\tau) P(\tau | \theta) \approx \frac{1}{N} \sum_{n=1}^{N} R(\tau^{n})Rˉi=tR ( τ ) PAGS ( τ θ )norte1norte = 1norteR ( tnorte )

La estrategia óptima es:
θ ∗ = arg ⁡ max ⁡ θ R ˉ θ \theta^{*} = \arg \max_{\theta} \bar R_{\theta}i=ar gimáximoRˉi


Dé la siguiente ecuación para un ascenso de gradiente
: ▽ R ˉ θ = ∑ τ R ( τ ) ▽ P ( τ ∣ θ ) = ∑ τ R ( τ ) . P ( τ ∣ θ ) ▽ P ( τ ∣ θ ) P ( τ ∣ θ ) = ∑ τ R ( τ ) PAGS ( τ ∣ θ ) ▽ ln ⁡ PAGS ( τ ∣ θ ) ≈ 1 norte ∑ norte = 1 NR ( τ norte ) ▽ ln ⁡ PAGS ( τ norte ∣ θ ) \triangle abajo \bar R_{\theta} = \sum_{\tau} R(\tau) \triangledown P(\tau | \theta) = \sum_{\tau} R(\tau) P(\; tau | \theta ) \ frac { \ Triangledown PAGS ( \ tau | \ theta )} { PAGS ( \ tau | \ theta )} = \ sum_{ \ tau } R ( \ tau ) PAGS ( \ tau | \ theta ) \ Triangledown \ln P( \tau | \theta) \approx \frac{1}{N}\sum_{n=1}^{N} R(\tau^{n}) \triangledown \ln P(\tau^ {n}|\ theta)Rˉi=tR ( τ ) PAGS ( τ θ )=tR ( τ ) PAGS ( τ θ )PAGS ( τ θ )PAGS ( τ θ )=tR ( τ ) PAGS ( τ θ ) enPAGS ( τ θ )norte1norte = 1norteR ( tnorte )enpag _ _norteθ)

Entre ellos, el principio de operación del logaritmo:
d ln ⁡ ( f ( x ) ) dx = 1 f ( x ) df ( x ) dx \frac {d \ln (f(x))} {dx} = \frac{ 1}{f(x)}\frac{df(x)}{dx}d xden ( f ( x ) )=f ( x )1d xd f ( x )

Dado que la probabilidad de que la trayectoria ocurra bajo la condición de la política:
P ( τ ∣ θ ) = p ( s 1 ) p ( a 1 ∣ s 1 , θ ) p ( r 1 , s 2 ∣ s 1 , a 1 ) pags ( un 2 ∣ s 2 , θ ) pags ( r 2 , s 3 ∣ s 2 , un 2 ) ⋯ = pags ( s 1 ) ∏ t = 1 T pags ( en ∣ st , θ ) pags ( rt , st + 1 ∣ st , at ) P(\tau | \theta) = p(s_1) p(a_1 | s_1, \theta) p(r_1, s_2 | s_1, a_1) p(a_2 | s_2, \theta) p(r_2 , s_3 | s_2 , a_2) \cdots = p(s_1) \prod_{t=1}^{T} p(a_t | s_t, \theta) p(r_t, s_{t+1} | s_t, a_t)PAGS ( τ θ )=pag ( s1) p ( un1s1,yo ) p ( r1,s2s1,a1) p ( un2s2,yo ) p ( r2,s3s2,a2)=pag ( s1)t = 1Tpag ( untst,yo ) p ( rt,st + 1st,at)

Entre ellos, sss es el estado del juego (estado) en cada momento,aaa es la acción del jugador.
Solop ( en ∣ st , θ ) p(a_t | s_t, \theta)pag ( untst,θ ) parte y la estrategia del jugadorθ \thetaθ está relacionado, los otros dos términosp ( s 1 ) p(s_1)pag ( s1)p ( rt , st + 1 ∣ st , at ) p(r_t, s_{t+1} | s_t, a_t)pag ( rt,st + 1st,at) son independientes de la estrategia del jugador.

Definamos la ecuación:
ln ⁡ PAGS ( τ ∣ θ ) = ln ⁡ pags ( s 1 ) + ∑ t = 1 T [ ln ⁡ pags ( en ∣ st , θ ) + ln ⁡ pags ( rt , st + 1 ) . ∣ st , en ) ] ▽ ln ⁡ PAGS ( τ ∣ θ ) = ∑ t = 1 T ▽ ln ⁡ pags ( en ∣ st , θ ) \ln PAGS(\tau | \theta) = \ln p(s_1) + \sum_{t=1}^{T} [\ln p(a_t | s_t, \theta) + \ln p(r_t, s_{t+1} | s_t, a_t)] \\ \triangledown \ln P ( \tau | \theta) = \sum_{t=1}^{T} \triangledown \ln p(a_t | s_t, \theta);enPAGS ( τ θ )=enpag ( s1)+t = 1T[ enpag ( untst,yo )+enpag ( rt,st + 1st,at) ]enPAGS ( τ θ )=t = 1Tenpag ( untst,yo )

Tenemos las siguientes ecuaciones:
▽ R ˉ θ ≈ 1 N ∑ n = 1 NR ( τ n ) ▽ ln ⁡ PAGS ( τ n ∣ θ ) = 1 N ∑ n = 1 NR ( τ n ) ∑ t = 1 T n ▽ ln ⁡ pags ( atn ∣ stn , θ ) = 1 norte ∑ norte = 1 norte ∑ t = 1 T norte R ( τ n ) ▽ ln ⁡ pags ( atn ∣ stn , θ ) \triangledown \bar R_{\theta } \approx \frac{1}{N} \sum_{n=1}^{N} R(\tau^{n}) \triangledown \ln P(\tau^{n} | \theta) = \frac { 1}{N} \sum_{n=1}^{N} R(\tau^{n}) \sum_{t=1}^{T_n} \triangledown \ln p(a^n_t | s^n_t , \theta) = \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}R(\tau^{n})\triangledown\ln p( a ^n_t | s^n_t, \theta)Rˉinorte1norte = 1norteR ( tnorte )enpag _ _norteθ)=norte1norte = 1norteR ( tnorte )t = 1Tnenpag ( untnstn,yo )=norte1norte = 1nortet = 1TnR ( tnorte )enpag ( untnstn,yo )

Tenga en cuenta los siguientes puntos:

Primero, el incentivo multiplicado por la fórmula anterior es el beneficio global, no un incentivo de un solo paso, de lo contrario no será posible aprender las acciones que motivan los momentos posteriores. (El cuarto punto se mejorará en consecuencia)

En segundo lugar, la razón para tomar el logaritmo:

Dado que tomar el logaritmo y luego encontrar el gradiente es equivalente a calcular el gradiente de la probabilidad y dividirlo por la probabilidad misma:
▽ ln ⁡ p ( atn ∣ stn , θ ) = ▽ p ( atn ∣ stn , θ ) p ( atn ∣ stn , θ ) \ Triangledown \ln p(a^n_t | s^n_t, \theta) = \frac {\triangledown p(a^n_t | s^n_t, \theta)} {p(a^n_t | s ^n_t, \theta) }enpag ( untnstn,yo )=pag ( untnstn,yo )p ( untnstn,yo ).

Y dividir por la probabilidad en sí misma puede evitar que ciertas acciones con incentivos bajos se muestreen varias veces, lo que resulta en la acumulación de incentivos excesivos:
La razón para ir logarítmica

En tercer lugar, introduzca la línea de base (baseline):

Cuando el incentivo del juego es constante y no negativo, para evitar que disminuya el valor de probabilidad de la acción de alto incentivo no muestreada, se agrega la línea de base:

Razones para introducir líneas de base 1
Razones para introducir líneas de base 2
Una de las formas más sencillas de establecer la línea de base es para R ( τ ) R(\tau)R ( τ ) se promedia:
b ≈ E [ R ( τ ) ] b \approx E[R(\tau)]bmi [ R ( τ ) ]

Cuarto, asigne los créditos apropiados a cada acción:

Acciones en cada momento, considerando únicamente la suma de todos los incentivos después de este punto de tiempo hasta el final del juego:
▽ R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T nrt ′ norte - segundo ) ▽ ln ⁡ pags ( atn ∣ stn , θ ) \triangledown \bar R_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t= 1} ^{T_n} (\sum_{t^{\prime}=t}^{T_n} r_{t^{\prime}}^n - b) \triangledown \ln p(a^n_t | s^n_t , \ theta)Rˉinorte1norte = 1nortet = 1Tn(t =tTnrtnsegundo ) enpag ( untnstn,yo )

Además, descontar los incentivos futuros, es decir, cuanto mayor sea el tiempo, menor será la influencia: ▽
R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − trt ′ norte − segundo ) ▽ ln ⁡ pags ( atn ∣ stn , θ ) \triangledown \bar R_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N } \sum_{t =1}^{T_n} (\sum_{t^{\prime}=t}^{T_n} \gamma^{t^{\prime} - t} r_{t^{\prime} }^n - b ) \triángulo abajo \ln p(a^n_t | s^n_t, \theta)Rˉinorte1norte = 1nortet = 1Tn(t =tTnCt -trtnsegundo ) enpag ( untnstn,yo )

Entre ellos, el factor de descuento γ \gammaEl rango de valores de γ es[ 0 , 1 ] [0, 1][ 0 ,1 ] , por lo general toma0.9 0.90,9 o 0,99 0,99 _0 . 9 9 , si toma0 00 , significa que solo se preocupan por los incentivos inmediatos, si es1 11 , significa que los incentivos futuros son iguales a los incentivos inmediatos.


Supongo que te gusta

Origin blog.csdn.net/Zhang_0702_China/article/details/122528740
Recomendado
Clasificación