Aprendizaje por refuerzo: iteración de valores e iteración de políticas

iteración de valor

inserte la descripción de la imagen aquí
  A través del estudio del capítulo anterior, sabemos que la solución de la ecuación óptima de Bellman en realidad se divide en dos partes, una es dar un valor inicial vk v_kvkEncuentre la política óptima π k + 1 π_{k+1}Pik + 1, el segundo es actualizar vk + 1 v_{k+1}vk + 1
inserte la descripción de la imagen aquí
  A continuación, analizaremos en detalle este algoritmo, así como su implementación en programación. En primer lugar, echemos un vistazo a su primer paso: actualización de políticas a través de un vk v_k
inserte la descripción de la imagen aquí
  dadovkSe puede obtener el qk q_k correspondiente a cada estadoqkEntonces de acuerdo al diseño de probabilidad se obtiene el comportamiento correspondiente ak ∗ ( s ) a_k^*(s) bajo la estrategia óptimaak( s )

  El segundo paso: actualización de valor , lo mismo, a través del vk v_k dadovkEncuentra el qk q_k correspondiente a cada estadoqkLuego calcule de acuerdo con la estrategia óptima para obtener vk + 1 v_{k+1}vk + 1
inserte la descripción de la imagen aquí
A través de la explicación anterior, obtenemos el siguiente proceso:
inserte la descripción de la imagen aquí
el pseudocódigo del algoritmo anterior se da de la siguiente manera:
inserte la descripción de la imagen aquí

Iteración de valor: ejemplos

  Profundicemos nuestra comprensión con un ejemplo. rlímite = rtrampa = −1, punto final = +1, γ = 0,9 r_{límite}=r_{trampa}=-1, r_{punto final}=+1, γ=0,9rPerímetro=rtrampa=1 , rpunto final=+ 1 , do=0.9

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

cuando k = 0 k=0k=0
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

iteración de políticas

  La iteración de políticas se divide en dos pasos: evaluación de políticas (PE) (PE)( PE ) y Optimización de Políticas( PI ) (PI)( PI ) _
inserte la descripción de la imagen aquí

  Resolviendo para v π k v_{πk}vpaqueteHay dos métodos: la primera solución matricial generalmente no se usa y el segundo método iterativo se usa principalmente.
inserte la descripción de la imagen aquí

  Los pasos específicos de la iteración de políticas son los siguientes:
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

El pseudocódigo es el siguiente:
inserte la descripción de la imagen aquí

Iteración de estrategia: un ejemplo

  Del mismo modo, profundizamos nuestra comprensión con un ejemplo. Límite r = − 1 , Punto final r = + 1 , γ = 0,9 r_{límite}=-1, r_{Punto final}=+1, γ=0,9rPerímetro=1 , rpunto final=+ 1 , do=0.9 , el comportamiento es: izquierdaal a_layo, a la derecha ar a_rar, in situ a 0 a0de 0
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Iteración de estrategia: caso dos

inserte la descripción de la imagen aquí

Algoritmo iterativo de la estrategia de truncamiento

  Primero, comparemos la diferencia entre la iteración de valor y la iteración de política:
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
pseudocódigo:
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/qq_50086023/article/details/130799817
Recomendado
Clasificación