iteración de valor
A través del estudio del capítulo anterior, sabemos que la solución de la ecuación óptima de Bellman en realidad se divide en dos partes, una es dar un valor inicial vk v_kvkEncuentre la política óptima π k + 1 π_{k+1}Pik + 1, el segundo es actualizar vk + 1 v_{k+1}vk + 1
A continuación, analizaremos en detalle este algoritmo, así como su implementación en programación. En primer lugar, echemos un vistazo a su primer paso: actualización de políticas a través de un vk v_k
dadovkSe puede obtener el qk q_k correspondiente a cada estadoqkEntonces de acuerdo al diseño de probabilidad se obtiene el comportamiento correspondiente ak ∗ ( s ) a_k^*(s) bajo la estrategia óptimaak∗( s )
El segundo paso: actualización de valor , lo mismo, a través del vk v_k dadovkEncuentra el qk q_k correspondiente a cada estadoqkLuego calcule de acuerdo con la estrategia óptima para obtener vk + 1 v_{k+1}vk + 1
A través de la explicación anterior, obtenemos el siguiente proceso:
el pseudocódigo del algoritmo anterior se da de la siguiente manera:
Iteración de valor: ejemplos
Profundicemos nuestra comprensión con un ejemplo. rlímite = rtrampa = −1, punto final = +1, γ = 0,9 r_{límite}=r_{trampa}=-1, r_{punto final}=+1, γ=0,9rPerímetro=rtrampa=− 1 , rpunto final=+ 1 , do=0.9
cuando k = 0 k=0k=0
iteración de políticas
La iteración de políticas se divide en dos pasos: evaluación de políticas (PE) (PE)( PE ) y Optimización de Políticas( PI ) (PI)( PI )。 _
Resolviendo para v π k v_{πk}vpaqueteHay dos métodos: la primera solución matricial generalmente no se usa y el segundo método iterativo se usa principalmente.
Los pasos específicos de la iteración de políticas son los siguientes:
El pseudocódigo es el siguiente:
Iteración de estrategia: un ejemplo
Del mismo modo, profundizamos nuestra comprensión con un ejemplo. Límite r = − 1 , Punto final r = + 1 , γ = 0,9 r_{límite}=-1, r_{Punto final}=+1, γ=0,9rPerímetro=− 1 , rpunto final=+ 1 , do=0.9 , el comportamiento es: izquierdaal a_layo, a la derecha ar a_rar, in situ a 0 a0de 0
Iteración de estrategia: caso dos
Algoritmo iterativo de la estrategia de truncamiento
Primero, comparemos la diferencia entre la iteración de valor y la iteración de política:
pseudocódigo: