Aprendizaje por refuerzo: la ecuación de Bellman

∗ ∗ Enfoque: valor de estado, ecuación de Bellman∗ ∗ **Punto clave: valor de estado, ecuación de Bellman**Enfoque: valor de estado, ecuación de Bellman

estrategia de evaluación de retorno

  En la introducción anterior del concepto, sabemos que el retorno se puede utilizar para evaluar la calidad de una estrategia. Como se muestra en la figura, hay tres estrategias diferentes, entonces, ¿cuál es la mejor? En este momento, debe usar return para evaluar.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Cálculo de la rentabilidad
  Dado que la rentabilidad es tan importante, ¿cómo calcularla? El cálculo de retorno en el ejemplo anterior usa la definición de retorno, y en realidad hay un mejor método de cálculo.
inserte la descripción de la imagen aquí
¿Cómo calcular el retorno de la imagen de arriba? Para facilitar el cálculo, introducimos vi v_ivyo, usado para grabar desde el estado s 1 s_1s1El rendimiento obtenido de la salida.
inserte la descripción de la imagen aquí
Transforme la fórmula anterior para obtener la siguiente fórmula:
inserte la descripción de la imagen aquí
La fórmula anterior muestra que el rendimiento obtenido de diferentes estados depende del rendimiento obtenido de otros estados. Se puede encontrar que la fórmula anterior tiene tal característica que se puede obtener por sí misma a través de la iteración continua, como se muestra en la figura a continuación.Este método se llama Bootstrapping.
inserte la descripción de la imagen aquí
¿Por qué puede obtenerse a sí mismo a través de la iteración continua? Podemos usar las matemáticas para describir la razón. Primero, escriba la fórmula anterior en forma de matriz, como se muestra en la figura a continuación. De acuerdo con el conocimiento del álgebra lineal, se puede obtener la vv finalv .

inserte la descripción de la imagen aquí
v = r + γ pvv=r+γpvv=r+γ pags v v = ( mi − γ pags ) − 1 rv=(E-γp)^{-1}rv=( miγ p )- 1 r

  La fórmula anterior v = r + γ pvv=r+γpvv=r+γ p v es la ecuación de Bellman (para este problema determinista en particular). Aunque simple, demuestra la idea central: el valor de un estado depende del valor de otros estados.

valor de estado valor de estado

  Para comprender mejor el valor del estado, primero presentamos algunos símbolos tomando como ejemplo un proceso de un solo paso.
inserte la descripción de la imagen aquí
  S t S_tStttEstado A t A_ten el tiempo t
  AtS t S_tStLa acción realizada en el estado
  R t + 1 R_{t+1}Rt + 1: en S t S_tStestado tomar A t A_tAtLa recompensa S t + 1 S_{t+1} después del comportamiento
  St + 1S t S_tStActuar en el estado A t A_tAtnuevo estado después de la transición a

Todos los saltos involucrados en la fórmula anterior son
  S t S_t basados ​​en la distribución de probabilidadStA t A_tAt:依赖于π ( UN t = un ∣ S t = s ) π(A_t=a|S_t=s)π ( Unt=un St=s )
   S t S_tStA t A_tAt:依赖于p ( R t + 1 = r ∣ S t = s , A t = a ) p(R_{t+1}=r|S_t=s,A_t=a)pag ( Rt + 1=r St=s ,At=a )
   S t S_tStA t A_tAt:依赖于p ( S t + 1 = s ′ ∣ S t = s , A t = a ) p(S_{t+1}=s'|S_t=s,A_t=a)pag ( St + 1=sSt=s ,At=un )

Nota: donde R t + 1 R_{t+1}Rt + 1A veces también escrito como R t R_tRt, matemáticamente no hay diferencia entre los dos, pero habitualmente escribimos R t + 1 R_{t+1}Rt + 1
  El proceso de varios pasos se puede extender desde el proceso de un solo paso y se puede obtener la devolución del descuento. Usamos G t G_tGRAMOtexpresar.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
.Con
  la base anterior, ahora podemos definir formalmente el valor de estado, declararemos valor vvv se define comoG t G_tGRAMOtLa expectativa (o llamada valor esperado o valor medio):
inserte la descripción de la imagen aquí
  1, v π ( s ) v_π(s)vpag( s ) esSSUna función de S es una expectativa condicional con condiciones. Partiendo de diferentes estados, la trayectoria es diferente y la expectativa correspondiente también es diferente.
  2、v π ( s ) v_π(s)vpag( s ) se basa en la estrategiaπ ππ , los valores de estado obtenidos para diferentes estrategias pueden ser diferentes.
  3.v π ( s ) v_π(s)vpag( s ) no solo representa un valor de estado, sino que también representa un valor. Un valor de estado mayor significa que este estado es valioso, porque se obtiene un mayor rendimiento de este estado.

La diferencia entre retorno y valor de estado:
   el retorno se obtiene para una sola trayectoria, mientras que el valor de estado se obtiene para retornos obtenidos para múltiples trayectorias y luego se promedia. Si todo π ( UN t = un ∣ S t = s ) π(A_t=a|S_t=s)π ( Unt=un St=s )pags ( R t + 1 = r ∣ S t = s , A t = a ) p(R_{t+1}=r|S_t=s,A_t=a)pag ( Rt + 1=r St=s ,At=a )pags ( S t + 1 = s ′ ∣ S t = s , A t = a ) p(S_{t+1}=s'|S_t=s,A_t=a)pag ( St + 1=sSt=s ,At=a ) es determinista, entonces el retorno es el mismo que el valor de estado.
   Por ejemplo, las siguientes tres estrategias corresponden a diferentes trayectorias, yπ 1 π_1Pi1π 2 π_2Pi2La rentabilidad obtenida es igual al valor de estado; π 3 π_3Pi3El resultado correspondiente es el valor del estado.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Ecuación de Bellman: Derivación

   A través de la introducción anterior, ahora podemos intentar deducir la ecuación general de Bellman. Ahora, se cree que las siguientes fórmulas son comprensibles. La segunda fórmula muestra que el rendimiento obtenido en el tiempo t puede expresarse como la suma de la recompensa inmediata y el rendimiento del siguiente tiempo multiplicado por el coeficiente de decaimiento. Sustituyendo la segunda fórmula en la ecuación de valor de estado se obtiene la tercera fórmula.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Ahora
   , mire las dos partes de la tercera fórmula por separado:
inserte la descripción de la imagen aquí
   la esencia del primer término es el valor promedio de las recompensas oportunas. Primero, en el estado ssHay múltiples acciones para elegir en s , tome acción aaLa probabilidad de a esπ ππ ; mientras realiza la conductaaaLa recompensa obtenida por a es la EEE (del estadosss comienza a tomar acciónaaa es recompensadorrLa probabilidad de r multiplicada por su propio valorrrr , es decir, enumerar la probabilidad y la recompensa correspondiente a todas las acciones, multiplicar la probabilidad correspondiente por la recompensa y sumar para obtener la expectativa)

La
inserte la descripción de la imagen aquí
   esencia del segundo término es el valor promedio de las recompensas futuras. del estado actual sss partió a través de diferentes comportamientosaaa salta a unas' s's probabilidadp ( s ′ ∣ s ) p(s'|s)pag ( ss); Similar al primer ítem, salta al estados ′ s's' El valor obtenido es elEEE , y como no hay repercusión salta al estados ′ s’s' El valor obtenido es igual al estados' s's correspondiente al valor del estado. del estadosss al estados ' s's es igual a la probabilidad del estadosss comienza eligiendo una acción diferenteaaLa probabilidad de un π ππ multiplicado por el comportamiento de elecciónaaa salta as′ s’s La probabilidadp ( s ′ ∣ s , a ) p(s'|s,a)pag ( ss,a ) , y luego se suman acumulativamente.

inserte la descripción de la imagen aquí
   Por lo tanto, obtenemos la fórmula anterior, que es la forma general de la ecuación de Bellman. Se puede observar que la ecuación de Bellman en realidad describe la relación entre valores de estado en diferentes estados; consta de dos ítems: el valor promedio de las recompensas oportunas y el valor promedio de las recompensas futuras; además, esta fórmula es válida para todos estados en el espacio de estados establecido. Se puede ver que v π ( s ) v_π(s)vpag( s )v π ( s ′ ) v_π(s')vpag( s )son los valores de estado a calcular, y el método de cálculo es Bootstrapping, porque de hecho existe un conjunto de tales fórmulas, que se pueden resolver combinando estas fórmulas, y el proceso de solución depende de muchas probabilidades.

.Para
entender mejor la ecuación de Bellman, la explicamos con un ejemplo.
inserte la descripción de la imagen aquí
  Primero escribe todas las fórmulas de Bellman en este problema, primero consideramos el estado s 1 s_1s1, todas las variables involucradas en Bellman se pueden determinar de acuerdo con la estrategia dada.
inserte la descripción de la imagen aquí
π ( un = un 3 ∣ s 1 ) = 1 π ( un ≠ un 3 ∣ s 1 ) = 0 π(a=a_3|s_1)=1 \quad π(a≠a_3|s_1)=0π ( un=a3s1)=1π ( un=a3s1)=0 pags ( s ′ = s 3 ∣ s 1 , un 3 ) = 1 pags ( s ′ ≠ s 3 ∣ s 1 , un 3 ) = 0 p(s'=s_3|s_1,a_3)=1 \quad p( s'≠s_3|s_1,a_3)=0pag ( s=s3s1,a3)=1pag ( s=s3s1,a3)=0 pags ( r = 0 ∣ s 1 , un 3 ) = 1 pags ( r ≠ 0 ∣ s 1 , un 3 ) = 0 p(r=0|s_1,a_3)=1 \quad p(r≠0|s_1 ,a_3)=0pag ( r=0∣ s1,a3)=1pag ( r=0∣ s1,a3)=0
obtenemos fácilmente el estados 1 s_1s1La ecuación de Bellman de otros estados se puede obtener de manera similar, como sigue:
v π ( s 1 ) = 0 + γ v π ( s 3 ) v_π(s_1)=0+γv_π(s_3)vpag( s1)=0+v_ _pag( s3) v π ( s 2 ) = 1 + γ v π ( s 4 ) v_π(s_2)=1+γv_π(s_4)vpag( s2)=1+v_ _pag( s4) v π ( s 3 ) = 1 + γ v π ( s 4 ) v_π(s_3)=1+γv_π(s_4)vpag( s3)=1+v_ _pag( s4) v π ( s 4 ) = 1 + γ v π ( s 4 ) v_π(s_4)=1+γv_π(s_4)vpag( s4)=1+v_ _pag( s4)
para obtener las ecuaciones de Bellman correspondientes a todos los estados, y los resultados de solución son los siguientes:
inserte la descripción de la imagen aquí
Siγ = 0.9 γ=0.9C=0.9 :
inserte la descripción de la imagen aquí
  Puedes verv π ( s 1 ) v_π(s_1)vpag( s1) =v π ( s , 2 ) v_π(s,2)vpag( s ,2 ) =v π ( s 3 ) v_π(s_3)vpag( s3) =10, por qué todos son mayores quev π ( s 1 ) v_π(s_1)vpag( s1) ? Debido a que el valor del estado representa su valor, los valores que se muestran aquí son porque están más cerca de la meta.

.Ejemplo
2:
inserte la descripción de la imagen aquí
De igual forma se obtiene la fórmula de Bellman para cada estado, así:
inserte la descripción de la imagen aquí
Los resultados de solución son los siguientes:
inserte la descripción de la imagen aquí
cuando γ = 0.9 γ=0.9C=0.9 :
vπ ( s 1 ) = 8.5 v_π(s_1)=8.5vpag( s1)=8.5 v π ( s 2 ) = 10 v_π(s_2)=10vpag( s2)=10 v π ( s 3 ) = 10 v_π(s_3)=10vpag( s3)=10 v π ( s 4 ) = 10 v_π(s_4)=10vpag( s4)=10
indica que esta estrategia no es tan buena como la estrategia del ejemplo 1 anterior.

.

Fórmula de Bellman: forma vectorial

  Hay más de un conjunto de tales fórmulas en la fórmula de Bellman en problemas prácticos, y todas las fórmulas se pueden organizar en una forma vectorial combinándolas simultáneamente. Para poder escribir en forma vectorial, la ecuación de Bellman debe deformarse. donde r π ( s ) r_π(s)rpag( s ) representa el valor promedio de las recompensas oportunas que se pueden obtener del estado actual,p π ( s ′ ∣ s ) p_π(s'|s)pagpag( ss)significa estado esclavosss as ' s'sprobabilidad .
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Para distinguir, introducimos subíndices, y la ecuación de Bellman obtenida es la siguiente:
inserte la descripción de la imagen aquí
Por lo tanto, podemos obtener la siguiente forma:
donde[ p π ] i , j [p_π]_{i,j}[ pagpag]yo , jRepresenta la matriz media [ p π ] [p_π][ pagpag] objetivoiifila yo , jjLos elementos de la columna j son del estadosi s_isyosaltar al estado sj s_jsj
inserte la descripción de la imagen aquí
Para comprender mejor la forma vectorial anterior, ilustrémosla con un ejemplo: ahora
inserte la descripción de la imagen aquí
considere estos dos ejemplos, se ha dado la estrategia (flecha), como se muestra en la figura a continuación, entonces, cómo escribir la forma matricial de su ecuación de Bellman ?
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Fórmula de Bellman: Resolver

  Sabemos que dada una estrategia, podemos enumerar fácilmente la ecuación de Bellman correspondiente y obtener el valor de estado resolviendo la ecuación de Bellman. Este proceso se denomina evaluación de la estrategia, y la evaluación de la estrategia es un paso muy crítico en el aprendizaje por refuerzo. También es el herramienta más importante Solo a través de la evaluación de la estrategia podemos encontrar la estrategia óptima.
  Cómo resolver la fórmula de Bellman, generalmente hay dos métodos, el método matricial y el método iterativo. ¡
  Método matricial! La forma de la solución se puede obtener fácilmente a través del conocimiento del álgebra lineal, pero no la usamos a menudo en problemas prácticos, porque el espacio matricial de los problemas prácticos es muy grande y la cantidad de cálculo para resolver la matriz inversa será muy grande.
inserte la descripción de la imagen aquí
  ¡Método iterativo! Dando aleatoriamente un valor inicial v 0 v_0v0, la iteración continua puede obtener un conjunto de secuencias { v 0 , v 0 , v 0 , … {v_0,v_0,v_0,…} v0,v0,v0, }, cuando el número de iteracioneskkCuando k es lo suficientemente grande, el valor obtenido será cercano al valor real.
inserte la descripción de la imagen aquí
Para comprender mejor el proceso de resolución de la ecuación de Bellman, damos un ejemplo, a continuación, la regla establecida esr límite = r trampa = − 1 r_{límite}=r_{trampa}=-1rPerímetro=rtrampa=1 ,r punto final = + 1 r_{punto final}=+1rpunto final=+ 1γ = 0.9 γ=0.9C=0.9
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Podemos encontrar que al comparar el valor del estado, muestra que la estrategia 1 y la estrategia 2 son mejores, y la estrategia 3 y la estrategia 4 son peores.

.

valor de acción valor de acción

state value 与 action value 的区别与联系:
	状态值:是机械人从一个状态出发所得到的 return 平均值。
	动作值:是机械人从一个状态出发并且选择了一个行为得到的 return 平均值。
	本质上来说 state value 是 action value 的期望。

  ¿Por qué deberíamos preocuparnos por los valores de acción? Es porque la estrategia en el aprendizaje por refuerzo se refiere a cómo elegir un comportamiento en un estado para aumentar el valor del estado final, y cómo elegir un buen comportamiento debe juzgarse por el valor de la acción.
  Valor de acción El valor de acción se define de la siguiente manera:
inserte la descripción de la imagen aquí
Desde el punto de vista matemático, la relación entre el valor de estado y el valor de acción:
inserte la descripción de la imagen aquí
(2) La fórmula muestra que si conoce el promedio del valor de acción, puede obtener el valor de estado.
La ecuación (4) muestra que el valor de la acción se puede obtener si se conocen todos los valores de estado.

A través del siguiente ejemplo, entendamos el valor de la acción,
inserte la descripción de la imagen aquí
podemos obtener fácilmente el estado s 1 s_1s1的 valor de acción
q π ( s 1 , a 2 ) = − 1 + γ v π ( s 2 ) q_π(s_1,a_2)=-1+γv_π(s_2)qpag( s1,a2)=1+v_ _pag( s2)
Aunque la estrategia dada es ejecutarun 2 a_2a2, pero esta estrategia puede ser mala, y es necesario calcular otro valor de acción cuando es necesario volver a seleccionar una estrategia. De la misma manera, podemos encontrar el valor de acción de realizar otras acciones, así:
q π ( s 1 , a 1 ) = − 1 + γ v π ( s 1 ) q_π(s_1,a_1)=-1+γv_π (s_1)qpag( s1,a1)=1+v_ _pag( s1) q π ( s 1 , a 3 ) = 0 + γ v π ( s 3 ) q_π(s_1,a_3)=0+γv_π(s_3)qpag( s1,a3)=0+v_ _pag( s3) q π ( s 1 , un 4 ) = − 1 + γ v π ( s 1 ) q_π(s_1,a_4)=-1+γv_π(s_1)qpag( s1,a4)=1+v_ _pag( s1) q π ( s 1 , a 5 ) = 0 + γ v π ( s 1 ) q_π(s_1,a_5)=0+γv_π(s_1)qpag( s1,a5)=0+v_ _pag( s1)

Supongo que te gusta

Origin blog.csdn.net/qq_50086023/article/details/130724174
Recomendado
Clasificación