[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov

[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
El resumen anterior de los procesos de Markov del proceso de decisión de Markov, ver a continuación: Procesos de Markov del proceso de decisión de Markov (proceso de
Markov ) Proceso de recompensa de Markov del proceso de decisión de Markov (proceso de recompensa de Markov) ), ver a continuación: Proceso de recompensa de Markov del proceso de decisión de Markov (proceso de recompensa de Markov)
Este artículo resume la ecuación de Bellman del proceso de decisión de Markov (Ecuación de Bellman)

1 Ecuación de Bellman para MRP


En primer lugar, entendemos desde la perspectiva de la función de valor, la función de valor se puede dividir en dos partes:
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
ver la siguiente fórmula de derivación:
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
es mejor entenderla directamente desde la primera línea hasta la última línea, porque del estado s al estado s + 1, sí No estoy seguro, o el ejemplo anterior.

Por ejemplo, en un juego de dados, cuando el punto actual es 1, el siguiente estado puede ser 1, 2, 3, 4, 5 y 6, por lo que habrá un símbolo deseado en la capa más externa.

Si continuamos empujándolo hacia abajo: en caso de duda, G (t + 1) se cambiará av (St + 1) cuando se derive la última línea. La razón es que la expectativa de cosecha es igual a la expectativa de cosecha. Consulte la comprensión de Ye Qiang sobre los zapatos para niños.

Finalmente, obtenemos la ecuación de Bellman para MRP:
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
se puede ver en la ecuación que v (s) se compone de dos partes. Una es la expectativa de recompensa instantánea de este estado. La expectativa de recompensa instantánea es igual a la recompensa instantánea. El siguiente estado es irrelevante.

Aquí hay una explicación de por qué se espera una conformidad, porque el siguiente estado s + 1 del estado s puede tener múltiples estados, como lanzar un dado, el siguiente estado puede tener 1, 2, 3, 4, 5, 6, de s Existe una cierta probabilidad para el próximo estado, por lo que habrá expectativas que cumplir.

El otro es el valor esperado del estado en el momento siguiente, que se puede obtener de acuerdo con la distribución de probabilidad del estado en el momento siguiente. Por ejemplo, en el ejemplo de dados anterior, del estado 1 al siguiente estado 1, 2, 3, 4, 5, 6 Para encontrar la expectativa, podemos usar directamente la fórmula de probabilidad p (1-> 1), p (1-> 2), p (1-> 3), p (1-> 4), p (1-> 5) , p (1-> 6) y luego multiplicar por la función de valor correspondiente al siguiente estado.

Si s 'se usa para representar cualquier estado posible en el siguiente momento en el estado s, entonces la ecuación de Bellman se puede escribir como: Las
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
diapositivas completas son las siguientes:

[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov

2Ejemplo: Ecuación de Bellman para MRP de estudiante


Bueno, dado que sabemos que la función de valor de cada estado se calcula iterativamente a través de la Ecuación de Bellman anterior, demos un ejemplo para calcular la función de valor de un estado para ayudar a comprender
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
cómo calcular 4.3 a través de la figura anterior. Solo vea la imagen a continuación:
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
puede haber algunos zapatos para niños que pregunten, al calcular la función de valor de este estado, ¿cómo saben las funciones de valor de otros estados?

Por ejemplo, al calcular 4.3, ¿cómo sabemos que la función de valor de su estado sucesor es 0.8, 10? De hecho, estos valores se pueden inicializar arbitrariamente al principio, y se pueden aprender y actualizar posteriormente, lo que es similar a los parámetros de ponderación de la red neuronal. Al principio, se inicializan arbitrariamente y luego se actualizan mediante pérdida a la inversa.

3 Ecuación de Bellman en forma de matriz


Finalmente, podemos dar la forma matricial de la ecuación de Bellman y
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
la forma de expresión específica de resolver la matriz combinada de la siguiente manera:
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov

Las diapositivas totales son las siguientes:
[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov

La ecuación de Bellman es un sistema de ecuaciones lineales, teóricamente la solución se puede resolver directamente:

[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov
Pero su complejidad computacional es 0 (n ^ 3), que es el número de estados, porque el proceso de inversión de la matriz es 0 (n ^ 3).
Debido a la alta complejidad de la solución. Por lo tanto, la solución directa solo es adecuada para MRP a pequeña escala.

La solución de MRP a gran escala generalmente requiere un método iterativo. Los métodos de iteración más utilizados son:

  • Programación dinámica,
  • Evaluación de Montecarlo,
  • Aprendizaje diferencial de series de tiempo Diferencia temporal,
    estos métodos se presentarán por separado más adelante.

Referencia:
Curso de aprendizaje de refuerzo profundo de David Silver Lección 2: Proceso de decisión de Markov Ye Qiang:
Ye Qiang https://zhuanlan.zhihu.com/p/28084942

[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov

Lectura recomendada:

Cuando la red neuronal RNN se encuentra con NER (Reconocimiento de entidad con nombre): LSTM bidireccional, campo aleatorio condicional (CRF), Stack LSTM apilado, incrustación de letras
[combate real de aprendizaje profundo] cómo lidiar con el relleno de secuencia de longitud variable de entrada RNN en pytorch
[teoría básica de aprendizaje automático] Explicar la comprensión de la estimación de probabilidad posterior máxima (MAP)

      欢迎关注公众号学习交流~         

[Aprendizaje por refuerzo] Ecuación de Bellman del proceso de decisión de Markov

Supongo que te gusta

Origin blog.51cto.com/15009309/2554230
Recomendado
Clasificación