El resumen anterior de los procesos de Markov del proceso de decisión de Markov, ver a continuación: Procesos de Markov del proceso de decisión de Markov (proceso de
Markov ) Proceso de recompensa de Markov del proceso de decisión de Markov (proceso de recompensa de Markov) ), ver a continuación: Proceso de recompensa de Markov del proceso de decisión de Markov (proceso de recompensa de Markov)
Este artículo resume la ecuación de Bellman del proceso de decisión de Markov (Ecuación de Bellman)
1 Ecuación de Bellman para MRP
En primer lugar, entendemos desde la perspectiva de la función de valor, la función de valor se puede dividir en dos partes:
ver la siguiente fórmula de derivación:
es mejor entenderla directamente desde la primera línea hasta la última línea, porque del estado s al estado s + 1, sí No estoy seguro, o el ejemplo anterior.
Por ejemplo, en un juego de dados, cuando el punto actual es 1, el siguiente estado puede ser 1, 2, 3, 4, 5 y 6, por lo que habrá un símbolo deseado en la capa más externa.
Si continuamos empujándolo hacia abajo: en caso de duda, G (t + 1) se cambiará av (St + 1) cuando se derive la última línea. La razón es que la expectativa de cosecha es igual a la expectativa de cosecha. Consulte la comprensión de Ye Qiang sobre los zapatos para niños.
Finalmente, obtenemos la ecuación de Bellman para MRP:
se puede ver en la ecuación que v (s) se compone de dos partes. Una es la expectativa de recompensa instantánea de este estado. La expectativa de recompensa instantánea es igual a la recompensa instantánea. El siguiente estado es irrelevante.
Aquí hay una explicación de por qué se espera una conformidad, porque el siguiente estado s + 1 del estado s puede tener múltiples estados, como lanzar un dado, el siguiente estado puede tener 1, 2, 3, 4, 5, 6, de s Existe una cierta probabilidad para el próximo estado, por lo que habrá expectativas que cumplir.
El otro es el valor esperado del estado en el momento siguiente, que se puede obtener de acuerdo con la distribución de probabilidad del estado en el momento siguiente. Por ejemplo, en el ejemplo de dados anterior, del estado 1 al siguiente estado 1, 2, 3, 4, 5, 6 Para encontrar la expectativa, podemos usar directamente la fórmula de probabilidad p (1-> 1), p (1-> 2), p (1-> 3), p (1-> 4), p (1-> 5) , p (1-> 6) y luego multiplicar por la función de valor correspondiente al siguiente estado.
Si s 'se usa para representar cualquier estado posible en el siguiente momento en el estado s, entonces la ecuación de Bellman se puede escribir como: Las
diapositivas completas son las siguientes:
2Ejemplo: Ecuación de Bellman para MRP de estudiante
Bueno, dado que sabemos que la función de valor de cada estado se calcula iterativamente a través de la Ecuación de Bellman anterior, demos un ejemplo para calcular la función de valor de un estado para ayudar a comprender
cómo calcular 4.3 a través de la figura anterior. Solo vea la imagen a continuación:
puede haber algunos zapatos para niños que pregunten, al calcular la función de valor de este estado, ¿cómo saben las funciones de valor de otros estados?
Por ejemplo, al calcular 4.3, ¿cómo sabemos que la función de valor de su estado sucesor es 0.8, 10? De hecho, estos valores se pueden inicializar arbitrariamente al principio, y se pueden aprender y actualizar posteriormente, lo que es similar a los parámetros de ponderación de la red neuronal. Al principio, se inicializan arbitrariamente y luego se actualizan mediante pérdida a la inversa.
3 Ecuación de Bellman en forma de matriz
Finalmente, podemos dar la forma matricial de la ecuación de Bellman y
la forma de expresión específica de resolver la matriz combinada de la siguiente manera:
Las diapositivas totales son las siguientes:
La ecuación de Bellman es un sistema de ecuaciones lineales, teóricamente la solución se puede resolver directamente:
Pero su complejidad computacional es 0 (n ^ 3), que es el número de estados, porque el proceso de inversión de la matriz es 0 (n ^ 3).
Debido a la alta complejidad de la solución. Por lo tanto, la solución directa solo es adecuada para MRP a pequeña escala.
La solución de MRP a gran escala generalmente requiere un método iterativo. Los métodos de iteración más utilizados son:
- Programación dinámica,
- Evaluación de Montecarlo,
- Aprendizaje diferencial de series de tiempo Diferencia temporal,
estos métodos se presentarán por separado más adelante.
Referencia:
Curso de aprendizaje de refuerzo profundo de David Silver Lección 2: Proceso de decisión de Markov Ye Qiang:
Ye Qiang https://zhuanlan.zhihu.com/p/28084942
Lectura recomendada:
Cuando la red neuronal RNN se encuentra con NER (Reconocimiento de entidad con nombre): LSTM bidireccional, campo aleatorio condicional (CRF), Stack LSTM apilado, incrustación de letras
[combate real de aprendizaje profundo] cómo lidiar con el relleno de secuencia de longitud variable de entrada RNN en pytorch
[teoría básica de aprendizaje automático] Explicar la comprensión de la estimación de probabilidad posterior máxima (MAP)
欢迎关注公众号学习交流~