Proceso de decisión de Markov en el aprendizaje por refuerzo, revisión de fórmulas comunes.

0. Conocimientos básicos

0.1 Ecuación de Bellman:

V(s)=R(s)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s\right) V\left(s^{\prime }\bien)

       Esta fórmula es el núcleo del aprendizaje por refuerzo.

       Entre ellos, s′ puede considerarse como un determinado estado en el futuro, y p (s′|s) se refiere a la probabilidad de pasar del estado actual al estado futuro. V (s′) representa el valor de un determinado estado futuro. Partimos del estado actual y tenemos una cierta probabilidad de ir a todos los estados futuros, por lo que tenemos que escribir p (s′ | s). Después de obtener el estado futuro, lo multiplicamos por γ para poder descontar recompensas futuras. La parte que sigue al signo más puede considerarse como la suma descontada de la recompensa futura.

       La ecuación de Bellman define la relación entre el estado actual y el estado futuro . La suma de los descuentos en recompensas futuras más las recompensas inmediatas forma la ecuación de Bellman.

       Aquí hay otra ecuación de Bellman de la función Q:

Q_{\pi}(s, a)=R(s,a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right ) V_{\pi}\left(s^{\prime}\right)

1. Proceso de decisión de Markov

1.1 Definición de función de transición de estado y función de recompensa

       Se conoce la función de política, es decir, se conoce la probabilidad de posibles acciones en cada estado, por lo que podemos agregar directamente las acciones y eliminar a, de modo que podamos obtener la transferencia del proceso de recompensa de Markov. Aquí no hay acción.

P_\pi\left(s^{\prime} \mid s\right)=\sum_{a \in A} \pi(a \mid s) p\left(s^{\prime} \mid s, a \bien)

r_\pi(s)=\sum_{a \in A} \pi(a \mid s) R(s, a)

        Tenga en cuenta que todos los subíndices de la fórmula aquí tienen π, que representa la matriz de transición de estado, la función de recompensa, la función de valor y la función de valor de acción en el proceso de toma de decisiones de Markov.

1.2 Definición de función de valor y función de acción
 

V_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]

Q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right]

     

1.3 La relación entre Q y V

       Al sumar las acciones en la función Q, obtenemos la función de valor.

V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s) Q_{\pi}(s, a)

1.4 Escriba la función de valor y la función de valor de acción en forma iterativa

      La relación entre el valor del estado actual y el valor del estado futuro .

V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s)\left(R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right) V_{\pi}\left(s^{\prime}\right)\right)

      La relación entre la función Q en el momento actual y la función Q en el futuro.

Q_{\pi}(s, a)=R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right ) \sum_{a^{\prime} \in A} \pi\left(a^{\prime} \mid s^{\prime}\right) Q_{\pi}\left(s^{\prime} , a^{\prime}\derecha)

2. Ecuación óptima de Bellman

2.1 Definición de función de valor de estado óptimo y función de valor de estado óptimo

      Función de valor de estado óptimo.

V^*(s)=\max _\pi V^\pi(s), \quad \forall s \in \mathcal{S}

      Función de valor de acción óptima.

Q^*(s, a)=\max _\pi Q^\pi(s, a), \quad \forall s \in \mathcal{S}, a \in \mathcal{A}

2.2 La relación entre los dos

      Cuando seguimos realizando la operación arg max, obtenemos un aumento monótono. Al realizar esta operación codiciosa (operación arg max), obtendremos una política mejor o sin cambios sin empeorar la función del valor. Entonces, cuando la mejora se detiene, obtenemos una estrategia óptima. Cuando la mejora se detiene y tomamos medidas para maximizar el valor de la función Q, la función Q se convertirá directamente en la función de valor.

Q_{\pi}\left(s, \pi^{*}(s)\right)=\max _{a \in A} Q_{\pi}(s, a)=Q_{\pi}(s , \pi(s))=V_{\pi}(s)

      De esto, podemos obtener la relación entre la función de valor de estado óptimo y la función de valor de estado óptimo. Es decir, el valor de un estado bajo la estrategia óptima debe ser igual a la expectativa de recompensa por tomar la mejor acción en ese estado.

V^{*}(s)=\max _{a} Q^{*}(s, a)

Ecuación de Bellman para la       función Q.

Q^*(s, a)=R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right) V ^*\izquierda(s^{\prime}\derecha)

  2.3 Ecuación óptima de Bellman

      La transferencia entre funciones V es la ecuación óptima de Bellman de la función V.

V^{*}(s)=\max_{a} \left(R(s,a) + \gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \ mediados de s, a\right) V^{*}\left(s^{\prime}\right)\right)    

Transferencia entre funciones Q, aprendizaje       Q, ecuación óptima de Bellman de la función Q.

Q^{*}(s, a)=R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right ) \max _{a^{\prime}} Q^{*}\left(s^{\prime}, a^{\prime}\right)

     Cuando V^{k+1}y V^{k}son iguales, es el punto fijo de la ecuación óptima de Bellman, que corresponde al estado óptimo. Cuando y son iguales, es el punto fijo de la ecuación óptima de Bellman, que corresponde al estado óptimo. La función de valor V^{*}extrae la estrategia óptima después de la iteración:,

\pi(s)=\underset{a}{\arg \max } \left[R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\ prime} \mid s, a\right) V^{k+1}\left(s^{\prime}\right)\right]

    

     

        .

Supongo que te gusta

Origin blog.csdn.net/tortorish/article/details/132677744
Recomendado
Clasificación