(1) Noções básicas de aprendizado por reforço profundo [Conceitos básicos]

1. Terminologias

Existem muitos termos profissionais no aprendizado por reforço. Se você deseja iniciar o aprendizado por reforço, deve entender esses termos profissionais.

1] estado e
estado de ação sss (este quadro)

ação aaum ∈ ∈ {esquerda, direita, cima}

Quem faz a ação é o agente.

2] política

política π \piπ : De acordo com o estado observado, toma decisões e controla o movimento do agente.

⋅ \cdot Função políticaπ \piπ :(s, a) (s, a)( s ,a ) → [0, 1]:
           π (a ∣ s) = P (A = a ∣ S = s). \;\;\;\;\;\pi (a|s) = P(A=a|S=s).π ( a s )=P ( A=a S=s ) .
⋅ \cdot É a probabilidade de realizar a açãoA = a A=aA=um dadosss , por exemplo,
           ⋅ π ( esquerda ∣ s ) = 0,2 , \;\;\;\;\;\cdot\pi (esquerda\;|\;s) = 0,2,π ( l e f ts )=0,2 ,
           ⋅ π ( direita ∣ s ) = 0,1 , \;\;\;\;\;\cdot\pi (direita|s) = 0,1,π ( r i g h t s )=0,1 ,
           ⋅ ​​π (para cima ∣ s) = \;\;\;\;\;\cdot\pi(up\;\;|\;\;s) =π ( u ps )=0,7.
⋅ \cdot Ao observar o estadoS = s S = sS=s , a ação A do agente pode ser aleatória.

3] recompensa

recompensa RRR
⋅ \cdot Colete uma moeda:RRR = +1
⋅ \cdot Ganhe o jogo:RRR = +10000
⋅ \cdot Toque em um Goomba:RRR = -10000
       \;\;\;(fim do jogo)
⋅ \cdot Nada acontece:RRR = +1

4] transição de estado

         \;\;\;\;estado antigo      ⟶ ação \;\;\overset{ação}{\longrightarrow}\;\;ação _ _ _ _ _novo estado
⋅ \cdot Por exemplo, a ação “para cima” leva a um novo estado.
⋅ \cdot A transição de estado pode ser aleatória.
⋅ \cdot Ramdom é do ambiente.
⋅ \cdot p ( s ′ ∣ s , a ) p(s^{'}|s,a)p ( ss,a ) =P ( S ′ = s ∣ S = s , A = a ) . P(S^{'}=s|S=s,A=a).P ( S=s S=s ,A=a ) .

5] interação do ambiente do agente

O ambiente aqui é um programa de jogo, o agente é Mary e o estado st s_{t}sté o que o ambiente nos diz. Em super Mary, podemos tirar a foto atual como o ambiente st s_{t}st. quando vemos o estado st, precisamos fazer uma ação em a_{t}at, que pode ser esquerda, cima, direita.

Depois de fazer a ação em a_{t}at, obteremos um novo estado e uma recompensa rt r_{t}rt.

2. Aleatoriedade no Aprendizado por Reforço

1] Ação tem aleatoriedade

⋅ \cdot Estado dadosss , a ação pode ser aleatória, por exemplo,.
         \;\;\;\;⋅ \cdot π ( " esquerda ∣ s " ) = 0,2 \pi("esquerda|s")=0,2π ( " l e f t s " )=0,2
         \;\;\;\;⋅ \cdot π ( " direita ∣ s " ) = 0,1 \pi("direita|s")=0,1π ( " r i g h t s " )=0,1
         \;\;\;\;⋅ \cdot π ( "up ∣ s" ) = 0,7 \pi("up|s")=0,7π ( " up s " ) _=0,7

As ações são amostradas pela função pocily .

2] As transições de estado têm aleatoriedade

⋅ \cdot Estado dadoS = s S=sS=s e açãoA = a A = aA=a , o ambiente gera aleatoriamente um novo estadoS ′ S^{'}S .

O novo estado é amostrado pelafunção de transição de estado.

3. Jogue usando IA

⋅ \cdot Observe um quadro (estados 1 s_{1}s1)
⋅ \cdot ⇒ \Rightarrow Transforme a açãoem 1 a_{1}a1(esquerda, direita ou para cima)
⋅ \cdot ⇒ \Rightarrow Observe um novo quadro (estados 2 s_{2}s2) e recompensa r 1 r_{1}r1
⋅ \cdot ⇒ \Rightarrow Transforme a açãoem 2 a_{2}a2
⋅ \cdot ⇒ \Rightarrow

⋅ \cdot (estado, ação, recompensa) trajetória:
     s 1 , a 1 , r 1 , s 2 , a 2 , r 2 , . . . . . . , s T , a T , r T . \;\;s_{1},a_{1},r_{1},s_{2},a_{2},r_{2},......,s_{T},a_{T} ,r_{T}.s1,a1,r1,s2,a2,r2,...... ,sT,aT,rT.

4. Recompensas e devoluções (importante)

4.1 Repetir

Definição: Retorno (recompensa futura cumulativa)

⋅ \cdot U t = R t + R t + 1 + R t + 2 + R t + 3 + . . . U_{t}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+...vocêt=Rt+Rt + 1+Rt + 2+Rt + 3+...

Pergunta: São R t R_{t}Rte R t + 1 R_{t+1}Rt + 1igualmente importante?
⋅ \cdot Qual dos seguintes você prefere?
       \;\;\;⋅ \cdot Eu lhe dou $ 100 agora.
       \;\;\;⋅ \cdot Darei a você $ 100 um ano depois.
⋅ \cdot A recompensa futura é menos valiosa do que a recompensa presente.
⋅ \cdot R t + 1 R_{t+1}Rt + 1deve receber menos peso do que R t R_{t}Rt

Definição: Retorno com desconto (recompensa futura com desconto cumulativo)

⋅ \cdot γ \gammaγ : taxa de desconto (hiperparâmetro de ajuste).

⋅ \cdot U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + . . . U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{2}R_{t+2}+\gamma ^{3}R_{t+3}+...vocêt=Rt+γ Rt + 1+c2R _t + 2+c3R _t + 3+...

4.2 Aleatoriedade nos retornos

Definição: Retorno descontado (na etapa de tempo t)

⋅ \cdot U t = R t + R t + 1 + R t + 2 + R t + 3 + . . . U_{t}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+...vocêt=Rt+Rt + 1+Rt + 2+Rt + 3+...

No intervalo de tempo t, o retorno U t U_{t}vocêté aleatório.
⋅ \cdot Duas fontes de aleatoriedade:
         \;\;\;\;1. A ação pode ser aleatória:    P [ A = a ∣ S = s ] = π ( a ∣ s ) . \;P[A=a|S=s]=\pi(a|s).P [ A=a S=s ]=π ( a s ) .
         \;\;\;\;2. O novo estado pode ser aleatório:    P [ S ′ = s ∣ S = s , A = a ] = p ( s ′ ∣ s , a ) . \;P[S^{'}=s|S=s,A=a]=p(s^{'}|s,a).P [ S=s S=s ,A=um ]=p ( ss,a ) .

⋅ \cdot Para qualquer i≥ \geq t, a recompensaR i R_{i}Reudepende de S i S_{i}Seue A i A_{i}Aeu.

⋅ \cdot Assim, dadost s_{t}st, o retorno U t U_{t}vocêtdepende das variáveis ​​aleatórias:
       \;\;\;⋅ \cdot A t , A t + 1 , A t + 2 , . . . A_{t},A_{t+1},A_{t+2},...At,At + 1,At + 2,... eS t + 1 , S t + 2 , . . . S_{t+1},S_{t+2},...St + 1,St + 2,...

5. Função de valor

5.1 Função de valor de ação Q ( s , a ) Q (s, a)Q ( s ,a )

Definição: Retorno (recompensa futura cumulativa)
⋅ \cdot U t = R t + R t + 1 + R t + 2 + R t + 3 + . . . U_{t}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+...vocêt=Rt+Rt + 1+Rt + 2+Rt + 3+...

Definição: Função de valor de ação para a política π \piπ
⋅ \cdot Q π ( st , at ) = E [ U t ∣ S t = st , A t = at ] Q_{\pi}(s_{t},a_{t})=E[U_{t}|S_{ t}=s_{t},A_{t}=a_{t}]Qp( st,at)=E [ UtSt=st,At=at]

⋅ \cdot RetornoU t U_{t}vocêt(variável aleatória) depende das ações A t , A t + 1 , A t + 2 , . . . A_{t},A_{t+1},A_{t+2},...At,At + 1,At + 2,... eS t , S t + 1 , S t + 2 , . . . S_{t},S_{t+1},S_{t+2},...St,St + 1,St + 2,...

⋅ \cdot As ações são aleatórias:    P [ A = a ∣ S = s ] = π ( a ∣ s ) . \;P[A=a|S=s]=\pi(a|s).P [ A=a S=s ]=π ( a s ) . (função de política)

⋅ \cdot Os estados são aleatórios:    P [ S ′ = s ∣ S = s , A = a ] = p ( s ′ ∣ s , a ) . \;P[S^{'}=s|S=s,A=a]=p(s^{'}|s,a).P [ S=s S=s ,A=um ]=p ( ss,a ) . (Estado de transição)

A função de valor de ação representa: se a função de política for usada π \piπ , então se é bom ou ruim agirem a_{t}atno estado de st s_{t}st, conhecemos a função política π \piπ , Você pode pontuar todas as açõesaaa no estado atual.

Definição: função de valor de ação ideal
⋅ \cdot Q π ∗ ( st , at ) = max π Q_{\pi}^{*}(s_{t},a_{t})=\underset{\pi}{max}Qpi( st,at)=pima x Q π ( st , at ) Q_{\pi}^{}(s_{t},a_{t})Qpi( st,at)
Avalie a açãoaaa para contar a melhor ação.

5.2 Função Estado-Valor V( s ) V(s)V ( s )

Definição: Função de valor de estado
⋅ \cdot V π ( st ) = V_{\pi}(s_{t})=Vp( st)= EA [ Q π ( st , A ) ] = ∑ a π ( a ∣ st ) ⋅ Q π ( st , a ) E_{A}[Q_{\pi}^{}(s_{t},A)] =\sum_{a} \pi(a|s_{t}) \cdot Q_{\pi}(s_{t},a)EA[ Qpi( st,A )]=umπ ( a st)Qp( st,a ) . (As ações são discretas)

⋅ \cdot V π ( st ) = V_{\pi}(s_{t})=Vp( st)= EA [ Q π ( st , A ) ] = ∫ π ( a ∣ st ) ⋅ Q π ( st , a ) da E_{A}[Q_{\pi}^{}(s_{t},A)] =\int \pi(a|s_{t}) \cdot Q_{\pi}(s_{t},a) daEA[ Qpi( st,A )]=π ( a st)Qp( st,a ) d a . (As ações são contínuas)

V π ( st ) V_{\pi}(s_{t})Vp( st) poderia fazer um julgamento sobre a situação atual e nos dizer se vamos ganhar ou perder, ou outros.

5.3 Compreendendo as funções de valor

⋅ \cdot Função de valor de ação:Q π ( st , at ) = E [ U t ∣ S t = st , A t = at ] Q_{\pi}(s_{t},a_{t})=E[U_{ t}|S_{t}=s_{t},A_{t}=a_{t}]Qp( st,at)=E [ UtSt=st,At=at] .
⋅ \cdot Para políticaπ \piπ ,    Q π ( s , a ) \;Q_{\pi} (s, a)Qp( s ,a ) avalia o quão bom é para um agente escolher a açãoaaum tempo estando no estadosss .

⋅ \cdot Função de estado-valor:V π ( st ) = EA [ Q π ( st , A ) ] V_{\pi}(s_{t})=E_{A}[Q_{\pi}^{}(s_{ t},A)]Vp( st)=EA[ Qpi( st,A )]
⋅ \cdot Para política fixaπ \piπ ,    V π ( s ) \;V_{\pi}(s)Vp( s ) avalia quão boa é a situação no estadosss .
⋅ \cdot E s [ V π ( s ) ] E_{s}[V_{\pi}(s)]Es[ Vp( s )] avalia quão boa é a políticaπ \piπ é.

6. Como a IA controla o agente?

Suponha que temos uma boa política π ( a ∣ s ) \pi(a|s)π ( a s ) .
⋅ \cdot Ao observar o estadoss , s_{s},ss,
⋅ \cdot amostragem aleatória:em ∽ π ( ⋅ ∣ st ) a_{t}\backsim\pi(\cdot|s_{t})atπ ( st) .

Suponha que conheçamos a função de valor de ação ideal Q ∗ ( s , a ) Q^{*}(s,a)Q (s,a ) .
⋅ \cdot Ao observar o estadost , s_{t},st,
⋅ \cdot escolha a ação que maximiza os valores:at = argmaxa Q ∗ ( st , a ) . a_{t}=argmax_{a}Q^{*}(s_{t},a).at=a r g ma xumQ (st,a ) .

7. Resumo

Agente, Meio Ambiente, Estado sss , Açãoaaa , Recompensarrr , Políticaπ ( a ∣ s ) \pi(a|s)π ( a s ) , Transição de estadop ( s ′ ∣ s , a ) p(s^{'}|s,a)p ( ss,a ) .

Retorno: U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + . . . U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{2}R_{t+2}+\gamma ^{3}R_{t+3}+...vocêt=Rt+γ Rt + 1+c2R _t + 2+c3R _t + 3+...

Função de valor de ação: Q π ( st , at ) = E [ U t ∣ S t = st , A t = at ] Q_{\pi}(s_{t},a_{t})=E[U_{t }|S_{t}=s_{t},A_{t}=a_{t}]Qp( st,at)=E [ UtSt=st,At=at] .

Função de valor de ação ideal: Q π ∗ ( st , at ) = max π Q_{\pi}^{*}(s_{t},a_{t})=\underset {\pi}{max}Qpi( st,at)=pima x Q π ( st , at ) Q_{\pi}^{}(s_{t},a_{t})Qpi( st,at) .

Função de valor de estado: V π ( st ) = V_{\pi}(s_{t})=Vp( st)= EA [ Q π ( st , A ) ] E_{A}[Q_{\pi}^{}(s_{t},A)]EA[ Qpi( st,A )]

Acho que você gosta

Origin blog.csdn.net/weixin_49716548/article/details/125960576
Recomendado
Clasificación