1. Terminologias
Existem muitos termos profissionais no aprendizado por reforço. Se você deseja iniciar o aprendizado por reforço, deve entender esses termos profissionais.
1] estado e
estado de ação sss (este quadro)
ação aaum ∈ ∈∈ {esquerda, direita, cima}
Quem faz a ação é o agente.
2] política
política π \piπ : De acordo com o estado observado, toma decisões e controla o movimento do agente.
⋅ \cdot⋅ Função políticaπ \piπ :(s, a) (s, a)( s ,a ) → [0, 1]:
π (a ∣ s) = P (A = a ∣ S = s). \;\;\;\;\;\pi (a|s) = P(A=a|S=s).π ( a ∣ s )=P ( A=a ∣ S=s ) .
⋅ \cdot⋅ É a probabilidade de realizar a açãoA = a A=aA=um dadosss , por exemplo,
⋅ π ( esquerda ∣ s ) = 0,2 , \;\;\;\;\;\cdot\pi (esquerda\;|\;s) = 0,2,⋅ π ( l e f t∣s )=0,2 ,
⋅ π ( direita ∣ s ) = 0,1 , \;\;\;\;\;\cdot\pi (direita|s) = 0,1,⋅ π ( r i g h t ∣ s )=0,1 ,
⋅ π (para cima ∣ s) = \;\;\;\;\;\cdot\pi(up\;\;|\;\;s) =⋅ π ( u p∣s )=0,7.
⋅ \cdot⋅ Ao observar o estadoS = s S = sS=s , a ação A do agente pode ser aleatória.
3] recompensa
recompensa RRR
⋅ \cdot⋅ Colete uma moeda:RRR = +1
⋅ \cdot⋅ Ganhe o jogo:RRR = +10000
⋅ \cdot⋅ Toque em um Goomba:RRR = -10000
\;\;\;(fim do jogo)
⋅ \cdot⋅ Nada acontece:RRR = +1
4] transição de estado
\;\;\;\;estado antigo ⟶ ação \;\;\overset{ação}{\longrightarrow}\;\;⟶ação _ _ _ _ _novo estado
⋅ \cdot⋅ Por exemplo, a ação “para cima” leva a um novo estado.
⋅ \cdot⋅ A transição de estado pode ser aleatória.
⋅ \cdot⋅ Ramdom é do ambiente.
⋅ \cdot⋅ p ( s ′ ∣ s , a ) p(s^{'}|s,a)p ( s′ ∣s,a ) =P ( S ′ = s ∣ S = s , A = a ) . P(S^{'}=s|S=s,A=a).P ( S′=s ∣ S=s ,A=a ) .
5] interação do ambiente do agente
O ambiente aqui é um programa de jogo, o agente é Mary e o estado st s_{t}sté o que o ambiente nos diz. Em super Mary, podemos tirar a foto atual como o ambiente st s_{t}st. quando vemos o estado st, precisamos fazer uma ação em a_{t}at, que pode ser esquerda, cima, direita.
Depois de fazer a ação em a_{t}at, obteremos um novo estado e uma recompensa rt r_{t}rt.
2. Aleatoriedade no Aprendizado por Reforço
1] Ação tem aleatoriedade
⋅ \cdot⋅ Estado dadosss , a ação pode ser aleatória, por exemplo,.
\;\;\;\;⋅ \cdot⋅ π ( " esquerda ∣ s " ) = 0,2 \pi("esquerda|s")=0,2π ( " l e f t ∣ s " )=0,2
\;\;\;\;⋅ \cdot⋅ π ( " direita ∣ s " ) = 0,1 \pi("direita|s")=0,1π ( " r i g h t ∣ s " )=0,1
\;\;\;\;⋅ \cdot⋅ π ( "up ∣ s" ) = 0,7 \pi("up|s")=0,7π ( " up ∣ s " ) _=0,7
As ações são amostradas pela função pocily .
2] As transições de estado têm aleatoriedade
⋅ \cdot⋅ Estado dadoS = s S=sS=s e açãoA = a A = aA=a , o ambiente gera aleatoriamente um novo estadoS ′ S^{'}S’ .
O novo estado é amostrado pelafunção de transição de estado.
3. Jogue usando IA
⋅ \cdot⋅ Observe um quadro (estados 1 s_{1}s1)
⋅ \cdot⋅ ⇒ \Rightarrow⇒ Transforme a açãoem 1 a_{1}a1(esquerda, direita ou para cima)
⋅ \cdot⋅ ⇒ \Rightarrow⇒ Observe um novo quadro (estados 2 s_{2}s2) e recompensa r 1 r_{1}r1
⋅ \cdot⋅ ⇒ \Rightarrow⇒ Transforme a açãoem 2 a_{2}a2
⋅ \cdot⋅ ⇒ \Rightarrow⇒ …
⋅ \cdot⋅ (estado, ação, recompensa) trajetória:
s 1 , a 1 , r 1 , s 2 , a 2 , r 2 , . . . . . . , s T , a T , r T . \;\;s_{1},a_{1},r_{1},s_{2},a_{2},r_{2},......,s_{T},a_{T} ,r_{T}.s1,a1,r1,s2,a2,r2,...... ,sT,aT,rT.
4. Recompensas e devoluções (importante)
4.1 Repetir
Definição: Retorno (recompensa futura cumulativa)
⋅ \cdot⋅ U t = R t + R t + 1 + R t + 2 + R t + 3 + . . . U_{t}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+...vocêt=Rt+Rt + 1+Rt + 2+Rt + 3+...
Pergunta: São R t R_{t}Rte R t + 1 R_{t+1}Rt + 1igualmente importante?
⋅ \cdot⋅ Qual dos seguintes você prefere?
\;\;\;⋅ \cdot⋅ Eu lhe dou $ 100 agora.
\;\;\;⋅ \cdot⋅ Darei a você $ 100 um ano depois.
⋅ \cdot⋅ A recompensa futura é menos valiosa do que a recompensa presente.
⋅ \cdot⋅ R t + 1 R_{t+1}Rt + 1deve receber menos peso do que R t R_{t}Rt
Definição: Retorno com desconto (recompensa futura com desconto cumulativo)
⋅ \cdot⋅ γ \gammaγ : taxa de desconto (hiperparâmetro de ajuste).
⋅ \cdot⋅ U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + . . . U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{2}R_{t+2}+\gamma ^{3}R_{t+3}+...vocêt=Rt+γ Rt + 1+c2R _t + 2+c3R _t + 3+...
4.2 Aleatoriedade nos retornos
Definição: Retorno descontado (na etapa de tempo t)
⋅ \cdot⋅ U t = R t + R t + 1 + R t + 2 + R t + 3 + . . . U_{t}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+...vocêt=Rt+Rt + 1+Rt + 2+Rt + 3+...
No intervalo de tempo t, o retorno U t U_{t}vocêté aleatório.
⋅ \cdot⋅ Duas fontes de aleatoriedade:
\;\;\;\;1. A ação pode ser aleatória: P [ A = a ∣ S = s ] = π ( a ∣ s ) . \;P[A=a|S=s]=\pi(a|s).P [ A=a ∣ S=s ]=π ( a ∣ s ) .
\;\;\;\;2. O novo estado pode ser aleatório: P [ S ′ = s ∣ S = s , A = a ] = p ( s ′ ∣ s , a ) . \;P[S^{'}=s|S=s,A=a]=p(s^{'}|s,a).P [ S′=s ∣ S=s ,A=um ]=p ( s′ ∣s,a ) .
⋅ \cdot⋅ Para qualquer i≥ \geq≥ t, a recompensaR i R_{i}Reudepende de S i S_{i}Seue A i A_{i}Aeu.
⋅ \cdot⋅ Assim, dadost s_{t}st, o retorno U t U_{t}vocêtdepende das variáveis aleatórias:
\;\;\;⋅ \cdot⋅ A t , A t + 1 , A t + 2 , . . . A_{t},A_{t+1},A_{t+2},...At,At + 1,At + 2,... eS t + 1 , S t + 2 , . . . S_{t+1},S_{t+2},...St + 1,St + 2,...
5. Função de valor
5.1 Função de valor de ação Q ( s , a ) Q (s, a)Q ( s ,a )
Definição: Retorno (recompensa futura cumulativa)
⋅ \cdot⋅ U t = R t + R t + 1 + R t + 2 + R t + 3 + . . . U_{t}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+...vocêt=Rt+Rt + 1+Rt + 2+Rt + 3+...
Definição: Função de valor de ação para a política π \piπ
⋅ \cdot⋅ Q π ( st , at ) = E [ U t ∣ S t = st , A t = at ] Q_{\pi}(s_{t},a_{t})=E[U_{t}|S_{ t}=s_{t},A_{t}=a_{t}]Qp( st,at)=E [ Ut∣ St=st,At=at]
⋅ \cdot⋅ RetornoU t U_{t}vocêt(variável aleatória) depende das ações A t , A t + 1 , A t + 2 , . . . A_{t},A_{t+1},A_{t+2},...At,At + 1,At + 2,... eS t , S t + 1 , S t + 2 , . . . S_{t},S_{t+1},S_{t+2},...St,St + 1,St + 2,...
⋅ \cdot⋅ As ações são aleatórias: P [ A = a ∣ S = s ] = π ( a ∣ s ) . \;P[A=a|S=s]=\pi(a|s).P [ A=a ∣ S=s ]=π ( a ∣ s ) . (função de política)
⋅ \cdot⋅ Os estados são aleatórios: P [ S ′ = s ∣ S = s , A = a ] = p ( s ′ ∣ s , a ) . \;P[S^{'}=s|S=s,A=a]=p(s^{'}|s,a).P [ S′=s ∣ S=s ,A=um ]=p ( s′ ∣s,a ) . (Estado de transição)
A função de valor de ação representa: se a função de política for usada π \piπ , então se é bom ou ruim agirem a_{t}atno estado de st s_{t}st, conhecemos a função política π \piπ , Você pode pontuar todas as açõesaaa no estado atual.
Definição: função de valor de ação ideal
⋅ \cdot⋅ Q π ∗ ( st , at ) = max π Q_{\pi}^{*}(s_{t},a_{t})=\underset{\pi}{max}Qpi∗( st,at)=pima x Q π ( st , at ) Q_{\pi}^{}(s_{t},a_{t})Qpi( st,at)
Avalie a açãoaaa para contar a melhor ação.
5.2 Função Estado-Valor V( s ) V(s)V ( s )
Definição: Função de valor de estado
⋅ \cdot⋅ V π ( st ) = V_{\pi}(s_{t})=Vp( st)= EA [ Q π ( st , A ) ] = ∑ a π ( a ∣ st ) ⋅ Q π ( st , a ) E_{A}[Q_{\pi}^{}(s_{t},A)] =\sum_{a} \pi(a|s_{t}) \cdot Q_{\pi}(s_{t},a)EA[ Qpi( st,A )]=∑umπ ( a ∣ st)⋅Qp( st,a ) . (As ações são discretas)
⋅ \cdot⋅ V π ( st ) = V_{\pi}(s_{t})=Vp( st)= EA [ Q π ( st , A ) ] = ∫ π ( a ∣ st ) ⋅ Q π ( st , a ) da E_{A}[Q_{\pi}^{}(s_{t},A)] =\int \pi(a|s_{t}) \cdot Q_{\pi}(s_{t},a) daEA[ Qpi( st,A )]=∫π ( a ∣ st)⋅Qp( st,a ) d a . (As ações são contínuas)
V π ( st ) V_{\pi}(s_{t})Vp( st) poderia fazer um julgamento sobre a situação atual e nos dizer se vamos ganhar ou perder, ou outros.
5.3 Compreendendo as funções de valor
⋅ \cdot⋅ Função de valor de ação:Q π ( st , at ) = E [ U t ∣ S t = st , A t = at ] Q_{\pi}(s_{t},a_{t})=E[U_{ t}|S_{t}=s_{t},A_{t}=a_{t}]Qp( st,at)=E [ Ut∣ St=st,At=at] .
⋅ \cdot⋅ Para políticaπ \piπ , Q π ( s , a ) \;Q_{\pi} (s, a)Qp( s ,a ) avalia o quão bom é para um agente escolher a açãoaaum tempo estando no estadosss .
⋅ \cdot⋅ Função de estado-valor:V π ( st ) = EA [ Q π ( st , A ) ] V_{\pi}(s_{t})=E_{A}[Q_{\pi}^{}(s_{ t},A)]Vp( st)=EA[ Qpi( st,A )]
⋅ \cdot⋅ Para política fixaπ \piπ , V π ( s ) \;V_{\pi}(s)Vp( s ) avalia quão boa é a situação no estadosss .
⋅ \cdot⋅ E s [ V π ( s ) ] E_{s}[V_{\pi}(s)]Es[ Vp( s )] avalia quão boa é a políticaπ \piπ é.
6. Como a IA controla o agente?
Suponha que temos uma boa política π ( a ∣ s ) \pi(a|s)π ( a ∣ s ) .
⋅ \cdot⋅ Ao observar o estadoss , s_{s},ss,
⋅ \cdot⋅ amostragem aleatória:em ∽ π ( ⋅ ∣ st ) a_{t}\backsim\pi(\cdot|s_{t})at∽π ( ⋅ ∣ st) .
Suponha que conheçamos a função de valor de ação ideal Q ∗ ( s , a ) Q^{*}(s,a)Q∗ (s,a ) .
⋅ \cdot⋅ Ao observar o estadost , s_{t},st,
⋅ \cdot⋅ escolha a ação que maximiza os valores:at = argmaxa Q ∗ ( st , a ) . a_{t}=argmax_{a}Q^{*}(s_{t},a).at=a r g ma xumQ∗ (st,a ) .
7. Resumo
Agente, Meio Ambiente, Estado sss , Açãoaaa , Recompensarrr , Políticaπ ( a ∣ s ) \pi(a|s)π ( a ∣ s ) , Transição de estadop ( s ′ ∣ s , a ) p(s^{'}|s,a)p ( s′ ∣s,a ) .
Retorno: U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + . . . U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{2}R_{t+2}+\gamma ^{3}R_{t+3}+...vocêt=Rt+γ Rt + 1+c2R _t + 2+c3R _t + 3+...
Função de valor de ação: Q π ( st , at ) = E [ U t ∣ S t = st , A t = at ] Q_{\pi}(s_{t},a_{t})=E[U_{t }|S_{t}=s_{t},A_{t}=a_{t}]Qp( st,at)=E [ Ut∣ St=st,At=at] .
Função de valor de ação ideal: Q π ∗ ( st , at ) = max π Q_{\pi}^{*}(s_{t},a_{t})=\underset {\pi}{max}Qpi∗( st,at)=pima x Q π ( st , at ) Q_{\pi}^{}(s_{t},a_{t})Qpi( st,at) .
Função de valor de estado: V π ( st ) = V_{\pi}(s_{t})=Vp( st)= EA [ Q π ( st , A ) ] E_{A}[Q_{\pi}^{}(s_{t},A)]EA[ Qpi( st,A )]