Aprendizagem por Reforço Baseada em Valor

revisão :

Definição: Retorno descontado(recompensa futura descontada cumulativa)
$\cdot$ $U_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{2}R_{t+2}+\gamma ^{3}R_{t+3}+...$

$\cdot$ O retorno depende da ação $A_{t},A_{t+1},A_{t+2},...$ e estados $S_{t},S_{t+1},S_{t+2},...$
$\cdot$ As ações são aleatórias: $P[A=a|S=s]=\pi(a|s).$ $\;\;\;$ (Função de política)
$\cdot$ Os estados são aleatórios: $P[S^{'}=s^{'}|S=s, A=a]=p(s^{'}|s,a).$ $\;\;\;$ (Estado de transição)

Definição: Função de valor de ação para a política $\pi.$
$\cdot$ $Q_{\pi}(s_{t},a_{t}) = E[U_{t}|S_{t}=s_{t},A_{t}=a_{t}].$

$\cdot$ Ações tomadas $A_{t+1},A_{t+2},A_{t+3},...$ e estados $S_{t+1},S_{t+2},S_{t+3},...$
$\cdot$ Integre tudo, exceto as observações: $A_{t}=a_{t}$ e $S_{t}=s_{t}.$

Definição: função de valor de ação ideal
$\cdot$ $Q^{*}(s_{t},a_{t}) = \underset{\pi}{max}Q_{\pi}(s_{t},a_{t}).$
$\cdot$ Qualquer que seja a função de política $\pi$ é usado, o resultado de tomar $a_{t}$ no estado $s_{t}$ não pode ser melhor que $Q^{*}(s_{t},a_{t}).$

1. Rede Q profunda (DQN)

Objetivo: Ganhar o jogo( $\approx$ maximizar a recompensa total.)

Questão: Se conhecemos $Q^{*}(s,a)$ , qual é a melhor ação?
$\cdot$ Obviamente, a melhor ação é $a^{*} = arg\underset{a}{max}Q^{*}(s,a).$
$Q^{*}$ é uma indicação de quão bom é para um agente escolher a ação $um$ tempo estando no estado $s$ ).
$Q^{*}$ é um profeta que sempre pode nos guiar para fazer ações. Mas, na verdade, é impossível aproximar-se de um profeta onipotente.

Desafio: Não sabemos $Q^{*}(s,a).$
$\cdot$ Solução: Deep Q Network(DQN)
$\cdot$ Use a rede neural $Q^{*}(s,a,w)$ para aproximar $Q^{*}(s,a)$ .

$w$ é o parâmetro da rede neural, $s$ é a entrada e a saída da rede neural é muitos valores, que são as pontuações possíveis de todas as ações. Treinamos a rede por meio de recompensas, e a pontuação dessa rede vai melhorando gradativamente e se tornando cada vez melhor.

Rede Q profunda:
$\cdot$ Forma de entrada: tamanho da captura de tela.
$\cdot$ Forma de saída: dimensão do espaço de ação (pontuação de cada ação).

Pergunta: Com base nas previsões, qual deve ser a ação?
Resposta: Se a pontuação dessa ação for alta, qual ação deve ser usada.

2. Aprendizagem por Diferença Temporal (TD)

O método mais comumente usado para treinar DQN é o algoritmo TD.

Exemplo

$\cdot$ Quero dirigir de Nova York para Atlanta.
$\cdot$ Modelo Q( $w$ ) estima o custo de tempo, por exemplo, 1000 minutos.

Pergunta: Como faço para atualizar o modelo?

$\cdot$ Faça uma previsão: $q = Q (w), e . g ., q = 1000.$

$\cdot$ Termine a viagem e obtenha o alvo $ y, por exemplo, y = 860.$

$\cdot$ Perda: $\frac{1}{2}(qy)^{2}.$

$\cdot$ Gradiente: $\frac{\parcial L}{\parcial w}=\frac{\parcial q}{\parcial w} \cdot \frac{\parcial L}{\parcial q}=(qy)\cdot\frac{\parcial Q(w)}{\parcial w}.$

$\cdot$ Descida do gradiente: $w_{t+1}=w_{t}- \alpha\cdot\frac{\parcial L}{\parcial w}\mid_{w=w_{t}}.$

$\cdot$ Posso atualizar o modelo antes de terminar a viagem?
$\cdot$ Posso obter um $w$ assim que cheguei em DC?

Aprendizagem por Diferença Temporal (TD)

$\cdot$ Estimativa do modelo:

$\;\;\;\;\;\;\;\;\;\;\;$ NYC para Atlanta: 1000 minutos (estimativa).

$\cdot$ Cheguei em DC; custo de tempo real:

$\;\;\;\;\;\;\;\;\;\;\;$ NYC para DC: 300 minutos (real).

$\cdot$ O modelo agora atualiza sua estimativa:
$\;\;\;\;\;\;\;\;\;\;\;$ DC para Atlanta: 600 minutos (estimativa)

$\cdot$ Estimativa do modelo: $\,minutos$

$\cdot$ Estimativa atualizada: $300 + 600 = 900 min u tes (T D alvo) .______$

$\cdot$ Alvo TD $y = 900$ é uma estimativa mais confiável do que $1000$ .

$\cdot$ Perda: $\frac{1}{2}$ $\underbrace{(Q(w)-y) }_{\text{erro TD}}$ $^{2}.$

$\cdot$ Gradiente: $\frac{\parcial L}{\parcial w}=\underbrace{(1000-900) }_{\text{erro TD}} \cdot \frac{\parcial Q(w)}{\parcial w}.$

$\cdot$ Descida do gradiente: $w_{t+1}=w_{t}-\alpha \cdot \frac{\parcial L}{\parcial w} \mid_{w=w_{t}}.$

3. Por que o aprendizado de TD funciona?

$\cdot$ Estimativas do modelo:
$\;\;\;\;\;$ NYC para Atlanta: $1000$ minutos.
$\;\;\;\;\;$ DC para Atlanta: $600$ minutos.
$\;\;\;\;\;$ $\Rightarrow$ NYC para DC: $400$ minutos.

$\cdot$ Dados básicos:
$\;\;\;\;\;$ NYC para DC: $300$ minutos.

$\cdot$ Erro TD: $\delta=400-300=100$

4. Como aplicar o aprendizado de TD ao DQN?

$\cdot$ No exemplo “tempo de condução”, temos a equação:
$\;\;\;\;\;\;\;\;\;\;\;\underbrace{T_{NYC\para ATL}}_{\text{Estimativa do modelo}}\approx\underbrace{T_{NYC \to DC}}_{\text{Tempo real}}+\underbrace{T_{DC\to ATL}}_{\text{Estimativa do modelo}}.$

O acima é a forma do algoritmo TD.

$\cdot$ No aprendizado por reforço profundo:
$\;\;\;\;\;\;\;\;\;\;\;Q(s_{t},a_{t},w)\approx r_{t}+\gamma \cdot Q(s_ {t+1},a_{t+1};w).$

Prove

$\,$
$\,$

5. Resumo

Definição: Função ótima de valor de ação.

$\cdot$ $Q^{*}(s_{t},a_{t})=\underset{\pi}{max} \,E[U_{t}\mid S_{t}=s_{t},A_{t} =a_{t}].$

O $Q^{*}$ pode pontuar todas as ações com base no estado atual e a pontuação pode refletir a qualidade de cada estado. Enquanto houver um $Q^{*}$ , pode ser usada para controlar o movimento do agente. A cada momento, o agente só precisa selecionar a ação com maior pontuação para executar esta ação. No entanto, não temos $Q^{*}$ . O objetivo do aprendizado de valor é aprender uma função para aproximar $Q^{*}$ , então temos $DQN$ . $_$

DQN: Aproximadamente $Q^{*}$ (s,a) usando uma rede neural (DQN).

$\cdot$ $Q^{*}(s,a;w)$ é uma rede neural parametrizada por $w$ .

$\cdot$ Entrada: estado observado $s$ .

$\cdot$ Saída: pontuações para toda a ação $a \in A._$

(2) Fundação de aprendizagem por reforço profundo [aprendizagem de valor]