- Próximo : Métodos assíncronos para aprendizado profundo de reforço
O problema foi resolvido?
No algoritmo de aprendizado por reforço na agent
observado data
é non-stationary
e strongly correlated
o. As memory
atualizações não estacionárias e correlacionadas podem ser reduzidas pela configuração , mas off-policy
o RL
algoritmo usado por esses métodos será limitado e operações adicionais serão adicionadas.
O autor usa principalmente vários agentes para amostrar dados em paralelo para decorar os dados dos agentes em um processo mais estacionário e on-policy
estratégias que podem ser usadas .
Antecedentes
Antes disso, existem alguns estudos, por exemplo The General Reinforcement Learning Architecture (Gorila)
, actor
interagem com a amostra de meio ambiente (vários computadores), para os dados nos dados adquiridos e calcular o algoritmo definido pelo gradiente, mas o gradiente não é usado para atualizar parâmetros, o gradiente é de forma assíncrona enviada para um servidor parâmetro central que atualiza uma cópia central do modelo. os parâmetros de política atualizados são enviados para os atores-alunos em intervalos fixas ( o take atualização atualização parâmetro ).replay memory
learner
replay memory
DQN
Loss
learner
learner
target
central parameter server
learner
Algumas pesquisas serão Map Reduce framework
introduzidas para acelerar as operações da matriz (não para acelerar a amostragem). Há também algum trabalho para learner
compartilhar algumas informações de parâmetro através da comunicação.
O método usado?
O método usado pelo autor é Gorila
semelhante ao método da estrutura parameter server
, mas, em vez de usar várias máquinas e servidores de parâmetros ( ), ele usa uma GPU
execução multithread em uma única máquina, uma para cada thread learner
e os dados que eles coletam. É ainda mais abundante e os learner online
gradientes de várias atualizações são resumidos, o que é realmente equivalente a cortar a correlação entre os dados. Portanto, o autor não o usa replay memory
, mas learner
usa um diferente para cada um exploration policy
; portanto, esse método também pode usar on-policy
algoritmos de aprendizado por reforço, como sarsa
este. Se for usado em um Q-Learning
algoritmo, o seguinte learner
pseudo-código de thread único pode ser obtido :
Para a actor-critic
estrutura, o learner
pseudocódigo de thread único é o seguinte:
O efeito alcançado?
Os recursos de computação necessários são menores e um multi-core CPU
pode ser usado para treinamento. compara a velocidade de aprendizado do algoritmo DQN treinado em uma GPU Nvidia K40 com os métodos assíncronos treinados usando 16 núcleos de CPU em cinco jogos Atari 2600.
Para uma análise robusta, você pode se referir ao texto original, por isso não o direi aqui.Na discussão, o autor enfatizou que não é experience replace
ruim.A introdução pode melhorar a eficiência da amostragem e torná-la melhor.
Informações publicadas? Informações do autor?
Este artigo é o ICML2016
descrito acima. O primeiro autor Volodymyr Mnih
é Toronto
Ph.D. em aprendizado de máquina pela universidade Geoffrey Hinton
e também é DeepMind
pesquisador do Google . Mestrado na Alberta
universidade Csaba Szepesvari
.
Link de referência
- A Arquitetura Geral de Aprendizagem por Reforço (Gorila) de (
Nairetal.,2015
) realiza treinamento assíncrono de agentes de aprendizagem por reforço em um ambiente distribuído. Os gradientes são enviados de forma assíncrona para um servidor de parâmetros central que atualiza uma cópia central do modelo. Os parâmetros atualizados da política são enviados aos atores-aprendizes em intervalos fixos .
- Na 文献 : Nair, Arun, Srinivasan, Praveen, Blackwell, Sam, Alcicek, Cagdas, Fearon, Rory, Maria, Alessandro De, Panneershelvam, Vedavyas, Suleyman, Mustafa, Beattie, Charles, Petersen, Stig, Legg, Shane, Mnih, Volodymyr, Kavukcuoglu, Koray e Silver, David. Métodos massivamente paralelos para aprendizado profundo por reforço . No workshop de aprendizagem profunda da ICML. 2015.
- Também observamos que uma maneira semelhante de paralelizar o DQN foi proposta por (
Chavez et al., 2015
).
- 参考文献 : Chávez, Kevin, Ong, Hao Yi, e Hong, Augusto. Q-learning profundo distribuído . Relatório técnico, Universidade de Stanford, junho de 2015.
- Em trabalhos anteriores, (
Li & Schuurmans, 2011
) aplicou a estrutura Map Reduce para paralelizar métodos de aprendizado de reforço de lotes com aproximação linear de funções. O paralelismo foi usado para acelerar grandes operações matriciais, mas não para paralelizar a coleção de experiências ou estabilizar o aprendizado .
- 参考文献 : Li, Yuxi e Schuurmans, Dale. Mapreduce para aprendizado de reforço paralelo . Em Avanços Recentes na Aprendizagem por Reforço - 9º Workshop Europeu, EWRL 2011, Atenas, Grécia, 9 a 11 de setembro de 2011, Revised Selected Papers, pp. 309–320, 2011.
- (
Grounds & Kudenko, 2008
) propuseram uma versão paralela do algoritmo Sarsa que usa vários atores-aprendizes separados para acelerar o treinamento. Cada aprendiz de ator aprende separadamente e envia periodicamente atualizações de pesos que mudaram significativamente para os outros alunos usando a comunicação ponto a ponto .
- 参考文献 : terreno, Matthew e Kudenko, Daniel. Aprendizado de reforço paralelo com aproximação de função linear . Nos Anais da 5ª, 6ª e 7ª Conferência Européia sobre Agentes Adaptativos e de Aprendizagem e Sistemas Multiagentes: Adaptação e Aprendizagem Multiagente, pp. 60- 74. Springer-Verlag, 2008.
Leitura adicional
Com base value estimation
no critic
método. É amplamente utilizado em vários campos, mas existem algumas deficiências que limitam sua aplicação. Tais como:
- É difícil aplicar a estratégia aleatória (
stochastic policy
) e espaço de ação contínua. value function
Uma pequena mudança causará uma enorme mudança na estratégia, impedindo a convergência do treinamento. Especialmentefunction approximation,FA
após a introdução da aproximação da função ( ), embora a capacidade de generalização do algoritmo seja aprimorada, ela também é introduzidabias
, o que dificulta a garantia da convergência do treinamento.
A actor
estratégia de aprendizagem baseada em métodos diretamente, parametrizando a estratégia. A vantagem disso é que ele possui uma convergência melhor que a anterior e é adequado para um espaço de ação contínua de alta dimensão stochastic policy
. Mas as desvantagens incluem que a estimativa do gradiente é variance
relativamente alta e é fácil convergir para a solução não ideal. Além disso, como a estimativa de cada gradiente não depende da estimativa anterior, isso significa que as informações antigas não podem ser totalmente utilizadas.
Mas para o AC
algoritmo, sua arquitetura pode ser rastreada até 30 ou 40 anos atrás. Witten propôs um AC
algoritmo semelhante pela primeira vez em 1977 e depois introduziu arquiteturas por volta de 1983 com Daniel Barto, Sutton
e Anderso
outros actor-critic
. No entanto, devido à AC
dificuldade da pesquisa em algoritmos e a alguns fatores acidentais históricos, os círculos acadêmicos começaram a mudar o foco da pesquisa para value-based
métodos. Depois de um tempo, value-based
métodos e policy-based
métodos se desenvolveram vigorosamente. O primeiro é um TD
método sistemático típico . Clássico Sarsa
, Q-learning
pertencem a esta coluna, este último como o clássico REINFORCE
algoritmo. Posteriormente, o AC
algoritmo combina os dividendos de desenvolvimento dos dois, e sua teoria e prática fizeram grandes progressos novamente. Até a Deep learning, DL
era do aprendizado profundo ( ), os AC
métodos combinavam DNN
ações FA
, produziam reações químicas e emergiam DDPG
, A3C
um lote de algoritmos avançados e algumas outras melhorias e variantes baseadas neles. Como você pode ver, esta é uma história de sucesso que se divide.
- Artigo de referência : http://www.voidcn.com/article/p-mihgmljj-wy.html
Nome da minha conta pública do WeChat : Aprendizado profundo e decisão inteligente avançada
ID da
conta pública do WeChat: MultiAgent1024 Introdução à conta pública : Pesquise e compartilhe principalmente aprendizado profundo, jogos de máquina, aprendizado por reforço e outros conteúdos relacionados! Ansioso por sua atenção, bem-vindo ao aprender e trocar progresso juntos!