【5 分钟 Artigo Methods Métodos Assíncronos para Aprendizado de Reforço Profundo

  • Próximo : Métodos assíncronos para aprendizado profundo de reforço

Título do artigo e informações do autor

O problema foi resolvido?

  No algoritmo de aprendizado por reforço na agentobservado dataé non-stationarye strongly correlatedo. As memoryatualizações não estacionárias e correlacionadas podem ser reduzidas pela configuração , mas off-policyo RLalgoritmo usado por esses métodos será limitado e operações adicionais serão adicionadas.

  O autor usa principalmente vários agentes para amostrar dados em paralelo para decorar os dados dos agentes em um processo mais estacionário e on-policyestratégias que podem ser usadas .

Antecedentes

  Antes disso, existem alguns estudos, por exemplo The General Reinforcement Learning Architecture (Gorila), actorinteragem com a amostra de meio ambiente (vários computadores), para os dados nos dados adquiridos e calcular o algoritmo definido pelo gradiente, mas o gradiente não é usado para atualizar parâmetros, o gradiente é de forma assíncrona enviada para um servidor parâmetro central que atualiza uma cópia central do modelo. os parâmetros de política atualizados são enviados para os atores-alunos em intervalos fixas ( o take atualização atualização parâmetro ).replay memorylearnerreplay memoryDQNLosslearnerlearnertargetcentral parameter serverlearner

Estrutura de rede Gorila

  Algumas pesquisas serão Map Reduce frameworkintroduzidas para acelerar as operações da matriz (não para acelerar a amostragem). Há também algum trabalho para learnercompartilhar algumas informações de parâmetro através da comunicação.

O método usado?

  O método usado pelo autor é Gorilasemelhante ao método da estrutura parameter server, mas, em vez de usar várias máquinas e servidores de parâmetros ( ), ele usa uma GPUexecução multithread em uma única máquina, uma para cada thread learnere os dados que eles coletam. É ainda mais abundante e os learner onlinegradientes de várias atualizações são resumidos, o que é realmente equivalente a cortar a correlação entre os dados. Portanto, o autor não o usa replay memory, mas learnerusa um diferente para cada um exploration policy; portanto, esse método também pode usar on-policyalgoritmos de aprendizado por reforço, como sarsaeste. Se for usado em um Q-Learningalgoritmo, o seguinte learnerpseudo-código de thread único pode ser obtido :

 pseudocódigo do algoritmo Q-learning de uma etapa

  Para a actor-criticestrutura, o learnerpseudocódigo de thread único é o seguinte:

Pseudocódigo do algoritmo A3C

O efeito alcançado?

  Os recursos de computação necessários são menores e um multi-core CPUpode ser usado para treinamento. compara a velocidade de aprendizado do algoritmo DQN treinado em uma GPU Nvidia K40 com os métodos assíncronos treinados usando 16 núcleos de CPU em cinco jogos Atari 2600.

Comparação de resultados experimentais

  Para uma análise robusta, você pode se referir ao texto original, por isso não o direi aqui.Na discussão, o autor enfatizou que não é experience replaceruim.A introdução pode melhorar a eficiência da amostragem e torná-la melhor.

Informações publicadas? Informações do autor?

  Este artigo é o ICML2016descrito acima. O primeiro autor Volodymyr Mnihé TorontoPh.D. em aprendizado de máquina pela universidade Geoffrey Hintone também é DeepMindpesquisador do Google . Mestrado na Albertauniversidade Csaba Szepesvari.

Volodymyr Mnih

Link de referência

  1. A Arquitetura Geral de Aprendizagem por Reforço (Gorila) de ( Nairetal.,2015) realiza treinamento assíncrono de agentes de aprendizagem por reforço em um ambiente distribuído. Os gradientes são enviados de forma assíncrona para um servidor de parâmetros central que atualiza uma cópia central do modelo. Os parâmetros atualizados da política são enviados aos atores-aprendizes em intervalos fixos .
  • Na 文献 : Nair, Arun, Srinivasan, Praveen, Blackwell, Sam, Alcicek, Cagdas, Fearon, Rory, Maria, Alessandro De, Panneershelvam, Vedavyas, Suleyman, Mustafa, Beattie, Charles, Petersen, Stig, Legg, Shane, Mnih, Volodymyr, Kavukcuoglu, Koray e Silver, David. Métodos massivamente paralelos para aprendizado profundo por reforço . No workshop de aprendizagem profunda da ICML. 2015.
  1. Também observamos que uma maneira semelhante de paralelizar o DQN foi proposta por ( Chavez et al., 2015).
  • 参考文献 : Chávez, Kevin, Ong, Hao Yi, e Hong, Augusto. Q-learning profundo distribuído . Relatório técnico, Universidade de Stanford, junho de 2015.
  1. Em trabalhos anteriores, ( Li & Schuurmans, 2011) aplicou a estrutura Map Reduce para paralelizar métodos de aprendizado de reforço de lotes com aproximação linear de funções. O paralelismo foi usado para acelerar grandes operações matriciais, mas não para paralelizar a coleção de experiências ou estabilizar o aprendizado .
  • 参考文献 : Li, Yuxi e Schuurmans, Dale. Mapreduce para aprendizado de reforço paralelo . Em Avanços Recentes na Aprendizagem por Reforço - 9º Workshop Europeu, EWRL 2011, Atenas, Grécia, 9 a 11 de setembro de 2011, Revised Selected Papers, pp. 309–320, 2011.
  1. ( Grounds & Kudenko, 2008) propuseram uma versão paralela do algoritmo Sarsa que usa vários atores-aprendizes separados para acelerar o treinamento. Cada aprendiz de ator aprende separadamente e envia periodicamente atualizações de pesos que mudaram significativamente para os outros alunos usando a comunicação ponto a ponto .
  • 参考文献 : terreno, Matthew e Kudenko, Daniel. Aprendizado de reforço paralelo com aproximação de função linear . Nos Anais da 5ª, 6ª e 7ª Conferência Européia sobre Agentes Adaptativos e de Aprendizagem e Sistemas Multiagentes: Adaptação e Aprendizagem Multiagente, pp. 60- 74. Springer-Verlag, 2008.

Leitura adicional

  Com base value estimationno criticmétodo. É amplamente utilizado em vários campos, mas existem algumas deficiências que limitam sua aplicação. Tais como:

  1. É difícil aplicar a estratégia aleatória ( stochastic policy) e espaço de ação contínua.
  2. value functionUma pequena mudança causará uma enorme mudança na estratégia, impedindo a convergência do treinamento. Especialmente function approximation,FAapós a introdução da aproximação da função ( ), embora a capacidade de generalização do algoritmo seja aprimorada, ela também é introduzida bias, o que dificulta a garantia da convergência do treinamento.

  A actorestratégia de aprendizagem baseada em métodos diretamente, parametrizando a estratégia. A vantagem disso é que ele possui uma convergência melhor que a anterior e é adequado para um espaço de ação contínua de alta dimensão stochastic policy. Mas as desvantagens incluem que a estimativa do gradiente é variancerelativamente alta e é fácil convergir para a solução não ideal. Além disso, como a estimativa de cada gradiente não depende da estimativa anterior, isso significa que as informações antigas não podem ser totalmente utilizadas.

  Mas para o ACalgoritmo, sua arquitetura pode ser rastreada até 30 ou 40 anos atrás. Witten propôs um ACalgoritmo semelhante pela primeira vez em 1977 e depois introduziu arquiteturas por volta de 1983 com Daniel Barto, Suttone Andersooutros actor-critic. No entanto, devido à ACdificuldade da pesquisa em algoritmos e a alguns fatores acidentais históricos, os círculos acadêmicos começaram a mudar o foco da pesquisa para value-basedmétodos. Depois de um tempo, value-basedmétodos e policy-basedmétodos se desenvolveram vigorosamente. O primeiro é um TDmétodo sistemático típico . Clássico Sarsa, Q-learningpertencem a esta coluna, este último como o clássico REINFORCEalgoritmo. Posteriormente, o ACalgoritmo combina os dividendos de desenvolvimento dos dois, e sua teoria e prática fizeram grandes progressos novamente. Até a Deep learning, DLera do aprendizado profundo ( ), os ACmétodos combinavam DNNações FA, produziam reações químicas e emergiam DDPG, A3Cum lote de algoritmos avançados e algumas outras melhorias e variantes baseadas neles. Como você pode ver, esta é uma história de sucesso que se divide.

  • Artigo de referência : http://www.voidcn.com/article/p-mihgmljj-wy.html

Nome da minha conta pública do WeChat : Aprendizado profundo e decisão inteligente avançada
ID da
conta pública do WeChat: MultiAgent1024 Introdução à conta pública : Pesquise e compartilhe principalmente aprendizado profundo, jogos de máquina, aprendizado por reforço e outros conteúdos relacionados! Ansioso por sua atenção, bem-vindo ao aprender e trocar progresso juntos!

Publicado 185 artigos originais · elogiado 168 · 210.000 visualizações

Acho que você gosta

Origin blog.csdn.net/weixin_39059031/article/details/104572749
Recomendado
Clasificación