开悟Guia de otimização para faixas intermediárias

mojia_map

Índice

Modelo cognitivo

Esquema de referência (desmontado por módulo)


Modelo cognitivo

O modelo controla 1 herói para uma batalha espelhada 1 x 1

O recurso do cluster de ator é uma CPU de 64 núcleos

Características do problema: um único cenário de confronto justo (combinação com a imagem do herói), baixa produção de amostras por unidade de tempo e recursos de treinamento cumulativos relativamente abundantes.

Dificuldades da via intermediária:

  1. Garantia de convergência RL em treinamento: No caso de pequenos recursos e treinamento de longo prazo, como resolver o problema da diversidade da amostra, de modo que o efeito do treinamento seja comparável ao efeito do treinamento de alta simultaneidade e de médio prazo.

  2. Otimização personalizada para heróis do jogo: Nem o ambiente nem a linha de base foram otimizados para heróis do jogo. As equipes participantes podem estudar o design do herói e as características do mecanismo de jogo, melhorar o design relacionado, como características, regras, espaço de ação e recompensas, melhorar a capacidade de representar estados ambientais, integrar somas anteriores conhecidas, reduzir a dificuldade de aprendizagem de estratégia e aumentar o limite superior. da habilidade de um único herói.

  3. Em um cenário de confronto único e justo, é preciso atentar e aprimorar mais detalhes para se obter uma estratégia mais completa.

Além disso, as equipes participantes podem:

  1. Elimine vários bugs (como movimento/movimento inesperado

  2. Implemente estratégias diversificadas e de vários estilos que suportem ajuste ou agendamento on-line. Otimização adicional do comportamento do oponente, incluindo modelagem e previsão do comportamento do oponente, de modo a atacar preventivamente ou limitar a evasão para resolver a crise.

  3. Refinar os esquemas de recompensa em diferentes estágios da agência (como pesos dinâmicos) e os pesos de recompensa em diferentes estágios de aprendizagem do curso (como orientado a processos ou orientado a resultados)

Esquema de referência (desmontado por módulo)

uFerramentas_1692861613810

(CNN + MLP) -A estrutura do codificador-decodificador do LSTM Multi-Head Value, melhora o efeito de estimativa de valor agrupando, reduz a variância e usa a informação perfeita global para ajudar na estimativa de valor

uTools_1692861652042

Recursos personalizados:

uFerramentas_1692861824105

uTools_1692861933366

Pós-regras (processamento de saída do modelo)

Para obter detalhes, consulte "Guia de Desenvolvimento"

Ao desenvolver pós-regras, pode apoiar o mapeamento secundário da saída do modelo -> ação. Sob certas implementações, de RL

Na perspectiva do Agente, equivale a uma mudança no ambiente.

sistema de bônus

Para operações específicas, consulte o "Guia de Desenvolvimento", "Introdução ao Meio Ambiente", e é recomendado consultar os projetos relevantes das equipes de promoção anteriores

As possíveis direções de otimização incluem:

  1. Ajustar o peso do subitem de recompensa

    1. peso estático

    2. Peso dinâmico dentro do escritório (por exemplo, atenuação da recompensa dentro do escritório)

  2. Novos itens bônus

modelo adversário

Para operações específicas, consulte o “Guia de Desenvolvimento”, sendo recomendado consultar os designs relevantes das equipes de promoção anteriores

Local correspondente: ator/ator..py

As possíveis direções de otimização incluem:

  1. Proporção de modelos antigos e novos

  2. Pool/Liga Modelo Adversário

  3. Correspondências de avaliação personalizadas

estratégia de aprendizagem

Aprendizagem curricular: decompor objetivos de aprendizagem complexos e abrangentes em tarefas de aprendizagem de menor escala e com vários estágios.

Através do modelo de pré-treinamento + treinamento em vários estágios, o objetivo geral de aprendizagem é alcançado passo a passo. Coração

Exemplo: Realize a transição de recompensas densas para recompensas esparsas por meio da redução de recompensas entre sessões

Na fase inicial do treinamento, concentre-se em recompensas densas relacionadas a comportamentos específicos e oriente o agente para aprender operações básicas

No meio do treinamento, potencialize as recompensas densas que estão fortemente relacionadas ao resultado do jogo, e oriente o agente a estabelecer uma vantagem em um único jogo

Na fase posterior do treinamento, aumente o peso da recompensa esparsa para orientar o agente a se concentrar diretamente no resultado final

Destilação de Conhecimento : Aprendizado por Reforço + Esquema Conjunto de Otimização de Aprendizagem Supervisionada

Exemplo: Uma das soluções internas para o problema de inicialização de vários heróis

Treinamento de professores de herói único: aprendizagem por reforço, autojogo de espelho de herói único

Destilação (Professor de Herói Único-> Aluno de Herói Múltiplo): Armazene Logits do Professor na amostra do Ator

O aluno adiciona uma destilação de aprendizagem supervisionada

Treinamento de alunos com vários heróis: aprendizado por reforço, batalha mista com vários heróis

Nota: Você pode consultar o princípio. Limitada pela escala de recursos, a relação insumo-produto da replicação efetiva desta prática na competição pode não ser excelente.

Ângulo de otimização do sistema

Eficiência do aluno

  1. rendimento eficaz

    1. No cenário de competição de eficiência computacional, considerando que o rendimento da amostra do Ator por unidade de tempo é muito menor do que o do Aluno, geralmente não é necessário aumentar ainda mais o rendimento da amostra.

      Os cálculos em lote no Graph devem ser combinados tanto quanto possível para aumentar a densidade do cálculo, correspondendo ao cálculo subjacente de GEMV (uso intensivo de memória) -> GEMM (uso intensivo de computação)

      Use operadores com melhor desempenho no GCU para implementar (pode ser combinado com o Guia de Desenvolvimento de Túnel e a situação real de Criação de Perfil)

    2. A implementação do MemPool da versão atual da estrutura do pool de amostras não é ideal e pode haver um certo grau de desperdício de amostras.Ao melhorar a implementação relacionada da estrutura de dados do MemPool e alterar o método aleatório de leitura e gravação, a situação das amostras sendo substituído pode ser reduzido.

  2. Eficiência da amostra e velocidade de convergência

    Otimização do algoritmo de aprendizagem por reforço: outras condições permanecem inalteradas, quanto mais eficiente for o algoritmo de aprendizagem por reforço, menor será o tempo necessário para convergir para a mesma habilidade

    1. Dual-Clip PPO / Value Clip executa recorte duplo na perda de política para evitar a influência do valor atípico da vantagem na estabilidade da convergência. Da mesma forma, a perda de valor pode ser reduzida para evitar a influência do intervalo excessivo de atualização de etapa única na convergência da rede de valor.

    2. Normalização de valor

      uTools_1692862574716

      Para o método do gradiente de política, juntamente com o processo RL, o objectivo de aprendizagem da rede de valor pode mudar drasticamente, o que afecta o efeito de aprendizagem da estimativa de valor e, portanto, afecta o efeito global de convergência e estabilidade. Experimentos mostram que, ao introduzir a normalização do Vlue, a eficiência da amostra de algoritmos do tipo PPO pode ser melhorada.

    1. Algoritmo PPG

      uTools_1692862714147

    1. Algoritmo SAC

      uTools_1692862734298

      O PPO tem uma suposição de acordo com a política e, no cenário de aprendizagem por reforço distribuído, para obter uma computação paralela mais eficiente, há um compromisso sobre o grau de conformidade com a política. SAC é um algoritmo RL de estratégia aleatória fora da política. É semelhante ao DDPG na forma de utilização da amostra. A diferença é que ele gera uma política estocástica, que apresenta melhor eficiência amostral do que o DDPG em alguns benchmarks.

      Considerando que a alteração do algoritmo PPO envolve uma grande quantidade de carga de trabalho de desenvolvimento e depuração, é recomendado que a maioria das equipes dê prioridade à otimização baseada no algoritmo PPO, e equipes com aprendizado suficiente possam tentar alterar diretamente o algoritmo.

uTools_1692862883445

Eficiência do ator

Otimização de rendimento

  1. Otimização de inferência de CPU: processos de ator são executados em um ambiente de múltiplas máquinas de CPU, o que pode otimizar o desempenho de computação do modelo para plataformas de CPU

    1. Otimização PyTorch JIT

    2. Integre estruturas de raciocínio de terceiros (por exemplo: onnx-runtime)

Melhore a distribuição de amostras

  1. Você pode tentar reduzir a geração de amostras inválidas/homogêneas e melhorar a diversidade da amostra por meio de recompensa intrínseca e outros métodos

  2. Você pode tentar orientar a geração de amostras que atendam a certas condições, como fazer com que a distribuição da amostra seja distorcida em direção a um modelo oponente específico

Uso da ferramenta ABSTool

uFerramentas_1692863242511

Acho que você gosta

Origin blog.csdn.net/Williamtym/article/details/132477420
Recomendado
Clasificación