Índice
Esquema de referência (desmontado por módulo)
Modelo cognitivo
O modelo controla 1 herói para uma batalha espelhada 1 x 1
O recurso do cluster de ator é uma CPU de 64 núcleos
Características do problema: um único cenário de confronto justo (combinação com a imagem do herói), baixa produção de amostras por unidade de tempo e recursos de treinamento cumulativos relativamente abundantes.
Dificuldades da via intermediária:
-
Garantia de convergência RL em treinamento: No caso de pequenos recursos e treinamento de longo prazo, como resolver o problema da diversidade da amostra, de modo que o efeito do treinamento seja comparável ao efeito do treinamento de alta simultaneidade e de médio prazo.
-
Otimização personalizada para heróis do jogo: Nem o ambiente nem a linha de base foram otimizados para heróis do jogo. As equipes participantes podem estudar o design do herói e as características do mecanismo de jogo, melhorar o design relacionado, como características, regras, espaço de ação e recompensas, melhorar a capacidade de representar estados ambientais, integrar somas anteriores conhecidas, reduzir a dificuldade de aprendizagem de estratégia e aumentar o limite superior. da habilidade de um único herói.
-
Em um cenário de confronto único e justo, é preciso atentar e aprimorar mais detalhes para se obter uma estratégia mais completa.
Além disso, as equipes participantes podem:
-
Elimine vários bugs (como movimento/movimento inesperado
-
Implemente estratégias diversificadas e de vários estilos que suportem ajuste ou agendamento on-line. Otimização adicional do comportamento do oponente, incluindo modelagem e previsão do comportamento do oponente, de modo a atacar preventivamente ou limitar a evasão para resolver a crise.
-
Refinar os esquemas de recompensa em diferentes estágios da agência (como pesos dinâmicos) e os pesos de recompensa em diferentes estágios de aprendizagem do curso (como orientado a processos ou orientado a resultados)
Esquema de referência (desmontado por módulo)
(CNN + MLP) -A estrutura do codificador-decodificador do LSTM Multi-Head Value, melhora o efeito de estimativa de valor agrupando, reduz a variância e usa a informação perfeita global para ajudar na estimativa de valor
Recursos personalizados:
Pós-regras (processamento de saída do modelo)
Para obter detalhes, consulte "Guia de Desenvolvimento"
Ao desenvolver pós-regras, pode apoiar o mapeamento secundário da saída do modelo -> ação. Sob certas implementações, de RL
Na perspectiva do Agente, equivale a uma mudança no ambiente.
sistema de bônus
Para operações específicas, consulte o "Guia de Desenvolvimento", "Introdução ao Meio Ambiente", e é recomendado consultar os projetos relevantes das equipes de promoção anteriores
As possíveis direções de otimização incluem:
-
Ajustar o peso do subitem de recompensa
-
peso estático
-
Peso dinâmico dentro do escritório (por exemplo, atenuação da recompensa dentro do escritório)
-
-
Novos itens bônus
modelo adversário
Para operações específicas, consulte o “Guia de Desenvolvimento”, sendo recomendado consultar os designs relevantes das equipes de promoção anteriores
Local correspondente: ator/ator..py
As possíveis direções de otimização incluem:
-
Proporção de modelos antigos e novos
-
Pool/Liga Modelo Adversário
-
Correspondências de avaliação personalizadas
estratégia de aprendizagem
Aprendizagem curricular: decompor objetivos de aprendizagem complexos e abrangentes em tarefas de aprendizagem de menor escala e com vários estágios.
Através do modelo de pré-treinamento + treinamento em vários estágios, o objetivo geral de aprendizagem é alcançado passo a passo. Coração
Exemplo: Realize a transição de recompensas densas para recompensas esparsas por meio da redução de recompensas entre sessões
Na fase inicial do treinamento, concentre-se em recompensas densas relacionadas a comportamentos específicos e oriente o agente para aprender operações básicas
No meio do treinamento, potencialize as recompensas densas que estão fortemente relacionadas ao resultado do jogo, e oriente o agente a estabelecer uma vantagem em um único jogo
Na fase posterior do treinamento, aumente o peso da recompensa esparsa para orientar o agente a se concentrar diretamente no resultado final
Destilação de Conhecimento : Aprendizado por Reforço + Esquema Conjunto de Otimização de Aprendizagem Supervisionada
Exemplo: Uma das soluções internas para o problema de inicialização de vários heróis
Treinamento de professores de herói único: aprendizagem por reforço, autojogo de espelho de herói único
Destilação (Professor de Herói Único-> Aluno de Herói Múltiplo): Armazene Logits do Professor na amostra do Ator
O aluno adiciona uma destilação de aprendizagem supervisionada
Treinamento de alunos com vários heróis: aprendizado por reforço, batalha mista com vários heróis
Nota: Você pode consultar o princípio. Limitada pela escala de recursos, a relação insumo-produto da replicação efetiva desta prática na competição pode não ser excelente.
Ângulo de otimização do sistema
Eficiência do aluno
-
rendimento eficaz
-
No cenário de competição de eficiência computacional, considerando que o rendimento da amostra do Ator por unidade de tempo é muito menor do que o do Aluno, geralmente não é necessário aumentar ainda mais o rendimento da amostra.
Os cálculos em lote no Graph devem ser combinados tanto quanto possível para aumentar a densidade do cálculo, correspondendo ao cálculo subjacente de GEMV (uso intensivo de memória) -> GEMM (uso intensivo de computação)
Use operadores com melhor desempenho no GCU para implementar (pode ser combinado com o Guia de Desenvolvimento de Túnel e a situação real de Criação de Perfil)
-
A implementação do MemPool da versão atual da estrutura do pool de amostras não é ideal e pode haver um certo grau de desperdício de amostras.Ao melhorar a implementação relacionada da estrutura de dados do MemPool e alterar o método aleatório de leitura e gravação, a situação das amostras sendo substituído pode ser reduzido.
-
-
Eficiência da amostra e velocidade de convergência
Otimização do algoritmo de aprendizagem por reforço: outras condições permanecem inalteradas, quanto mais eficiente for o algoritmo de aprendizagem por reforço, menor será o tempo necessário para convergir para a mesma habilidade
-
Dual-Clip PPO / Value Clip executa recorte duplo na perda de política para evitar a influência do valor atípico da vantagem na estabilidade da convergência. Da mesma forma, a perda de valor pode ser reduzida para evitar a influência do intervalo excessivo de atualização de etapa única na convergência da rede de valor.
-
Normalização de valor
Para o método do gradiente de política, juntamente com o processo RL, o objectivo de aprendizagem da rede de valor pode mudar drasticamente, o que afecta o efeito de aprendizagem da estimativa de valor e, portanto, afecta o efeito global de convergência e estabilidade. Experimentos mostram que, ao introduzir a normalização do Vlue, a eficiência da amostra de algoritmos do tipo PPO pode ser melhorada.
-
Algoritmo PPG
-
Algoritmo SAC
O PPO tem uma suposição de acordo com a política e, no cenário de aprendizagem por reforço distribuído, para obter uma computação paralela mais eficiente, há um compromisso sobre o grau de conformidade com a política. SAC é um algoritmo RL de estratégia aleatória fora da política. É semelhante ao DDPG na forma de utilização da amostra. A diferença é que ele gera uma política estocástica, que apresenta melhor eficiência amostral do que o DDPG em alguns benchmarks.
Considerando que a alteração do algoritmo PPO envolve uma grande quantidade de carga de trabalho de desenvolvimento e depuração, é recomendado que a maioria das equipes dê prioridade à otimização baseada no algoritmo PPO, e equipes com aprendizado suficiente possam tentar alterar diretamente o algoritmo.
-
Eficiência do ator
Otimização de rendimento
-
Otimização de inferência de CPU: processos de ator são executados em um ambiente de múltiplas máquinas de CPU, o que pode otimizar o desempenho de computação do modelo para plataformas de CPU
-
Otimização PyTorch JIT
-
Integre estruturas de raciocínio de terceiros (por exemplo: onnx-runtime)
-
Melhore a distribuição de amostras
-
Você pode tentar reduzir a geração de amostras inválidas/homogêneas e melhorar a diversidade da amostra por meio de recompensa intrínseca e outros métodos
-
Você pode tentar orientar a geração de amostras que atendam a certas condições, como fazer com que a distribuição da amostra seja distorcida em direção a um modelo oponente específico
Uso da ferramenta ABSTool