Tencent AI destaca y aplasta a los jugadores profesionales de la gloria del rey: los humanos solo pueden ganar 1 juego en 15 juegos, y aguantar menos de 8 minutos | Revelación de detalles técnicos de "Jue Wu" ...


Informe de Qian Ming del qubit del templo cóncavo  | cuenta pública QbitAI

En las últimas noticias, Tencent ha publicado un nuevo artículo sobre el Rey de Gloria AI "Iluminación Suprema", que se ha incluido en la principal conferencia de IA AAAI 2020.

Esta es la primera vez que Tencent ha revelado los detalles técnicos detrás de la IA después de que Jue Wu derrotó a un equipo profesional en un partido de 5 contra 5 en agosto de este año.

Los investigadores de Tencent dijeron que al limitar el tiempo de ejecución de la IA al mismo nivel que los jugadores maestros aficionados (con un intervalo de 133 ms), Jue Wu ha podido destacar a los mejores jugadores profesionales y enamorarse de los héroes en los que es bueno. En 15 juegos Los jugadores profesionales solo ganaron 1 juego y duraron menos de 8 minutos como máximo.

En la prueba pública de agosto de este año, la IA 1V1 de este rey de la gloria jugó 2100 partidas contra un gran número de jugadores amateurs de primer nivel. La tasa de ganancia de IA alcanzó el 99,81%.

En héroes como Diao Chan (Mage), Di Renjie (Shooter), Hua Mulan (Top lane / Warrior), Luna (Jungler / Assassin), Lu Ban (Shooter) y otros héroes, la tasa de victorias es del 100%.

¿Cómo se entrena así la IA? Veamos los últimos detalles revelados en el último artículo de Tencent.

Alcanza el nivel del rey en 30 horas y compite con jugadores profesionales en 70 horas.

Lo primero que hay que señalar es que este nuevo artículo de Tencent se centra en la IA del juego 1 contra 1, no en la IA del juego 5 contra 5.

Los investigadores explicaron en el artículo que este último presta más atención a la estrategia de trabajo en equipo de todos los agentes, que a las decisiones de acción de un solo agente.

Teniendo esto en cuenta, los juegos 1v1 son más adecuados para estudiar problemas complejos de toma de decisiones de acción en los juegos, y también se pueden usar para estudiar la construcción de agentes de IA de juegos de manera más completa.

La arquitectura general de la IA se divide en 4 módulos: aprendiz de aprendizaje por refuerzo (RL Learner), servidor de inteligencia artificial (AI Server), módulo de distribución (módulo de despacho) y grupo de memoria (grupo de memoria).

Esta es una arquitectura de sistema altamente escalable y de bajo acoplamiento que se puede utilizar para construir la paralelización de datos. La consideración principal es que el problema de decisión de acción de los agentes complejos puede introducir un gradiente aleatorio de alta varianza, por lo que es necesario utilizar un tamaño de lote mayor para acelerar la velocidad de entrenamiento.

Entre ellos, el servidor de IA implementa la interacción entre el modelo de IA y el entorno. El módulo de distribución es una estación de trabajo para la recolección, compresión y transmisión de muestras. El grupo de memoria es un módulo de almacenamiento de datos que puede proporcionar ejemplos de capacitación para el alumno de RL.

Estos módulos están separados y se pueden configurar de forma flexible, lo que permite a los investigadores centrarse en el diseño de algoritmos y la lógica ambiental. Este diseño de sistema también se puede utilizar para otros problemas de competencia de múltiples agentes.

En el alumno de aprendizaje por refuerzo, también implementaron una red neuronal actor-crítico para modelar las dependencias de acción en los juegos 1v1.

Para hacer frente a múltiples decisiones de escena en el juego, los investigadores también propusieron una serie de estrategias de algoritmos para lograr un entrenamiento más eficiente:

  • Para ayudar a la IA a seleccionar objetivos en batalla, se introduce el mecanismo de atención al objetivo;

  • Para aprender la combinación de liberación de habilidades del héroe, para que la IA pueda generar rápidamente una gran cantidad de daño en la decisión de secuencia, usando LSTM;

  • Se utiliza para construir un objetivo de optimización de políticas de extremo cercano (PPO) de múltiples etiquetas, utilizando el desacoplamiento de dependencias de acción;

  • Para orientar la exploración en el proceso de aprendizaje por refuerzo, se desarrolla un método de poda basado en el conocimiento del juego;

  • Para garantizar la convergencia cuando se utilizan lotes de datos grandes y sesgados para el entrenamiento, el algoritmo PPO mejorado propone PPO de doble clip. El diagrama esquemático es el siguiente:

Los investigadores señalaron en el artículo que entrenar a un héroe con este método, utilizando 48 tarjetas GPU P40 y 18.000 núcleos de CPU, equivale a 500 años de entrenamiento humano, y 30 horas de entrenamiento pueden alcanzar el nivel del rey, 70 horas. En comparación con los jugadores profesionales, su rendimiento es significativamente mejor que una variedad de métodos básicos.

Y como se mencionó anteriormente, en la prueba contra jugadores humanos, se obtuvieron resultados muy impresionantes.

Si quieres conocer más detalles sobre esta IA, ponemos el enlace al artículo al final del artículo ~

De Tencent AI Lab y Tianmei Studio, todavía construyendo una plataforma abierta

En comparación con la unidad de autor del artículo de IA de Honor of Kings publicado en diciembre de 2018, esta vez hay más "Tianmei Studio", el equipo de desarrollo de Honor of Kings.

Además de la investigación, Tencent AI Lab y King Glory lanzarán conjuntamente la plataforma abierta de juegos AI + "Enlightenment".

King of Glory abrirá los datos del juego, los clústeres centrales del juego (Game Core) y las herramientas, Tencent AI Lab abrirá una plataforma informática y un poder de cómputo para el aprendizaje reforzado y el aprendizaje por imitación, e invitará a las universidades e instituciones de investigación a promover conjuntamente la investigación de IA relacionada y realizar evaluaciones regulares a través de la plataforma , Para mostrar la fuerza de la investigación de toma de decisiones de múltiples agentes.

En la actualidad, la plataforma "Enlightenment" ha lanzado la prueba interna de la universidad, y se espera que la prueba universitaria se abra completamente en mayo de 2020, y en el entorno de prueba, admitirá 1v1, 5v5 y otros modos.

Tencent reveló que planea realizar la primera prueba de nivel de aplicación de IA en King Glory en diciembre de 2020.

Portal de ensayos

Dominar el control complejo en juegos MOBA con aprendizaje de refuerzo profundo
https://arxiv.org/abs/1912.09729

Termina  -

Recuerda hacer clic en "Viendo" y luego reenviarlo a tus amigos.

Supongo que te gusta

Origin blog.csdn.net/UW63ZqpKxwlRL1/article/details/103724910
Recomendado
Clasificación