Tencent AI가 왕의 영광의 프로 플레이어를 골라 내고 무너 뜨립니다 : 인간은 15 게임에서 1 게임 만 이길 수 있고 8 분도 채 안 남았습니다 | "Jue Wu"기술 세부 사항 공개 ...

오목한 사원
큐빗 에서 Qian Ming의  보고서 | 공개 계정 QbitAI

최근 뉴스에서 Tencent는 AI AAAI 2020에 포함 된 King of Glory AI "Absolute Enlightenment"에 대한 새로운 논문을 발표했습니다.

올해 8 월 Jue Wu가 5v5 경기에서 프로 팀을이긴 후 Tencent가 AI의 기술적 세부 사항을 공개 한 것은 이번이 처음입니다.

텐센트 연구원은 AI 실행 시간을 아마추어 마스터 플레이어와 같은 수준 (133ms 간격)으로 제한함으로써 최고의 프로 플레이어를 뽑아 내고 자신이 잘하는 영웅을 압도 할 수 있다고 말했다 .15 게임에서 프로 선수들은 1 경기 만 이겼고, 최대 8 분도 채 안 남았습니다.

올해 8 월 공개 테스트에서이 영광의 왕의 1V1 AI는 다수의 톱 아마추어 플레이어와 2100 경기를 치렀습니다. AI 승률은 99.81 %에 달했습니다.

Diao Chan (Mage), Di Renjie (Shooter), Hua Mulan (Top lane / Warrior), Luna (Jungler / Assassin), Lu Ban (Shooter) 및 기타 영웅과 같은 영웅의 승률은 100 %입니다.

AI는 어떻게 이렇게 훈련됩니까? Tencent의 최신 논문에 공개 된 최신 세부 정보를 살펴 보겠습니다.

30 시간 만에 왕의 레벨에 도달하고 70 시간 만에 프로 선수들과 경쟁하세요

가장 먼저 지적해야 할 점은 Tencent의이 새로운 논문이 5v5 게임 AI가 아닌 1v1 게임 AI에 초점을 맞추고 있다는 것입니다.

연구자들은 논문에서 후자가 단일 에이전트의 행동 결정보다는 모든 에이전트의 팀워크 전략에 더 많은 관심을 기울이고 있다고 설명했습니다.

이를 염두에두고 1v1 게임은 게임의 복잡한 행동 의사 결정 문제를 연구하는 데 더 적합하며 게임 AI 에이전트의 구성을보다 포괄적으로 연구하는 데 사용할 수도 있습니다.

AI의 전체 아키텍처는 강화 학습 학습자 (RL Learner), 인공 지능 서버 (AI Server), 배포 모듈 (Dispatch Module) 및 메모리 풀 (Memory Pool)의 4 개 모듈로 나뉩니다.

이것은 데이터 병렬화를 구축하는 데 사용할 수있는 확장 성이 뛰어나고 결합이 적은 시스템 아키텍처입니다. 주요 고려 사항은 복잡한 에이전트의 작업 결정 문제로 인해 높은 분산 랜덤 기울기가 발생할 수 있으므로 더 큰 배치 크기를 사용하여 훈련 속도를 높일 필요가 있다는 것입니다.

그중 AI 서버는 AI 모델과 환경 간의 상호 작용을 구현합니다. 분배 모듈은 샘플 수집, 압축 및 전송을위한 워크 스테이션입니다. 메모리 풀은 RL 학습자를위한 교육 예제를 제공 할 수있는 데이터 저장 모듈입니다.

이러한 모듈은 분리되어 있으며 유연하게 구성 할 수 있으므로 연구원은 알고리즘 설계 및 환경 논리에 집중할 수 있습니다. 이 시스템 설계는 다른 다중 에이전트 경쟁 문제에도 사용할 수 있습니다.

강화 학습 학습자에서 그들은 또한 1v1 게임에서 행동 의존성을 모델링하기 위해 행위자 비판 신경망을 구현했습니다.

게임에서 여러 장면 결정을 처리하기 위해 연구원들은보다 효율적인 훈련을 달성하기위한 일련의 알고리즘 전략을 제안했습니다.

  • AI가 전투에서 표적을 선택하는 것을 돕기 위해 표적주의 메커니즘이 도입되었습니다.

  • 영웅의 스킬 릴리스 조합을 배우기 위해 AI가 LSTM을 사용하여 시퀀스 결정에서 많은 양의 데미지를 빠르게 출력 할 수 있도록합니다.

  • 작업 종속성의 분리를 사용하여 다중 태그 PPO (니어 엔드 정책 최적화) 목표를 구성하는 데 사용됩니다.

  • 강화 학습 과정에서 탐색을 안내하기 위해 게임 지식을 기반으로 한 가지 치기 방법이 개발되었습니다.

  • 학습을 위해 크고 편향된 데이터 배치를 사용할 때 수렴을 보장하기 위해 개선 된 PPO 알고리즘은 이중 클립 PPO를 제안합니다. 회로도는 다음과 같습니다.

연구원들은 48 개의 P40 GPU 카드와 18,000 개의 CPU 코어를 사용하는이 방법을 기반으로 영웅을 훈련하는 것은 500 년의 인간 훈련에 해당하고 30 시간의 훈련은 왕의 수준 인 70 시간에 도달 할 수 있다고 지적했습니다. 프로 선수에 비해 성능은 다양한 기준 방법보다 훨씬 우수합니다.

앞서 언급했듯이 인간 플레이어를 대상으로 한 테스트에서 매우 인상적인 결과를 얻었습니다.

이 AI에 대한 자세한 내용을 알고 싶으 시다면 기사 마지막에 논문 링크를 넣어주세요 ~

Tencent AI Lab 및 Tianmei Studio에서 여전히 개방형 플랫폼 구축

2018 년 12 월에 발표 된 Honor of Kings AI 논문의 저자 단위와 비교하면 이번에는 Honor of Kings의 개발 팀인 "Tianmei Studio"가 더 많이 있습니다.

연구 외에도 Tencent AI Lab과 King Glory는 "Enlightenment"AI + 게임 오픈 플랫폼을 공동으로 출시 할 예정입니다.

King of Glory는 게임 데이터, 게임 코어 클러스터 (Game Core) 및 도구를 공개하고 Tencent AI Lab은 강화 학습 및 모방 학습을위한 컴퓨팅 플랫폼과 컴퓨팅 파워를 개방하고 대학과 연구 기관을 초대하여 관련 AI 연구를 공동으로 홍보하고 플랫폼을 통해 정기적 인 평가를 수행합니다. , 다중 에이전트 의사 결정 연구의 강점을 보여줍니다.

현재 '깨달음'플랫폼은 대학 내부 테스트를 시작했으며 2020 년 5 월에 대학 테스트가 본격적으로 개방 될 것으로 예상되며 테스트 환경에서는 1v1, 5v5 및 기타 모드를 지원합니다.

Tencent는 2020 년 12 월 King Glory에서 첫 번째 AI 애플리케이션 레벨 테스트를 개최 할 계획이라고 밝혔다.

에세이 포털

심층 강화 학습으로 MOBA 게임에서 복잡한 제어 마스터하기
https://arxiv.org/abs/1912.09729

종료  -

"보기"를 클릭 한 다음 주변의 친구들에게 전달하는 것을 잊지 마십시오.

추천

출처blog.csdn.net/UW63ZqpKxwlRL1/article/details/103724910