Tencent AIは、王の栄光のプロプレイヤーを選び出し、粉砕します。人間は15ゲームで1ゲームしか勝てず、8分未満しか保持できません|「JueWu」の技術的な詳細の開示...

凹型テンプル
キュービットからの銭明の レポート|パブリックアカウントQbitAI

最新のニュースで、TencentはKing of GloryAIに関する新しい論文「AbsoluteEnlightenment」を公開しました。これはトップAIカンファレンスAAAI2020に含まれています。

今年8月の5対5の試合でJueWuがプロチームを破った後、TencentがAIの背後にある技術的な詳細を開示したのはこれが初めてです。

Tencentの研究者は、AIの実行時間をアマチュアマスタープレーヤーと同じレベル(133msの間隔)に制限することで、Jue Wuはトップのプロプレーヤーを選び出し、得意なヒーローを粉砕することができたと述べています.15ゲームでプロのプレイヤーは1ゲームしか勝てず、長くても8分もかかりませんでした。

今年8月の公開テストでは、この栄光の王の1V1 AIが、多数のトップアマチュアプレーヤーと2100ゲームをプレイしました。AIの勝率は99.81%に達しました。

Diao Chan(メイジ)、Di Renjie(シューター)、Hua Mulan(トップレーン/ウォリアー)、Luna(ジャングラー/アサシン)、Lu Ban(シューター)などのヒーローの勝率は100%です。

AIはこのようにどのようにトレーニングされていますか?Tencentの最新の論文で開示されている最新の詳細を見てみましょう。

30時間で王のレベルに到達し、70時間でプロのプレーヤーと競争します

最初に指摘するのは、Tencentによるこの新しい論文は、5v5ゲームAIではなく、1v1ゲームAIに焦点を合わせているということです。

研究者は論文の中で、後者は単一のエージェントの行動決定よりも、すべてのエージェントのチームワーク戦略にもっと注意を払っていると説明した。

これを念頭に置いて、1v1ゲームは、ゲームの複雑なアクションの意思決定の問題を研究するのに適しています。また、ゲームAIエージェントの構築をより包括的に研究するために使用することもできます。

AIの全体的なアーキテクチャは、強化学習学習器(RL学習器)、人工知能サーバー(AIサーバー)、配布モジュール(ディスパッチモジュール)、およびメモリプール(メモリプール)の4つのモジュールに分かれています。

これは、データの並列化を構築するために使用できる、高度にスケーラブルで低結合のシステムアーキテクチャです。主な考慮事項は、複雑なエージェントのアクション決定の問題により、変動の大きい確率的勾配が導入される可能性があるため、トレーニング速度を上げるには、より大きなバッチサイズを使用する必要があるということです。

その中で、AIサーバーはAIモデルと環境の間の相互作用を実装します。配布モジュールは、サンプルの収集、圧縮、および送信のためのワークステーションです。メモリプールは、RL学習者にトレーニング例を提供できるデータストレージモジュールです。

これらのモジュールは分離されており、柔軟に構成できるため、研究者はアルゴリズムの設計と環境ロジックに集中できます。このシステム設計は、他のマルチエージェント競合問題にも使用できます。

強化学習学習者では、1v1ゲームのアクション依存関係をモデル化するために、アクタークリティカルなニューラルネットワークも実装しました。

ゲーム内の複数のシーンの決定に対処するために、研究者は、より効率的なトレーニングを実現するための一連のアルゴリズム戦略も提案しました。

  • AIが戦闘でターゲットを選択できるようにするために、ターゲットアテンションメカニズムを導入します。

  • ヒーローのスキルリリースの組み合わせを学習するために、AIはLSTMを使用して、シーケンスの決定で大量のダメージをすばやく出力できます。

  • アクションの依存関係の分離を使用して、マルチタグ近端ポリシー最適化(PPO)目標を構築するために使用されます。

  • 強化学習プロセスの探索をガイドするために、ゲームの知識に基づいた剪定方法が開発されています。

  • トレーニングに大きくて偏ったデータバッチを使用するときに収束を確実にするために、改良されたPPOアルゴリズムはデュアルクリップPPOを提案します。概略図は次のとおりです。

研究者たちは、48個のP40GPUカードと18,000個のCPUコアを使用してこの方法に基づいてヒーローをトレーニングすることは500年の人間のトレーニングに相当し、30時間のトレーニングは王のレベルである70時間に達することができると論文で指摘しましたプロのプレーヤーと比較して、そのパフォーマンスはさまざまなベースライン方法よりも大幅に優れています。

そして先に述べたように、人間のプレイヤーに対するテストでは、彼らは非常に印象的な結果を得ました。

このAIの詳細を知りたい場合は、記事の最後に論文へのリンクを掲載します〜

Tencent AILabとTianmeiStudioから、まだオープンプラットフォームを構築しています

2018年12月にリリースされたHonorof Kings AIペーパーの著者ユニットと比較して、今回はHonor ofKingsの開発チームである「TianmeiStudio」が多くなっています。

研究に加えて、Tencent AILabとKingGloryは、共同で「Enlightenment」AI +ゲームオープンプラットフォームを立ち上げます。

King of Gloryはゲームデータ、ゲームコアクラスター(Game Core)、ツールを開き、Tencent AI Labは強化学習と模倣学習のためのコンピューティングプラットフォームとコンピューティングパワーを開き、大学と研究機関を招待して関連するAI研究を共同で推進し、プラットフォームを通じて定期的な評価を実施します、マルチエージェント意思決定研究の強みを示すため。

現在、「Enlightenment」プラットフォームは大学内部テストを開始しており、大学テストは2020年5月に完全に開始される予定であり、テスト環境では1v1、5v5などのモードをサポートします。

Tencentは、2020年12月にKingGloryで最初のAIアプリケーションレベルのテストを実施する予定であることを明らかにしました。

エッセイポータル

深層強化学習によるMOBAゲームの複雑な制御の習得
https://arxiv.org/abs/1912.09729

終了 -

忘れずに「視聴中」をクリックして、友達に転送してください。

おすすめ

転載: blog.csdn.net/UW63ZqpKxwlRL1/article/details/103724910