DeepMind、強化学習用の汎用アルゴリズムである DreamerV3 をリリース

内容概要: 強化学習は多分野のクロスプロダクトであり、その本質は自動意思決定と継続的意思決定を実現することです。この記事では、強化学習の適用範囲を拡大する汎用アルゴリズムである DeepMind:DreamerV3 の最新の研究開発について紹介します。

キーワード: 強化学習 DeepMind 一般アルゴリズム

この記事は最初に WeChat パブリック アカウントから公開されました: HyperAI 超神経

北京時間1月12日、DeepMindの公式Twitterツイートは、ゲーム「Minecraft」において人間のデータを参照せずにゼロからダイヤモンドを収集できる初の汎用アルゴリズムであるDreamerV3を正式に発表し、AIの分野におけるもう一つの重要な課題となった

DeepMindがTwitterでDreamerV3を正式発表

強化学習は問題に拡張され、開発には一般的なアルゴリズムが必要

強化学習により、AlphaGo が囲碁で人間に勝利したり、OpenAI Five が Dota 2 で人間のアマチュア プレイヤーに勝利したりするなど、コンピューターは対話を通じてタスクを解決できます。

OpenAI 5 人がゲームで人間のプレイヤーに勝利、研究開発チームは人間のプレイヤーと写真を撮りました

ただし、ボード ゲームからビデオ ゲームやロボット タスクへの移行など、新しいアプリケーション シナリオにアルゴリズムを適用するには、エンジニアが継続的に制御、スパース報酬、画像入力、空間環境待機などの特殊なアルゴリズムを開発し続ける必要があります。

これには、アルゴリズムを微調整するために多くの専門知識とコンピューティング リソースが必要となり、モデルの拡張が大幅に妨げられます。チューニングなしで新しい領域の習得を学習できる汎用アルゴリズムを作成することは、強化学習の適用範囲を拡大し、意思決定の問題を解決するための重要な方法となっています。

その結果、DeepMind とトロント大学が共同開発した DreamerV3 が誕生しました。

DreamerV3: ワールドモデルに基づく一般的なアルゴリズム

DreamerV3 は、ワールド モデルに基づく汎用的でスケーラブルなアルゴリズムであり、固定ハイパーパラメーターを前提として幅広いドメインに適用でき、特殊なアルゴリズムよりも優れています。

これらのドメインには、連続アクションと離散アクション、視覚的入力と低次元入力、2D と 3D の世界、さまざまなデータ予算、報酬頻度と報酬スケールなどが含まれます。

DreamerV3の一般アルゴリズムと特殊アルゴリズムの性能比較

DreamerV3 は、勾配を共有せずに再生されたエクスペリエンスから同時にトレーニングされた 3 つのニューラル ネットワークで構成されています。

1. 世界モデル:潜在的な行動の将来の結果を予測する

2. 批評家:それぞれの状況の価値を判断する

3. 俳優:貴重な状況を可能にする方法を学ぶ

DreamerV3のトレーニングプロセス

上の図に示すように、世界モデルは感覚入力を離散表現 zt にエンコードします。zt は反復状態 ht を持つシーケンス モデルによって予測され、アクション at が与えられます。入力は学習信号に再構築され、次に形状表現になります。

俳優と批評家は、世界モデルによって予測される抽象表現の軌跡から学びます。

クロスドメイン タスクに適切に適応するには、これらのコンポーネントがさまざまな信号の大きさに適応し、ターゲット間の項のバランスを確実にとる必要があります。

エンジニアは、150 以上の固定パラメーターを使用したタスクで DreamerV3 をテストし、文献に記録されている最良の方法と比較しました。実験の結果、DreamerV3 はさまざまなドメインのタスクに対して高い汎用性と拡張性を備えていることがわかりました。

ベンチマークの概要 

すべてのエージェントは NVIDIA V100 GPU でトレーニングされています

DreamerV3 は 7 つのベンチマークで優れた結果を達成し、状態とイメージ、BSuite、Crafter の継続的な制御において新しい SOTA レベルを確立しました。

ただし、DreamerV3 には依然として一定の制限があり、たとえば、環境ステップが 1 億以内の場合、アルゴリズムは人間のプレイヤーのようにすべてのシーンでダイヤモンドを拾うことはできませんが、場合によっては拾うこともあります。

フルペーパー

巨人の肩の上に立って、ドリーマー家の歴史を振り返る

一代目:Dreamer

発行日: 2019 年 12 月

参加機関: トロント大学、DeepMind、Google Brain

論文アドレス: https://arxiv.org/pdf/1912.01603.pdf

アルゴリズムの紹介:

Dreamer は、潜在的な想像力だけで画像から長期的なタスクを解決できる強化学習エージェントです。

ワールド モデルを使用して、モデル予測の逆伝播に基づいた効率的な行動学習を実現します。20 の非常に困難な視覚制御タスクにおいて、Dreamer はデータ効率、計算時間、最終パフォーマンスの点で当時の主流の手法を上回りました。

Dreamerと当時の主流方式の性能比較

Dreamer は、PlaNet のデータ効率を継承しながら、当時最高のモデルフリー エージェントの漸近パフォーマンスを上回っています。5×106 の環境ステップの後、各タスクにおける Dreamer の平均パフォーマンスは 823 に達しましたが、PlaNet はわずか 332 で、モデルフリーの D4PG エージェントの最高値は 108 ステップ後で 786 でした。

二代目:DreamerV2

発行日:2020年10月

参加機関: Google Research、DeepMind、トロント大学

論文アドレス:https://arxiv.org/pdf/2010.02193.pdf

アルゴリズムの紹介:

DreamerV2 は、ワールド モデルのコンパクトな潜在空間での予測から動作を学習する強化学習エージェントです。

注: ワールド モデルは離散表現を使用し、ポリシーとは別にトレーニングされます。

DreamerV2 は、個別にトレーニングされたワールド モデルで動作を学習することにより、Atari ベンチマークの 55 のタスクで人間レベルのパフォーマンスを達成した最初のエージェントです。同じコンピューティング予算と実時間の下で、DreamerV2 は 2 億フレームに達し、トップのシングル GPU エージェント IQN および Rainbow の最終パフォーマンスを上回ります。

さらに、DreamerV2 は連続動作を伴うタスクにも適しており、人型ロボットの複雑な世界モデルを学習し、ピクセル入力のみで立ったり歩いたりする問題を解決します。

Atari ベンチマーク 55 試合にわたるプレーヤーの正規化された中央値スコア

Twitter ネチズンが率先してコメント欄でいたずらを仕掛ける

DreamerV3 の誕生に関しては、DeepMind の Twitter メッセージ領域でも多くのネチズンが動揺しました。

人類を解放すれば、もう「Minecraft」をプレイする必要はありません。

ゲームをひいきにするのはやめて、真剣に何かをしてください!@DeepMind と CEO のデミス・ハサビス

「My World」究極ボスのエンダードラゴンが震える。

近年、ゲーム「Minecraft」が強化学習の研究の焦点となっており、「Minecraft」におけるダイヤモンド収集を巡る国際大会が何度か開催されている。

この手続き的に生成されたオープンワールド環境では、報酬がまばらで、探索が困難で、時間も長いため、人間のデータを使用せずにこの課題を解決することは、人工知能のマイルストーンであると広く考えられています。以前の手法は人間のデータに基づく必要があるという障害が存在しますまたはチュートリアル。

DreamerV3 は、「Minecraft」のダイヤモンド収集を 0 から完全に学習する初のアルゴリズムです。強化学習の適用範囲をさらに拡大します。ネチズンが言ったように、DreamerV3 はすでに成熟した汎用アルゴリズムです。ハングアップしてアップグレードしてモンスターと戦い、そして究極のボス、エンダードラゴンと並びましょう!

HyperAI をフォローして、さらに興味深い AI アルゴリズムとアプリケーションを学びましょう。定期的に更新されるチュートリアルもあります。一緒に学び、進歩しましょう!

おすすめ

転載: blog.csdn.net/HyperAI/article/details/128671374