[NVIDIA GTC カンファレンスの乾物を共有] 実世界のデータセットに基づく深層強化学習

序文

この記事の講演は Nvidia GTC カンファレンスからのものです。
まず、元のビデオ リンクを添付してください https://register.nvidia.com/flow/nvidia/gtcspring2023/attendeeportal/page/sessioncatalog/session/1666649323930001EDPn

機械学習における大規模な成功の共通要素は、多数のモデルと多数の GPU トレーニングの使用です。ほとんどのデータセットはラベル付きデータセットです。従来の意味では良好な結果が得られますが、ほとんどの GPU トレーニングには高コストと大規模なデータセットが必要です。
しかし, 近年では, 機械学習の非常に重要な部分であるラベルのないデータが使用されることが増えています. これにより, 当然のことながら強化学習テクノロジーが導入されます. 強化学習は, 直接推論による決定とその結果のための機械学習フレームワークです. ただし、古典的な形式の強化学習はアクティブなオンライン学習パラダイムであるため、強化学習と最新の機械学習システムのほとんどが動作するデータ駆動型パラダイムを調和させることは困難です。以前に収集された大規模なデータセットを活用できる教師あり学習または教師なし学習におけるデータ駆動型アプローチと、意思決定とその結果について推論できる強化学習における意思決定形式主義の両方の長所を利用できるでしょうか? 以下では、これがオフライン強化学習によってどのように可能になるかについて説明します。オフライン強化学習により、最適ではないマルチタスク データからの効果的な事前トレーニング、現実世界の領域での広範な一般化、ロボット工学や対話システムなどの設定での魅力的なアプリケーションが可能になります。

1. オフライン強化学習の基礎

オフライン強化学習とは、環境と対話せずに、以前に収集された経験的データを使用した強化学習を指します。オンライン強化学習とは異なり、オフライン強化学習は、環境と対話することなく、保存された履歴データを分析することでトレーニングできます。RL は以下で強化学習 (強化学習) を置き換えるために使用されます。

1.1 オフラインRLと模倣学習の比較

緑色の点から赤色の点まで、模倣学習では軌道を繰り返すだけですが、オフラインRLではカオスな軌道から最適な軌道を得ることができます。
ここに画像の説明を挿入
オフライン RL 学習では、データセットの各部分の強みを活用して、全体的な最適化を達成できます。

1.2 保守的な Q 学習

このアルゴリズムは、下の図に示すように、対決トレーニングに似ています。緑色の曲線が実数関数、青色の曲線が Q フィッティング関数であり、Q フィッティング関数が緑色の実数曲線を見つけようとすると仮定します。
式の最初の行は正則化曲線であり、高い Q 値を持つ敵対的な分布を見つけようとし、この分布の下で Q 値を最小化します。これらの過大評価点を見つけて押し下げることができ、過大評価を非常によく防ぐことができます。ここに画像の説明を挿入
以下の図は、このアルゴリズムの使用例です。
ここに画像の説明を挿入
このアルゴリズムでトレーニングされた単一のニューラル ネットワークは良好な結果を達成します。

1.3 PTR

PTR は、橋梁データセット内のすべてのタスクに関して直接的な方法でトレーニングされたポリシーです。
データセット全体が事前トレーニングされ、その後新しいタスク用に 10 回トレーニングされ、ブリッジ データセット内のデータを再利用する際に忘れを防ぐために微調整されます。そして、ホット ベクターの最後のミニチュアを使用して、新しいタスクを表します。

2. ロボット工学のためのオフライン RL 事前トレーニング

2.1 PTR

PTR は、橋梁データセット内のすべてのタスクに関して直接的な方法でトレーニングされたポリシーです。
データセット全体が事前トレーニングされ、その後新しいタスク用に 10 回トレーニングされ、ブリッジ データセット内のデータを再利用する際に忘れを防ぐために微調整されます。そして、ホット ベクターの最後のミニチュアを使用して、新しいタスクを表します。
ここに画像の説明を挿入
オフライン RL トレーニングは PTR のパフォーマンス向上に役立ちます
ここに画像の説明を挿入

三つ。大規模言語モデルのオフライン RL

トレーニング後、視覚的なダイアログが評価に使用されます。これは、オフライン RL がプロセス内のデータを使用して最適化方法を見つけることができることを示しています。
ここに画像の説明を挿入ここに画像の説明を挿入

4. オフライン RL が人間に与える影響

人間がどのようにお互いに遊んでいるかを観察し、それが人間の行動にどのような影響を与えるかを知ることによって、人間が予期せぬ形でお互いにどのように影響を与えるかについてのすべての裏付けとなる情報を学ぶことができます。
ここに画像の説明を挿入
ここに画像の説明を挿入
ロボットも人間の行動に影響を与える可能性がありますが、データセットが大規模であれば、より微妙なパターンを認識できるようになります。

おすすめ

転載: blog.csdn.net/weixin_47665864/article/details/129712018