[学習] Q学習、連続アクションのQ学習、深層学習に関する推測


一、Q学習

価値観に基づくアプローチでは、批評家は行動を直接決定しません。俳優 π が与えられると、俳優がどれだけ優れているかを評価します。状態値関数 Vπ(s): アクター π を使用する場合、状態 s を訪問した後に取得 (予測) されることが期待される累積報酬。
ここに画像の説明を挿入
批評家は俳優に縛られ、その俳優のスコアを予測する必要があります。

状態値関数 Vπ(s) を評価する

MC

ここに画像の説明を挿入
ネットワークパラメータを更新してスコアを取得するには、ゲームを最後までプレイする必要があります。

TD

ここに画像の説明を挿入
MC はランダム性が大きいため分散が大きく、TD 法は必ずしも正確ではありません。
ここに画像の説明を挿入
ここに画像の説明を挿入
状態アクション値関数 Qπ(s, a) は、アクター π を使用する場合、状態 s で a を取得した後に累積報酬を取得することを期待します。
アクションを網羅することはできないため、左の公式を使用し、右の式は離散的なアクションにのみ使用します。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
連続ループの後、適切な方程式が得られます。
すべてのアクションを考慮して、Q (π') を最大化するアクションを見つけます。しかし、これは a が連続 (a が離散) の場合には適していません。
ここに画像の説明を挿入
ここに画像の説明を挿入
実際、Q' は変化するため、目標は常に変化します (Q を Q' に近づける)。そのため、Q' を修正する必要があります。別のQを更新します。Q が何度も更新されている場合は、Q' を 1 回更新します。
ここに画像の説明を挿入
まだ見ていないアクションの場合は初期評価になる可能性があり、1 つだけ見た場合は Q が 1、その他は 0 となるため、他のアクションを試行することはありません。
ここに画像の説明を挿入
イプシロン グリーディ: E はトレーニングの開始時に比較的大きく、後で小さくなります。E は一般に非常に小さい値であり、Q を高い確率で推定するために使用され、ランダム性は小さい確率に使用されます。アクション空間に騒々しさを加えます。
ボルツマン探索: Q の対数を取得し、正規化 (Q の対数の合計を除算) を実行します。Q の出力分布は、最初は非常に均一である可能性があります。
ここに画像の説明を挿入

収集したすべてのデータをリプレイ バッファーに配置し (前回のトレーニングで異なるポリシーによって計算されたデータが存在する可能性があり、いっぱいになると破棄されます)、s、a、r、s が保存されます。
ここに画像の説明を挿入
利点: 同じバッチにさまざまなデータが含まれるため、ネットワークの中断が回避されます。過去のデータもありますが問題ありません。これはポリシー外のアプローチに似ており、データの収集にそれほど時間はかかりません。
ここに画像の説明を挿入
上記のエラー: バッチはバッファから取得されます。

ダブルDQN

ここに画像の説明を挿入
DQN は常に過大評価されます (すべての a を徹底的に列挙して、最大の Q を持つ a を作成します)
ここに画像の説明を挿入
ダブル DQN は a の Q を選択し、Q を別の方法で計算します。Q が a を過大評価する場合、それが選択されます。Q' は適切な値を与えます。
Q「過大評価についてはどうですか?」Qは行動を選択しません。
ここに画像の説明を挿入
aを選択するにはパラメータを更新できるQを使用し、値を計算するには固定パラメータのQ'を使用します。

DQNとの決闘

唯一の変更点は、ネットワーク構造の変更です。
ここに画像の説明を挿入
ここに画像の説明を挿入

Vを更新するとQも更新されるので効率的になります
ここに画像の説明を挿入

優先返信

バッファ内のデータについて、一部のデータがより重要であり、一部のデータが適切にトレーニングされていない場合、一貫してサンプリングすることができません。以前のトレーニングで TD エラーが大きいデータほど、サンプリングされる確率が高くなります。
ここに画像の説明を挿入
サンプリング データの分布を変更するだけでなく、トレーニング プロセスも変更します。

マルチステップ

MC と TD のバランス
ここに画像の説明を挿入
2 つの方法を組み合わせると、複数のステップをサンプリングした後に値が推定されるため、推定部分の影響は比較的軽微になります。N 個の r が追加されるため、分散は比較的大きくなりますが、N を調整してバランスを取ることができます。

騒がしいネット

パラメータ空間にノイズを追加します。Q ネットワークのパラメータにノイズを追加して、Q~ を取得します。
各パラメータにノイズを追加します。各エピソードの開始前に (アクションが取得される前に) Q 関数のパラメーターにノイズが注入されます。これが Q~ であり、固定されてトレーニングに使用されるパラメーターです。
同じエピソード内では、Q~ のパラメータは固定されており、次のエピソードのみパラメータが更新され、ノイズがリサンプリングされます。
ここに画像の説明を挿入
アクション ノイズ アクション上のノイズ: 同じ状態が与えられた場合、エージェント エージェントは異なるアクションを取る可能性があります (ノイズがアクションに追加され、ランダム性が大きいため、イプシロン グリーディ)。このように機能する実際の戦略はありません (同じ状態が同じアクションを取得することを期待しています)。
パラメータ ノイズ パラメータ上のノイズ: 同じ (類似した) 状態が与えられた場合、エージェントは同じアクションを実行します。→ 状態に依存した探索。一貫した方法で探索。エピソード内では、ネットワークのパラメータは一貫しているため、同じ状態であれば同じものが出力されます。
ここに画像の説明を挿入

分布的な

状態-行動-価値関数 Qπ(s, a): アクター π を使用する場合、期待されるのは、観測値 s を見て a を取得した後に累積報酬を取得することです。
異なるディストリビューションでも同じ期待値を持つことができます。このとき、損失が発生し、使用されない情報もあります。
ここに画像の説明を挿入
各アクションには 5 つのボックスがあり、同じ期待値でありながらリスクの少ないアクションを選択できます。(この方法では確率分布が出力でき、同じ行動の分布の合計が1になります)
ここに画像の説明を挿入
報酬が過小評価される場合があり、極端な値は切り捨てられてしまいます。

すべてのメソッドを混合する
ここに画像の説明を挿入
特定のメソッドを削除した後:

ここに画像の説明を挿入
報酬の過大評価を避けるためにダブル DQN が追加されました

2、継続的な行動のためのQラーニング

Q 方程式を推定することは比較的簡単であり、Q 方程式さえ得られれば、適切な戦略を立てることができます。問題: 連続的なアクションを処理するのは簡単ではありません。
以前は、アクションは離散的であり、最良の a を計算するためにすべての a を使い果たすことができました。
方法 1: サンプリングして N a を取得し、最大の a を見つけます。ただし、すべての a をサンプリングできるわけではないため、正確ではない可能性があります。
方法 2: 勾配上昇法を使用して最適化問題を解決します。問題: 大域最大値問題には大量の計算が必要であり、パラメーターを周期的に更新する必要があります。
方法 3: Q ネットワークは、最適化を容易にするために特別に設計されています。Q 方程式は入力 s と a、出力 V です。まず s を入力して 3 つのもの (ベクトル、行列、値) を取得し、次に a を入力して、a と μ を引きます。このとき a は連続ベクトルです。その後、他の演算を行います。ここで、Q を最大にする必要があります。つまり、最初の項目が最小であるため、最大値 a=μ(s) になります。ここで、μ はガウス平均、Σ(s) は正定分散です (Qπ では、これは直接出力行列ではなく、行列との転置乗算であり、正定値であることが保証されています)。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

3. ディープラーニングに関する推測

ほとんどすべての極小値は大域最適値と非常によく似た損失を持っているため、極小値を見つけるだけで十分です。
臨界点に達すると、それは鞍点または極小値である可能性があります。
ここに画像の説明を挿入
鞍点には正と負があり
ここに画像の説明を挿入
、E が比較的小さい場合、固有値は正になる可能性が高く、極小値が発生する可能性があります。損失が大きいところには鞍点が現れやすく、損失が低いところにはローカルミニマムが現れやすい。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
臨界点が局所最小値に近い場合、トレーニング誤差は 0 に近づきます。
ここに画像の説明を挿入
ここに画像の説明を挿入
ディープラーニングは 7 つの仮説を持つスピン グラス モデルと同じです。
ここに画像の説明を挿入
モデルが大きくなるほど、損失はより低い値に近づきます。
ネットワークのサイズが十分に大きい場合は、初期化とは関係なく、勾配降下法によって大域的な最適解を見つけることができます。
ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/Raphael9900/article/details/128588521