[CHANG - 強化学習ノート] P1-P2、PPO

A、政策勾配レビュー

コア部は、加重和が期待される
ここに画像を挿入説明
  PPOポリシー勾配下の最初のレビューのポリシー勾配の改良版であり、2つのヒントを紹介しました。ポリシー勾配の背景:私たちは今、π-機能で最適化エージェントにこれらのデータを使用して、データのN個を持っています。データのパケットのそれぞれであることを特徴:
                 [タウ] = {S1、A1、R1、S2、A2、R2、...、ST、ATが、RTがあります}

:報酬値の差分を通じ、我々はエージェントパラメータステッピング値は次の通りです取得することができます
ここに画像を挿入説明
パラメータを更新するすべての行為が貢献することをしていることが、いくつかの不合理なことなので、次のような改善があります:
 
  1の改善します:エージェントが同じ状態/シナリオで異なるアクションを取ることができますが、原因限られた量のデータに、我々は、(真実の後ろに落下する)行動の可能性を減らすためにサンプリングされていないになりますこれは、すべての可能なサンプリングない場合がありますすべての賞を受賞した後、全体の軌道の基準値に追加することができ、ベースラインよりも唯一の大きなは卓球をプレイするために、その可能性を増加させる、例えば、6点以下を獲得し、我々はそのエージェントの決定は非常に悪いと言うことができ、ちょうど7つの以上のポイントそれは時に適切な決定を強化します。これは、未サンプリングの問題を軽減します。ベースラインの選択方法は、使用することができる特典データの平均値として、固定されていません。
  
  2の改良:たとえば中国の歴史、多くの王朝が繁栄を持っているだけでなく、辞退。私たちは、判決の王朝の全体的な評価の両方を持っているだけでなく、地元の分析を持っています。私たちは皇帝のモデルを作る場合は漢王朝に、例えば、:一般的に、強力な漢王朝であると考えられては、我々は一般的に漢王朝の皇帝が素晴らしいですすべてを考え、将来の世代がこれを学ぶことができるように自分のキャラクターを絞り込みます確かに漢王朝のメリットを評価するために、国家の取り組みだけでなく、彼の子供や孫に応じて、皇帝のメリット評価が後方にあることを、漢王朝賢明な君主でなく、愚かな皇帝の両方のために、それはまだ考えられて、仕事をしません劉邦それ?これは、1つ、別のポイント、影響力の人も値しないから子供や孫の多くの世代の後、私は頭を責めることはできない場合は、減衰係数を追加することです。
  
  要約する:ポリシー勾配は以下の形式に変更されている。
ここに画像を挿入説明
  典型的に、即ちRbの利点機能Aθ(ST、で)青い矢印出口結果として発現される、特定の他のSに対して取るために、特徴付けるために使用することができますどのように良い選択、王位が優れている人に渡すこと。

二、上のポリシーからオフポリシーへ

まず、二次認識一般の例は:南京ポンツーン10分の間の時間経過にAは、8号に南京地下鉄の駅を行う、B 9は、ポンツーンに地下鉄の駅で同じクラスを行うために、ステーションが想定される場合、BはAを参照することができ彼らの旅行計画のための移動時間は、合理的な取り決め。

上のポリシーと呼ばれるメイク改正に車次回は、Bの道計画は、オフポリシーと呼ばれています。エージェントの行動の更新に使用するデータのパケットの後に、そのデータが再び使用されることはありませんので、あなたがそうすることを、何度も何度も、新しいエージェントと新しいデータを収集する必要があり、上のポリシーウェイと呼ばれる政策勾配を学習強化に対応効率が非常に低いです。導入する必要がある道オフポリシーそう。オフ政策の理論的根拠については、次の最初の話:重要性サンプリング(重点サンプリング)し、ポリシー勾配の適用を論じています。

2.1重点サンプリング

ここに画像を挿入説明
  pは積分による便利な方法IFサンプリング、所望される今F(X)を求めて、XのPDFであるが、近似することができる、すなわち、我々は、X-Pは、計算された値f(X)に基づいてサンプリングし、これらの値(x)はFで平均化が望まれています。サンプリングされたXの後に、それぞれ、XのサンプルについてQ(X)に基づいて:さらに、我々は便利P(X)サンプルのみQ(x)からのサンプルから、その後の演算処理は、以下の式に変換された場合最終的な平均値はまた、F(x)を計算することができ、F、P、Qに置換されています。
サンプル問題:計算値の量がの点で、例えば、大きな偏差になり不十分サンプリング:
ここに画像を挿入説明
  分布p(x)は、我々が期待が負でなければならないことF(X)を推測することができます。サンプルが十分に、この重要度によりpとqの分布とも大きな差を確保することができる場合。Qの期待fの推定から十分なサンプリングがあった場合でも正であり:
ここに画像を挿入説明
  まず、サンプル数は十分であるためには、第二、二つの分布できるだけ近い:だからは、重要度サンプリングを使用すると、2つの側面を考慮する必要があります。

2.2オフポリシー

现在我们就可以分析off-policy,假如θ’是负责生成实验数据的agent,现在θ’已经更新成θ,那么我们怎么来使用旧的实验数据呢?显然有:
ここに画像を挿入説明ここに画像を挿入説明
  也就是说对于新的agent,我们还是使用之前的实验数据τ,所不同的是获取的奖励值要乘以一个系数,假如新的agent更容易采集到的这个序列,即分子大于分母,那么步进值会被放大,这很好理解,假设分子是分母的两倍,那么假如我们现在用新的agent采集数据,那么τ可能会出现两次,所以就会被强化两次。也就是说,我们现在可以重复利用τ了。
ここに画像を挿入説明
  这个地方,没有讲太清楚,此处记下我的理解。按照之前的讲法有:
ここに画像を挿入説明
  所以:
ここに画像を挿入説明
  也就是说:
ここに画像を挿入説明
  最后的目标函数为:
ここに画像を挿入説明
但是为什么目标函数是这样的?以及前面的gradient的含义,还是不太清楚。希望之后可以来这里填坑。

2.3 PPO

之前论述过重要性采样需要注意的问题,即两个分布不能差异太大,现在把他落实到argument中。实现的方法就是目标函数加约束:
ここに画像を挿入説明
  J是我们想优化的目标,其微分影响agent的更新幅度和方向。现在加上散度之后,假如两个agent差异太大,那么将会削弱奖励值,假设J是一个大的正数,加上正则化后就会变得很小,含义就是现在两个agent差别太大,奖励值不具有参考性,由此带来的update幅度就会降低。(但是这样貌似会带来一个问题,假如本来的J是负值,这样就讲不通了)
  β的调整:可以设定两个限度,然后根据下面的规则来更新:
ここに画像を挿入説明
  当差异太大时,加大罚项以削弱旧数据的影响;分布差异很小时,降低罚项防止对学习过程造成不好的影响。所以只有当分布差异不大时,J才更有主导性。

2.3.1 ppo algorithm

ここに画像を挿入説明

2.3.2 ppo2 algorithm

ここに画像を挿入説明
  それは何を意味するのでしょうか?次の二つのグラフの横軸2つの確率、緑色オリジナル関数曲線即ち、第1分、トリミング後の青色の曲線、即ち、第二分の割合。グリーンラインとブルーラインは、小さい方を選択しました。最終的な分析では、重み値を調整することです。
ここに画像を挿入説明
  A> 0、ボーナス値が正の場合、それは非常に良いアクションを示します。ビジネスは新しいエージェントが実際に可能性が高いサンプルなどのデータにあることを特定の範囲の手段内で増加すると、その報酬の値が得られていること、機能性を保証は直線的に大きな更新ステップを得るために増加させることができるが、ビジネスがあるとき大きい、ステップのあまりに更新することを防止するように設定限界より低い信頼レベルが大きすぎる場合、報酬である二つの分布間の差を表します。
  
  A <0、負の報酬である場合、アクションが示されていません。ときに関数が報酬値へのアクセスは、古い実験データの影響を弱めるために、徐々に0に近いことができることを確認できるようにしますが、ビジネスが小さいときに新しいエージェントが、実際にそのようなデータをサンプリングしそうであることを特定の範囲手段内下げるには二つの分布があまりにも異なっていて表す、次に低い信頼レベルの報酬は、それほど(ステップが小さすぎる何かを学ぶしない)更新ステップが小さすぎる防ぐために下限を設定します。

公開された12元の記事 ウォンの賞賛1 ビュー263

おすすめ

転載: blog.csdn.net/weixin_43522964/article/details/104239921