ディープ学習 - 強化学習ノートの概要

強化学習の紹介

  強化学習は、所望の最大の利益を達成するために、環境に基づいて行動する方法を強調し、機械学習の分野です。行動心理学の理論に触発され、それが習慣的行動の最善の利益を生み出すことができ、報酬や罰刺激の環境で生物が、徐々に刺激に期待する方法です。

  これは主に、最も累積賞を得ることである四つの要素、物質、環境の状態、行動、報酬、強化学習の目標で構成されています。対象を学習として理解することができるエージェントは、それは私たちが環境を操作するために、特定のアクションを実行しようとして状態の初めにこのモデルを設計し、一般的に強化学習モデルである、それは1つの状態から別の状態への初期探索アクションを完了しましたその後、特性法、環境は、いくつかのインセンティブを与えるだろう、このモデルは一定の作用を介して、(このアクションは、現在のモデルが学習のフィードバックに基づいていることである)ようにするインセンティブ下のフィードバックアクションに基づいて、フィードバック、そして行動し、環境の状態を知ります。

学習アルゴリズムを強化するための入門

(1)行動の値によって選択されました。

  Q学習、サーザ、ディープQネットワーク

(2)直接選挙の行動:

  ポリシーグラデーション

(3)環境を想像し、そしてから学びます:

  モデルベースのRL

概要強化学習 - 強化学習アルゴリズムの分類

カテゴリーI:

(1)環境を理解していない(モデルフリーRL)

    代表方法-Q-学習、サーザ、ポリシーグラデーション

    そのようなステップによって、実世界の段階での探査ロボットなどの次の動きは、ステップバイステップでは、実世界のフィードバック、決定を待つことができます

(2)環境が理解(モデルベースRL)

    現実世界のモデリングのために、モデルベースモデルフリーは、仮想環境の外よりも、道それはまだサーザ、ポリシーグラデーションにモデルフリーRLの学習方法のQで使用され、その利点は、私たちが想像力によって予測することができるということですすべての例は、次に何が起こる、その後、戦略の次のステップを取るなどAlphaGoとして最高の種類のすべての状況、

カテゴリーII:

確率に基づいて、(1)(ポリシーベースRL)

    おそらく選択することがあり、それは次の行動の直接出力確率が取らできる環境によって学習、感覚分析の最も直接的な種類を強化して、確率に基づいて行動を取る、すべてのアクションようすることですが、さまざまな可能性。

    代表方法--Policyグラデーション...

(2)値に基づいて(値ベースRL)

    次に、アクションが最高値に応じて選択され、すべてのアクションの値を出力します

    代表方法-Q-、サーザを学びます...

    比較ポリシーベースRL法、値ベースのRLより決定、執拗な、ポリシーベースRLは必ずしも選択するも最も高い確率ではないが、最も高い値を選択しました。

    連続行動のための価値基準法は無力です。連続運転のための確率的方法の利点の一つに基づいて特定のアクション、の分布を決定するように選択することができます。

(3)俳優-Critic--ポリシーベースRLおよび値ベースのRLの利点を組み合わせ

    アクションを作るの確率に基づいてポリシーグラデーション...----(俳優)

    Q学習、サーザ...----(評論家)は、アクションの値を与えます

  複合確率(ポリシーベースRL)ベース - ポリシーグラデーション...と値(値ベースのRL)に基づいて - Q学習、サーザ...より有利な方法俳優、評論家を作成します

  (俳優)このような値は、元に基づいて、学習プロセスを加速するためのアクションの移動、(評論家)指定されたアクションを行うために確率に基づきます。

 カテゴリーIII:

(1)ラウンドアップデート(モンテカルロ更新)

    その後、各ラウンドの最後に、ゲームのアップデートを待ちます

    代表方法 - 基本方針グラデーション、モンテカルロ学習...

(2)単一工程の更新(時間差更新)

    あなたが学ぶながらあなたが遊ぶことができるように、各ステップの各ターンは、更新します

    代表方法-Q-学習、サーザ、政策グラデーションのアップグレード版...

 カテゴリーIV:

(1)eラーニング(オンポリシー)

    それが存在しなければならない、とあなたが学びながら、私はプレーしなければなりません

    代表的な方法--Sarsa、サーザ(λ)

(2)オフライン学習(オフポリシー)

    自分のプレーを選択することができ、また他の人を見て、行動の他の人のコードを演奏することを学ぶ、他の人のプレイを見て選ぶことができ、それはまた、過去の経験から学んでいるが、これらの過去の経験が、自身の経験を必要とせず、経験は誰でもすることができ学習、または昼間遊びダウンのメモリの前に保存されるように、不必要なもしながら、オフライン学習と記憶を学習することにより、夜間の日まで、プレーすることを学びます。

    代表方法-Q-学習、ディープQネットワーク

おすすめ

転載: www.cnblogs.com/yang901112/p/11979656.html