強化学習は - 機械学習のアイデアや設定Xiaojia紫を破壊します

この時点で環境に基づいて適切な処置を行うためにsituation--我々の必要があり、その目的は、所望の目的を達成することです。

状況がこのように表現することができます。

以下のために(;; ITER ++!ITER = END ITERは、START = 時間の#一定期間)を
      F(観察)#は、環境に応じて、現時点では観測され、適切な行動を取ります

f(x)が「特定の行動を採用し、」マップに「今、観測環境」からの時間です。

解決すべき問題がある:最高のF(X)を見つける - 「最高」の手段は最速の目標を聞かせて。

そして、人々はこれを探求し始め、機械が能力を持っているように、この問題を解決するためのアルゴリズムを使用してみてください。呼ばれる強化学習(強化学習)。

 (つづきます)

おすすめ

転載: www.cnblogs.com/dynmi/p/11827093.html