CSE599:オンラインと適応機械学習
講義3:確率的マルチアームバンディッツ、最小化を後悔
CSDNの強盗アルゴリズム(3) - UCBアルゴリズム
EE問題推薦システムおよびアルゴリズムバンディット
https://x-algo.cn/index.php/2016/12/15/ee-problem-and-bandit-algorithm-for-recommender-systems/
https://zhuanlan.zhihu.com/p/32356077
また、高レベルの学習成果を強化DQN / A3Cに加えて、
スタンフォード大学は、アルゴリズムSOORLデモを学ぶ人の強化を必要とせずに作られました
このゲームでCPを学習深ニューラルネットワークと補強には小さな進歩を遂げていない人のビートを模倣すると言うことができます。しかし、エージェントは、多くの場合、訓練のためのステップの何百万人を必要とし、しかし人間が学ぶときに新しいものがはるかに高い効率が起こります。私たちは、すぐにどのように効率的なインセンティブを学んでいる、そしてどのようにエージェントが同じレベルをやらせるには? 一部の人々は、人々が学び、世界がどのように動作するかの構造化されたモデルの使用を説明することができ、およびエージェントが同じ方法で経験を積むことができますので、代わりに世界の注目画素の表現モデルを使用することができると思います。 具体的には、我々はあなたが三つの要素を持つことができると仮定します。目標レベルの抽象表現の使用は、学習ができますすぐに、世界のダイナミックな学びと高速プログラム・サポート・モデルを使用するために前向きな計画、ポリシーベースの探査モデルを実施します。 このアイデアに触発され、我々は戦略目標に強化学習を提案している(SOORL)アルゴリズムは、我々の知る限り、これは!正のインセンティブでは、アルゴリズムに行くことができます最初のアタリのゲームの落とし穴です。重要なのは、このアルゴリズムは、50オフを突破することができ、その過程で人類のデモンストレーションを必要としません。SOORL強力なアルゴリズムでは、環境や潜在的な動的なモデルを理解することを目標に、代わりに伝統的な強化学習アルゴリズムの深さの事前の知識を使用しています。しかし、人間のニーズのためのデモの方法、SOORLアルゴリズムあまり多くの入手可能な情報と比較します。 |
|
SOORL両方の強化学習法の観点より以前のゴール指向:
どちらの方法は、人間の経験の難しさに触発されている-以前のいくつかの経験、そしてカウントする限られた能力、人間は正しい判断をするためにすぐに学ばなければなりません。この目標を達成するために、我々は最初の方法、複合体は、ニューラルネットワークモデルの深さは、大量のデータは、プレイヤーがボタンを推定するための非常に少ない経験が必要押せば、そのモデルはシンプルかつ決定的な削減計画することができ、異なっている必要がことがわかりました多くの場合、間違っても、必要な電力を計算しますが、十分に良い結果を達成するために。第二に、分散化、複雑なビデオゲームに報いる、ステップの数百人は、各ステップで右の計画を作っているしたいすべてのエージェントの限られたコンピューティングパワーのためのゲームをプレイするために必要とされる非常にあります難しい、でも12歳の子供にも。私たちは、前方の計画、すなわち行うのが一般的で強力な方法を使用し、目標指向のアプローチに結合するモンテカルロ木探索、最適な戦略を探るために使用されるが、が、それは、世界のエージェント学習環境のガイダンスを理解していませんでした。 |
ダイナミック外部メモリとニューラルネットワークを用いたハイブリッド・コンピューティング
ベイズディープラーニング
NIPS 2018ワークショップ
関係DRL
人間と機械での物理的な建設のための関係誘導性バイアス
関係誘導偏見、深い学習やグラフ・ネットワーク
リレーショナルリカレントニューラルネットワーク
ニューラル常微分方程式
CNNが古いあり、ネットワークのダイアグラムへGNNは深い学習因果推論を行うことができます
最新の開発は、実際に現場に適用することができる何に対してGANネットワーク生成的? - 知っているほとんどhttps://www.zhihu.com/question/52602529