解釈!清華大学とグーグルを含む10の集中的な学習論文の要約

強化学習(RL)は、今日の機械学習で最も人気のある研究分野の1つになりつつあります。一般的な教師あり学習や教師なし学習とは異なり、強化学習はエージェントと環境の間の相互作用を強調します。相互作用中、エージェントはその状態に応じて次のアクションを選択する必要があります。)アクションを実行した後、エージェントは次の状態、そして同時に環境からのこの状態遷移の報酬を受け取ります。

強化学習の目標は、エージェントと環境の間の相互作用プロセスから情報を取得し、状態とアクションの間のマッピングを学習し、状態に基づいて最良の決定を下し、報酬を最大化するようにエージェントを導くことです。

強化学習システムでは、エージェントと環境に加えて、重要な要素には、価値関数、ポリシー、および報酬信号が含まれます。価値ベースとポリシーベースは、強化学習アルゴリズムを設計するための2つの主要なアイデアです。エージェントと環境との対話中に、報酬は、エージェントが特定の状態でアクションを実行した直後に受け取るフィードバックであり、値関数は、将来のアクションを考慮した後のすべての可能な状態のエージェントの評価を反映します。

この記事では、過去2年間にICLRやICMLなどのAIサミットで読者向けに公開された強化学習に関する論文を解釈します。

適切な質問をする:強化学習によるアクティブな質問の再定式化

:作者:クリスチャン・バック、ジャニス・ブリアン、マッシミリアーノ・シアラミタ、ヴォイチェフ・ガジェフスキー、アンドレア・ゲスムンド、ニール・ホールズビー、ウェイ・ワン(谷歌)

紙のアドレス:https//arxiv.org/pdf/1705.07830v2.pdf

概要:この記事では、質問応答を強化学習タスクと見なしています。主なアイデアは、ユーザーと質問応答システムの間に質問再構築モジュールを追加することです。このモジュールは、ユーザーの質問をさまざまな形式に書き換えることができます。これらの書き直された質問は、質問応答システムを介して複数の回答を取得できます。モジュールは、これらの回答から最高品質の回答を選択して、ユーザーに返します。質問再構築モジュールのコアは、機械翻訳に似たシーケンス間モデルです。モデルは、最初に単一言語コーパスで事前トレーニングされ、次に強化学習トレーニングプロセスにポリシーグラデーションが使用されます。目標は、質問を作成することです。応答システムは最良の答えを得る。報酬。

2019111910.jpg

散歩に出て答えにたどり着く:強化学習を使用して知識ベースのパスを推論する

著者:Rajarshi Das、Shehzaad Dhuliawala、Manzil Zaheer、Luke Vilnis、Ishan Durugkar、Akshay Krishnamurthy、Alex Smola、Andrew McCallum(マサチューセッツ大学、カーネギーメロン大学、テキサス大学オースティン校、アマゾン)

紙のアドレス:https//arxiv.org/pdf/1711.05851.pdf

概要:この記事では、ナレッジグラフの自動推論問題を解決するためのMINERVAアルゴリズムを提案します。MINERVAアルゴリズムは、主に知識グラフに基づく自動質問と回答に使用されます。トリプレットとエンティティの1つに関係がある場合は、もう1つのエンティティを完成させます。著者は、既知のエンティティノードから開始し、質問に従って回答ノードに到達するための適切なパスを選択する、パス検索に基づく方法を採用しています。著者は、問題を部分的に観察可能なマルコフ決定過程として形式化し、LSTMに基づくポリシーネットワークを使用して観察シーケンスと履歴決定シーケンスを表現しました。LSTMトレーニングでは、ポリシー勾配法を使用します。

2019111911.jpg

アクティブなニューラルローカリゼーション

著者:Devendra Singh Chaplot、Emilio Parisotto、Ruslan Salakhutdinov(カーネギーメロン大学)

紙のアドレス:https//www.aminer.cn/pub/5a9cb66717c44a376ffb8b95/active-neural-localization

概要:この記事では、アクティブなニューラルローカリゼーションモデルを紹介します。このモデルは、特定の環境マップとエージェントの観測に基づいてエージェントの場所を推定できます。この方法では、データから直接学習し、エージェントのアクションを積極的に予測して、正確で効率的なポジショニングを取得できます。この方法は、従来のフィルターベースの測位方法と戦略モデルを組み合わせており、強化学習を使用してエンドツーエンドのトレーニングを行うことができます。モデルには、知覚モデルと戦略モデルが含まれます。知覚モデルは、現在のエージェントの観察に基づいて可能な場所の信念(信念)を計算します。戦略モデルは、これらの信念に基づいて次のアクションを推定し、正確な位置決めを実行します。

2019111912.jpg

Reactor:強化学習のための高速でサンプル効率の高いActor-Criticエージェント

著者:Audrunas Gruslys、Mohammad Gheshlaghi Azar、Marc G. Bellemare、Remi Munos(DeepMind)

紙のアドレス:https//arxiv.org/pdf/1704.04651.pdf

概要:このホワイトペーパーでは、ポリシー外のエクスペリエンス再生のサンプルの複雑さが低いことと、非同期アルゴリズムのトレーニング効率が高いことの利点を組み合わせたReactorモデルを提案します。サンプルの複雑さは、優先デュエルDQNやカテゴリDQNよりも低く、同時にです。 A3Cの実行時間は短くなります。著者は、新しいポリシー勾配アルゴリズムbeta-LOO、マルチステップのオフポリシー分散強化学習アルゴリズムRetrace、優先再生方法、分散トレーニングフレームワークなど、モデルで多くの手法を使用しました。

2019111913.jpg

ノイズの多いデータからの関係分類のための強化学習

著者:Jun Feng、Minlie Huang、Li Zhao、Yang Yang、Xiaoyan Zhu(清華大学、Microsoft Research Asia、浙江大学)

紙のアドレス:https//www.aminer.cn/pub/5b1642388fbcbf6e5a9b54be/reinforcement-learning-for-relation-classification-from-noisy-data

概要:既存の関係分類方法には、2つの主な制限があります。センテスレベルの関係分類を実行できないこと、リモート監視(遠隔監視)のラベル付きデータに依存していることですが、ラベル付きデータには大きなエラーがあります。この記事では、文レベルの関係分類アルゴリズムを紹介します。アルゴリズムは、「インスタンスセレクター」と「リレーション分類子」の2つの部分で構成されています。インスタンスセレクターは、関係分類器のトレーニングデータとして高品質の文を選択するために使用されます。このプロセスは、強化学習の問題と見なすことができます。作成者は、インスタンスセレクターのアクションスペース、状態スペース、報酬関数を個別に定義し、ポリシー勾配に基づいた最適化方法を提供します。

2019111914.jpg

強化学習によるテキスト分類のための構造化表現の学習

著者:Tianyang Zhang、Minlie Huang、Li Zhao(清華大学、Microsoft Research Asia)

紙のアドレス:https//www.microsoft.com/en-us/research/wp-content/uploads/2017/11/zhang.pdf

概要:この記事では、ディープラーニングに基づく文表現アルゴリズムを提案します。これにより、タスクの文の構造化表現を学習できます。このアルゴリズムは、入力として解析ツリーやその他の表示された構造化表現の注釈を必要としませんが、トレーニングデータを通じてタスクに関連する文型を自動的に認識します。著者は強化学習法を使用して、タスク関連の文構造表現を構築します。モデルは、ポリシーネットワーク(PNet)、構造化表現モデル、分類ネットワーク(CNet)の3つの部分で構成されます。PNetは、文のアクションシーケンスを生成します。構造化表現モデルは、アクションシーケンスが構造化表現に変換され、CNetが報酬信号を提供し、ポリシー勾配法を使用してモデルパラメーターを最適化できます。

2019111915.jpg

モデルフリーの微調整によるモデルベースの深層強化学習のためのニューラルネットワークダイナミクス

著者:Anusha Nagabandi、Gregory Kahn、Ronald S. Fearing、Sergey Levine(カリフォルニア大学バークレー校)

紙のアドレス:https//www.aminer.cn/pub/5a260c8417c44a4ba8a31564/neural-network-dynamics-for-model-based-deep-reinforcement-learning-with-model-free

概要:この記事では、モデルフリーアルゴリズムを初期化するために使用できる新しいモデルベースの強化学習方法を提案します。著者が提案したモデルベースのアルゴリズムは、ニューラルネットワークを使用して動的モデルを適合させ、MPC(モデル予測制御)を組み合わせています。著者は、モデルベースの最適化によって得られた動的モデルをモデルフリーアルゴリズムの初期化として使用します。これにより、モデルベースアルゴリズムのサンプルの複雑さが小さいという利点と、モデルフリーアルゴリズムの強力な一般化機能を同時に保持できます。

2019111916.jpg

コラボレーションの学習:マルチエージェント強化学習によるマルチシナリオランキング

著者:Jun Feng、Heng Li、Minlie Huang、Shichen Liu、Wenwu Ou、Zhirong Wang、Xiaoyan Zhu(清華大学、アリババ)

紙のアドレス:https//arxiv.org/pdf/1809.06260v1.pdf

概要:この記事では、マルチシナリオのジョイントソートアルゴリズムを提案します。目標は、マルチシナリオの全体的な効果を向上させることです。複数のシーンの間にはゲームの関係があり、単一のシーンの改善は全体的な改善を保証することはできません。このホワイトペーパーでは、マルチシナリオソーティングを、完全に協調的で部分的に観察可能なマルチエージェントシーケンスの意思決定問題と見なし、マルチエージェント強化学習のフレームワークを使用してモデル化します。著者は、MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)アルゴリズムを提案します。これは、DRQNを使用してユーザーの履歴情報をモデル化し、DPGを使用して連続状態と連続アクション空間を探索します。

2019111917.jpg

深層強化学習による異種スターネットワーク埋め込みのためのカリキュラム学習

著者:Meng Qu、Jian Tang、Jiawei Han(イリノイ大学アーバナシャンペーン校)

紙のアドレス:https//www.aminer.cn/pub/5a9cb60d17c44a376ffb3c89/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning

概要:この記事では、異種のスターネットワークの表現学習に深層強化学習を適用します。異種スターネットワーク表現の学習プロセスでは、通常、一連のエッジをサンプリングしてポイント間の類似性を取得する必要があります。著者は、これらのエッジの順序が表現学習の効果に大きく影響することを発見しました。著者は、カリキュラム学習のアイデアを利用して、ネットワーク表現学習でこれらのエッジのサンプリング順序を学習する方法を研究しています。この問題は、マルコフ決定過程として形式化することができます。著者は、深層強化学習に基づく解決策を提案します。

2019111918.jpg

ソフトアクター-批評家:確率的アクターによるポリシー外の最大エントロピー深層強化学習

著者:Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel、Sergey Levine(カリフォルニア大学バークレー校)

紙のアドレス:https//arxiv.org/pdf/1801.01290.pdf

概要:この記事では、ソフトアクター批評アルゴリズムを提案します。このアルゴリズムは、最大エントロピー強化学習に基づくポリシー外のアクター批評アルゴリズムであり、報酬を最大化しながらエントロピーを最大化し、アクションを可能な限りランダムにします。著者は、アルゴリズムの収束を証明し、複数のベンチマークで既存のオンポリシーまたはオフポリシーアルゴリズムを上回りました。

2019111919.jpg

誰もが見ています:

AAAI2020がリストにリリースされ、レビュー担当者は必死に不満を漏らしました。厳選された8つの論文を事前にご覧ください!

ICCV2019 | Megviiは、軽量のターゲット検出ネットワークであるThunderNetを提案します

 

 

おすすめ

転載: blog.csdn.net/AMiner2006/article/details/103139004