Discovering Reinforcement Learning Algorithms

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

arXiv:2007.08794v1 [cs.LG] 17 Jul 2020

Abstract

　　强化学习（RL）算法根据经过多年研究手动发现的几种可能规则之一来更新智能体的参数。从数据中自动发现更新规则可能会导致效率更高的算法，或者更适合特定环境的算法。尽管已经进行了尝试来应对这一重大的科学挑战，但是仍然存在一个未决的问题，即发现RL基本概念的替代方法（例如价值函数和时序差分学习）是否可行。本文介绍了一种新的元学习方法，该方法通过与一组环境交互来发现整个更新规则，其中包括“预测什么”（例如价值函数）和“如何从中学习”（例如bootstrapping）。此方法的输出是RL算法，我们称为学习型策略梯度（LPG）。实证结果表明，我们的方法发现了它自己的替代价值函数的概念。此外，它发现了一种bootstrapping机制来维持和使用其预测。出乎意料的是，仅在toy环境中进行训练时，LPG可以有效地推广到复杂的Atari游戏中，并达到非凡的性能。这表明从数据中发现通用RL算法的潜力。

1 Introduction

　　强化学习（RL）有一个明确的目标：最大化期望累积奖励（或平均奖励），这很简单，但又足以捕获智能的许多方面。即使RL的目标很简单，但开发有效的算法来优化该目标通常需要大量的研究工作，从建立理论到实证研究。一种有吸引力的替代方法是从与一组环境交互生成的数据中自动发现RL算法，这可以表述为元学习问题。最近的工作表明，当给定价值函数时，可以元学习策略更新规则，并且生成的更新规则可以推广到相似的或没见过的任务（参见表1）。
　　但是，完全从头开始发现RL的基本概念是否可行仍然是一个悬而未决的问题。特别地，RL算法的定义方面是它们学习和利用价值函数的能力。发现价值函数之类的概念需要同时理解“预测什么”和“如何利用预测”。从数据中发现这尤其具有挑战性，因为在多次更新过程中，预测仅对策略具有间接影响。我们假设一种能够发现自身价值函数的方法可能还会发现其他有用的概念，从而有可能为RL开辟全新的方法。

　　基于上述开放性问题，本文朝着发现通用RL算法迈出了一步。我们引入了一个元学习框架，该框架从与环境分布交互产生的数据中共同发现“智能体应该预测什么”和“如何使用预测来改进策略”。我们的架构，即学习型策略梯度（LPG），不会对智能体的矢量值输出强制执行任何语义，而是允许更新规则（即元学习器）决定此矢量应预测的内容。然后，我们提出一个元学习框架，以从多个学习智能体发现这种更新规则，每个学习智能体都与不同的环境进行交互。

　　实验结果表明，我们的算法可以发现有用的函数，并有效地使用这些函数来更新智能体策略。此外，经验分析表明，发现的函数趋向于对价值函数的概念进行编码，并且还通过bootstrapping的形式来维护该价值函数。我们还评估了发现的RL算法推广到新环境的能力。令人惊讶的是，即使仅从与很小的一组toy环境的交互中发现了更新规则，也能够将其推广到许多复杂的Atari游戏[2]，如图9所示。首先要证明有可能发现整个更新规则，并且从toy领域中发现的更新规则可以与具有挑战性的基准的人工设计算法竞争。

2 Related Work

EarlyWork on Learning to Learn

Learning to Learn for Few-Shot Task Adaptation

Learning to Learn for Single Task Online Adaptation

Discovering Reinforcement Learning Algorithms

3 Meta-Learning Framework for Learned Policy Gradient

3.1 LPG Architecture

3.2 Agent Update (θ)

3.3 LPG Update (η)

Regularisation

3.4 Balancing Agent Hyperparameters for Stabilisation (α)

4 Experiment

4.1 Experimental Setup

Training Environments

Implementation Details

Baselines

4.2 Specialising in Training Environments

4.3 Analysis of Learned Policy Gradient

What does the prediction (y) look like?

Does the prediction (y) capture true values and beyond?

Does the prediction (y) converge?

4.4 Ablation Study

4.5 Generalising from Toy Environments to Atari Games

5 Conclusion

Broader Impact

A Training Environments

A.1 Tabular Grid World

Observation Space

Action Space

A.1.1 Dense

A.1.2 Sparse

A.1.3 Long Horizon

A.1.4 Longer Horizon

A.1.5 Long Dense

A.2 Random Grid World

A.2.1 Dense

A.2.2 Long Horizon

A.2.3 Small

A.2.4 Small Sparse

A.2.5 Very Dense

A.3 Delayed Chain MDP

A.3.1 Short

A.3.2 Short and Noisy

A.3.3 Long

A.3.4 Long and Noisy

A.3.5 State Distraction

B Implementation Details

B.1 Meta-Training

Details of LPG Architecture

Details of LPG Update

Details of Hyperparameter Balancing

Preventing Early Divergence

B.2 Meta-Testing

B.3 Computing Infrastructure

C Generalisation to Atari Games

Discovering Reinforcement Learning Algorithms

猜你喜欢