前沿强化学习问题

前沿强化学习问题

近年来,深度强化学习(DRL)受到了大家的广泛关注,并且在机器人控制、自动驾驶、推荐系统领域等都得到了应用,但DRL目前的发展依然受限,本文将从以下几方面进行分析和解释。

一、 样本效率sample efficiency

学习所需样本太多,目前常用的方法有:

  1. off-policy(experience reply):之前的经验存下来之后反复使用;
  2. model-based learning:有利于更有方向性地探索,另一方面利用模型规划使action质量更高;
  3. piror:从其他地方获取先验知识,并加以利用从而更快学习;
  4. faster convergence:使算法更快收敛。

二、  学习的最终效果不好

最常采用以下方式:

  1. 针对特定问题进行特定建模;
  2. 提高模型的容量(一些model-based方法)和抽象能力(分层强化学习);
  3. 模仿学习(imitation learning),从专家示范入手;
  4. 逐步学习(curriculum learning),先学习简单情形,再学习更复杂的情形

三、  奖励设置困难

Gym对于特定任务已经人为定义了比较合适的奖励,人为去定义现实生活中的奖励往往非常困扰,易导致算法效果非常不好。如果直接将目标定义为奖励,会导致奖励非常稀疏(sparse),定义奖励的最好办法是一步步引导agent来解决问题,但agent往往是愚蠢而懒惰的,它们经常会想尽办法利用所定义奖励中的漏洞来欺骗设计者,所以需要定义的奖励最好是形态完好且平滑,从而让agent“安分”完成任务。常用解决方法如下:

  1. 先面对困难,再定义更好的方案,如迭代更新的Gym任务;
  2. 让它能自己学习到奖励,如imitation learning、inverse learning;
  3. 直接定义内在奖励,如curiosity、diversity。

四、  缺乏泛化性

即对于特定环境的过拟合,不能泛化。目前的方法:

  1. 在更广问题上学习先验知识(piror),然后在特定问题上加速学习,如transfer learning、meta learning、few-shot learning;
  2. 逻辑推理能力,(目前进展欠缺)。

五、  调参困难

引起困难的主要原因:

  1. 随机性:任务本身的、采样的等等;
  2. 测试一组超参数花费的时间长;
  3. 算法缺乏稳定性。

六、  其他问题

  1. Reality Gap
  2. Multi-agent RL

猜你喜欢

转载自blog.csdn.net/Fox_Alex/article/details/109150739