前沿强化学习问题

近年来，深度强化学习（DRL）受到了大家的广泛关注，并且在机器人控制、自动驾驶、推荐系统领域等都得到了应用，但DRL目前的发展依然受限，本文将从以下几方面进行分析和解释。

一、样本效率sample efficiency

学习所需样本太多，目前常用的方法有：

off-policy(experience reply)：之前的经验存下来之后反复使用；
model-based learning：有利于更有方向性地探索，另一方面利用模型规划使action质量更高；
piror：从其他地方获取先验知识，并加以利用从而更快学习；
faster convergence：使算法更快收敛。

二、学习的最终效果不好

最常采用以下方式：

针对特定问题进行特定建模；
提高模型的容量（一些model-based方法）和抽象能力（分层强化学习）；
模仿学习（imitation learning），从专家示范入手；
逐步学习（curriculum learning），先学习简单情形，再学习更复杂的情形

三、奖励设置困难

Gym对于特定任务已经人为定义了比较合适的奖励，人为去定义现实生活中的奖励往往非常困扰，易导致算法效果非常不好。如果直接将目标定义为奖励，会导致奖励非常稀疏（sparse），定义奖励的最好办法是一步步引导agent来解决问题，但agent往往是愚蠢而懒惰的，它们经常会想尽办法利用所定义奖励中的漏洞来欺骗设计者，所以需要定义的奖励最好是形态完好且平滑，从而让agent“安分”完成任务。常用解决方法如下：

先面对困难，再定义更好的方案，如迭代更新的Gym任务；
让它能自己学习到奖励，如imitation learning、inverse learning；
直接定义内在奖励，如curiosity、diversity。

四、缺乏泛化性

即对于特定环境的过拟合，不能泛化。目前的方法：

在更广问题上学习先验知识（piror），然后在特定问题上加速学习，如transfer learning、meta learning、few-shot learning；
逻辑推理能力，（目前进展欠缺）。

五、调参困难

引起困难的主要原因：

随机性：任务本身的、采样的等等；
测试一组超参数花费的时间长；
算法缺乏稳定性。

六、其他问题

Reality Gap
Multi-agent RL
…

前沿强化学习问题

前沿强化学习问题

猜你喜欢