深度强化学习落地方法论算法选择:DQN、DDPG、A3C、PPO、TD3

虽然每年 RL 方向的 paper 满天飞,但真正具有普遍实用价值的突破性工作实在不多,大多数还是在经典框架基础上的改进和扩展。DRL 常规武器库里的存货主要还是老三样:DQN,DDPG 和 A3C,它们是深度学习时代最成熟、最能体现智慧结晶的三个 DRL 框架,你可以在 GitHub 上找到无数相关代码,有 OpenAI,DeepMind 和 Nvidia 这些大公司的,也有个人爱好者的。对于 DRL 初学者,它们是最佳的敲门砖;对于算法研究者,它们是最厚实的 “巨人肩膀”;对于算法工程师,它们是最顺手的试金石。你完全可以把三个框架都放到项目模拟器上跑一跑,看哪个效果好就用哪个。当然,这三个算法框架都有各自的特点和适用 domain,结合对项目的分析,是可以提前评估最合适的算法的。

1.强化学习——探索和利用的平衡游戏


总体来说,强化学习是一个探索(Exploration)和利用(Exploitation)的平衡游戏,前者使 agent 充分遍历环境中的各种可能性,从而有机会找到最优解;后者利用学到的经验指导 agent 做出更合理的选择。两者之间可以说是相爱相杀的关系:

  1. 充分的探索才能带来有效的利用,从而使 RL 走在正确的道路上。对于那些难度特别高的任务,改进探索策略是性价比最高的手段,比如 AlphaGo 使用蒙特卡洛决策树征服了围棋,Go-Explore 利用状态回访打爆了 Montezuma’s Revenge
  2. 充分的利用才能探索到更好的状态,agent 往往需要掌握基本技能,才能解锁更高级的技能。就好像小孩先要学会站起来,

猜你喜欢

转载自blog.csdn.net/sinat_39620217/article/details/131730471