揭秘深度强化学习-2强化学习主要挑战

看完觉得深受启发的一篇文章，根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

回忆一下童年游戏打砖块(Breakout)。在这个游戏中，玩家通过控制一根屏幕上的平板，让一颗不断弹来弹去的“球”在撞击作为过关目标消去的“砖块”的途中不会落到屏幕底下，每当球撞到一个砖块，砖块会消失同时你的分数会增长——你获得奖励

想象一下，你想要教会一个神经网络玩这个游戏。你的神经网络输入值应该是屏幕图像信息，并且输出是三个动作：向左、向右、发射弹球。我们可以把它视为一个分类问题——对于每一个游戏屏幕信息，你需要决定是否向左、向右或发射弹球。听起来很简单？当然了，但是接下来你需要训练样本，非常非常多的训练样本。你也许可以去记录专业玩家的游戏记录信息，但这真的不是我们想要的学习途径，我们不需要别人数以百万次过来告诉我们该如何选择行动。我们只需偶尔的反馈我们做对了，然后其他问题自己分析解决。

这就是强化学习试图解决的问题。强化学习介于监督学习和无监督学习之间。在监督学习中，每一个训练样本有一个目标标签，而在无监督学习中完全没有标签。强化学习拥有的是稀少的并且时间延迟的标签——奖励。智体仅仅通过这些奖励学习在特定环境中该如何行动

尽管这个想法非常直观，在实践中将会有很多的挑战。比如说，当你玩打砖块时碰到一个砖块并且获得一个分数奖励，它通常与你刚刚对平板所做的操作无关，而是之前将“小棒”放在准确位置并且反弹小球后，重要的工作就都做完了。这被称为信用分配问题(credit assignment problem)——也就是说，哪些行为与获取奖励有关并且相关度有多少。

当你找出一个策略来收集一定奖励分数时，你应该坚持使用它还是尝试获取可能更高的奖励呢？在上面的打砖块游戏中一个简单策略是移动到左边并且在这里等待，当发射时，小球往往倾向于向左边飞，你可以在游戏结束之前很轻松的获得10分。你是满足于此，还是想要更多？这被称为探索-利用两难问题(explore-exploit dilemma)，就是你会利用已知的策略，还是探索其它可能更好的策略。

强化学习是一个关于我们如何学习重要的模型。来自父母的赞美，学校的评分，工作获得的薪水——这些都是奖励(Reward)。信用分配问题(credit assignment problem)和探索-利用两难问题(explore-exploit dilemma)也出现在工作，人际关系方方面面。这就是这些难题重要的原因，而游戏构成一个完美沙盒试图帮助我们找到解决这些问题的新方法。

揭秘深度强化学习-2强化学习主要挑战

猜你喜欢