强化学习:从网格世界到自动驾驶

0. Agents, Environments, and Rewards

在过去几年中,人工智能研究人员发表的许多主要公告都是一门称为强化学习(RL)的学科。 最近的突破主要是由经典RL创意的微小转折所驱动,这得益于强大的计算硬件和利用所述硬件的软件的可用性。

为了了解现代深度RL模型对于计算的饥饿程度,下表是最近RL进展的非详尽集合以及完成每项任务所需的计算资源的估计。在这里插入图片描述
请注意,上表中的任务都经过模拟训练(即使是灵巧的机器人手),并且在大多数情况下,这是所需训练时间易于处理的唯一方法。对于像自动驾驶汽车这样的实际应用来说,这可能会变得特别棘手 - 稍后会更多关于该主题。

随着RL代理人在日益复杂的环境中解决任务,他们成为维度诅咒的牺牲品。这种复杂性的组合爆炸解释了像Dota Five这样的团队游戏机器人需要在数天内每天训练900年才能在非常有能力的硬件上击败顶级人类玩家。即使有像OpenAI用于Dota Five的那些可笑的计算资源,特别是深RL也有许多棘手的问题,这些问题最多只能使训练效率低下,而且最坏的情况是,许多问题基本上是难以处理的。

值得注意的是,在击败99.5%的前职业球员之后,每天有900天的训练,OpenAI的Dota Five在2018年的国际比赛中输掉了两场与顶级职业比赛的比赛。学习曲线只是在掌握方法上变得更加陡峭,对于RL代理来说,这种情况变得更加严重。对于Dota Five从99.5到99.99%的顶级玩家前进,它可能需要尽可能多的自我训练时间,因为代理人已经完成了迄今为止,并且暂时满足移动目标。为了体验RL代理商学习游戏的难度,尝试使用蒙面先验玩Atari游戏。

现代RL起源于最佳控制和行为的心理社会研究领域,后者主要包括对动物学习过程的观察。虽然RL的动物行为主义起源至少可以追溯到19世纪50年代亚历山大·贝恩通过“摸索和实验”学习的概念,但也许更令人难忘的例子是J.F. Skinner的同名Skinner盒子,也就是操作性调节室。这些房间提供了RL问题的所有主要组成部分:具有某种变化状态的环境,代理人以及代理人可以采取的潜在选择的行动空间。在动物行为中,奖励可以通过诸如按杠杆获得食物奖励之类的东西来触发,但是对于RL问题,一般来说奖励可以是任何东西,并且仔细设计好的奖励功能可以意味着有效和行为不端之间的差异。

在这里插入图片描述

1. Quality and Value Functions in Gridworld

到目前为止,我们已经讨论了越来越多的强化学习突破以及对运行RL模型的高性能计算需求的同步增长,以及RL在动物行为研究中的根源。

最佳控制和动态规划是另一个必不可少的领域,有助于我们对RL的现代理解。 特别是,这些领域给出了Bellman方程,用于理解给定环境状态(价值函数)的最大奖励以及从给定状态(质量函数)获得最高潜在回报的最佳可用行动。

下面的图片是您在任何RL类的第一讲中几乎肯定会看到的主要示例的示例。

在这里插入图片描述
在简化的“网格世界”中,代理可以向上,向下或左右移动。代理不能离开网格,并且某些网格可能被阻止。这种环境中的状态是网格位置,而绿色笑脸表示积极奖励,红色框表示负面奖励。积极和消极奖励之后都会退出游戏。在此示例中,值函数(给定状态的最大潜在奖励)由每个方块的绿色饱和度指示,而箭头的大小和颜色对应于质量函数(在给定状态下采取的动作的最大潜在奖励) )。由于代理商将未来的奖励折现为有利于即时奖励,因此对于需要更多动作才能达到目标的州来说,价值和质量功能会降低。

在像网格世界这样的简单示例中,价值和质量函数可以有效地存储在查找表中,以确保代理始终在给定环境中做出最佳决策。对于更现实的场景,预先不知道这些功能,并且必须探索环境以生成质量函数的估计,之后代理可以通过利用其对环境及其奖励的理解来贪婪地寻求最大化奖励。探索和利用RL环境的一种有效方法是使用深度神经网络来估计质量函数。

2. Deep Q-Learning Networks and Policy Gradients: End-to-End Deep Learners

在一篇开创性的2013年论文中,来自Deepmind的研究人员发表了一个强化学习者,能够在49个经典的Atari视频游戏中的29个中达到或超过人类表现。本文的主要成就是,与简单的强化学习问题不同,可能对游戏机制信息有特殊的访问权限,本文所展示的模型仅使用游戏的像素作为输入,就像人类玩家一样。此外,同样的模型能够学习各种不同类型的游戏,从拳击到海洋探索。这种方法,其中输入由一端的神经网络读取并且期望的行为被直接学习,而没有将代理的不同方面粘合在一起的手动编码模块被称为端到端深度学习。在Deepmind的DQN模型的情况下,输入是视频游戏的最后几帧,输出是质量功能,描述了代理对不同操作的奖励期望。

快进几年,最先进的深层强化学习代理变得更加简单。政策梯度代理不是学习预测每个行动的预期奖励,而是直接选择给定当前环境状态的行动。这实际上是通过将强化学习问题转化为监督学习问题来实现的:

  • 1. 代理基于将代理定义为神经网络的一组参数θ来执行一些任务(例如,玩游戏,从点A驱动到点B,操纵块)。
  • 2. 多次运行的任务性能构成批处理,并且每个任务性能的最终奖励形成损失函数。
  • 3. 代理使用梯度下降来最小化损失函数,增加对具有正奖励的运行做出的每个决策的概率,反之亦然对于负奖励。
  • 重复步骤1到3,直到代理性能收敛和/或达到某个基准。

增加每次行动(包括错误)的可能性最终产生积极奖励的效果可能看起来令人惊讶,但在实践中并且在很多次跑步中取得平均,获胜的表现将包括更正确的行动和更低的奖励表现将包括更多的错误。 这是学习跑酷式运动,机器人足球技能的RL代理人的简单基础,是的,使用政策梯度进行端到端深度学习的自动驾驶。 来自Wayve的一段视频演示了一名RL代理人在大约20分钟内学习驾驶一辆孤立的乡村公路上的实体车,并且人工操作员干预之间的距离作为奖励信号。
点击观看

这是一个非常引人注目的演示,虽然非常简单。 还记得前面提到的维数诅咒吗? 真实世界的驾驶比单一的国家车道有更多的变数。 对于RL,可以预期每个新方面都需要指数级更高的培训要求。 鉴于目前的技术水平,完全自动驾驶汽车将不可避免地要求在模拟环境中学习学习程度,广泛的手工编码模块将功能性联系起来并处理边缘情况,或两者兼而有之。

3. Moving to the Real World as Deep Learning Eats Autonomous Driving

现代机器学习复兴所承诺的最明显的应用之一是自动驾驶汽车。汽车可能是最危险的现代技术,被接受并作为日常必需品,世界卫生组织估计全球每年的道路交通死亡人数为125万。固定自动驾驶汽车的经济影响是困难的,但仅在美国,保守估计每年从190美元到6420亿美元不等。

现代自动驾驶起源于ALVINN控制卡内基梅隆自动驾驶测试平台NAVLAB和Ernst Dickmann在20世纪80年代和90年代在联邦国防军大学的工作。现代自驾车开发人员似乎很熟悉这些项目的许多组件:ALVINN利用神经网络预测30×32视频输入和激光测距仪输入的转弯曲率。为了解决计算瓶颈,Dickmann的动态视觉系统基于预期的重要性将计算重点放在预定义的图像区域上,这一概念与现代网络中的神经注意非常相似。

20世纪80年代和90年代的自动驾驶汽车中的许多创新都是克服数据吞吐量或处理瓶颈所必需的。最近,计算能力的可用性不再是瓶颈,克服全部汽车自治挑战的最后10%左右的主要挑战与确保培训数据可靠性和有效处理异常边缘情况有关。

神经网络在计算机视觉任务中的成功使这些成为深度学习的明显工作,典型的工程方法可能将深度学习视觉与其他学习或硬编码模块相结合,以处理驾驶的各个方面。越来越多的自动驾驶开发人员不再设计和培训必须由许多有才华的工程师共同努力的单独模型,而是依靠具有高质量培训数据的智能模型并仔细考虑目标函数来学习更全面的技能用于驾驶。如果我们想象自驱动技术堆栈的状态和场的方向,它可能看起来像下面的框图。

在这里插入图片描述

4. Conclusions: When Can You Expect Your Car to Pick You Up?

几十年前的自动驾驶汽车领先于他们的时间,受到处理时间和数据吞吐量的计算限制的限制。当时和现在之间的主要区别在于强大的计算资源的可用性。许多研究人员指出,2012年在图形处理单元(GPU)上训练的卷积神经网络在ImageNet大规模视觉识别挑战中的惊人表现是点燃机器学习中现代复兴的火花,其特点是训练大型模型数据集并利用GPU的并行处理能力。这已经形成了良性循环,吸引了额外的兴趣和资金,从而带来了进一步的成就和更广泛的实用领域,并最终通过新思路的新曲线推动了进一步的创新。要实现我们可以信赖的完全自动驾驶汽车,仍然需要克服许多挑战,并且随着计算资源的不断改进,肯定会有更多令人兴奋和未知的机会来解决有趣的问题。

鉴于混乱的现实世界条件和所涉及的高风险的组合爆炸的后果,RL可能需要基本的突破才能使完全自动驾驶成为现实。学习如何处理看不见的边缘情况,或者训练高级命令,例如“道路的基本规则是绕行而不造成伤害”,这不是RL做得好的事情。例如,专注于正确识别磨损或错误涂漆的车道标记远不如教导驾驶员预测和避免骑车人躲避自行车道以避免坑洞那么重要。车道保持的学习曲线和识别明显和已知的零干预驾驶障碍是陡峭的,正确攀登它是收获完全自动驾驶车辆等技术的回报与推迟未来的灾难性后果之间的差异,也许是无限期的。

猜你喜欢

转载自blog.csdn.net/weixin_41697507/article/details/87913237