Reinforcement learning——an introduction强化学习翻译1.2节

1.2 Examples

理解强化学习的一个好方法是考虑指导强化学习发展的一些示例和可能的应用程序。

（1）象棋大师出招。选择是通过计划-预期可能的答复和反答复，以及对特定立场和行动的可取性的即时、直观的判断。

（2）自适应控制器可实时调整炼油厂的运行参数。控制器根据指定的边际成本优化收益/成本/质量折衷，而不必严格遵守工程师最初建议的设定点。

（3）小羚羊在出生几分钟后挣扎着站起来。半小时后，它以每小时20英里的速度奔跑。

（4）一个移动机器人决定是应该进入一个新的房间去收集更多的垃圾，还是开始寻找返回电池充电站的路。它根据电池的当前充电水平以及过去找到充电器的速度和容易程度做出决定。

（5）菲尔准备早餐。仔细观察，即使是这种看似平凡的活动，也揭示了一个复杂的条件性行为和相互关联的目标-子目标关系网：走到柜子前，打开柜子，选择一个谷类食品盒，然后伸手去拿，抓住，然后取回盒子。其他复杂，调整，互动的行为序列需要获得一个碗，勺子和牛奶盒。每一步都涉及到一系列的眼球运动来获取信息，并指导到达和移动。人们不断地快速判断如何搬运这些物品，或者在获得其他物品之前先将其中一些物品运送到餐桌上是否更好。每一步都有目标的指引，比如抓住勺子或者去冰箱，同时也为其他目标服务，比如一旦麦片准备好了，就可以用勺子吃饭，最终获得营养。不管他是否意识到这一点，菲尔都在获取有关他身体状况的信息，这些信息决定了他的营养需求、饥饿程度和食物偏好。

这些例子分享了一些很容易被忽略的基本特性。所有这些都涉及到一个积极的决策智能体与其环境之间的相互作用，在其中智能体寻求实现一个目标，尽管其环境不确定。智能体的行为被允许影响环境的未来状态(例如,下象棋的位置,水库的炼油厂的水平,未来机器人的下一个位置和充电电池),因此一个↵机会的行动在稍后时间和机会提供给代理。正确的选择需要考虑行动的间接、延迟的后果，因此可能需要预见或计划。

同时，在所有这些例子中，不能完全预测行动的效果；因此，代理人必须经常监测其环境并作出适当的反应。例如，菲尔必须注意把牛奶倒进麦片碗里，以免牛奶溢出。所有这些例子都涉及到明确的目标，在某种意义上，代理可以根据它可以直接感觉到的东西来判断朝着目标的进展。棋手知道他赢不赢，炼油厂控制员知道石油产量，小羚羊知道它什么时候掉下来，移动机器人知道它的电池何时用完，菲尔知道他是否在享用早餐。

在所有这些示例中，智能体都可以利用其经验随时间改进其性能。国际象棋运动员改进了他用来评估位置的直觉，从而改进了他的棋局；小羚羊提高了它奔跑的效率；菲尔学会了如何流水地做早餐。智能体在任务开始时从相关任务的先前经验中或通过设计或进化而内置到任务中的知识会影响有用或易于学习的内容，但与环境的交互对于调整行为以利用任务的特定特征至关重要。

Reinforcement learning——an introduction强化学习翻译1.2节

1.2 Examples

猜你喜欢