强化学习导论（Reinforcement Learning：An Introduction）学习笔记（二）

强化学习导论

妈耶，有现成的部分翻译，转载自：https://blog.csdn.net/thousandsofwind/article/details/79710209

1.2 例子

思考其发展中的一些例子和可能的应用是理解强化学习的一个好方法。

象棋大师落字。这个决定既出于他的计划——期待的回复和逆向回复，也出于对特定位置和移动及时直觉的判断。
自适应控制器实时调节炼油厂操作的参数。控制器在指定的边际成本的基础上权衡产量/成本/质量达到最优化，而不严格遵守由工程师提出的初始值。
一头瞪羚在出生后几分钟挣扎着站起来。半小时后，它就能以每小时20英里的速度飞奔。
一个家政移动机器人决定是否应该进入一个新的房间，寻找更多的垃圾收集，或者回到蓄电池充电站。这使得基于其电池的充电水平决定和是否快速和方便地找到过去的充电位置。
菲尔准备早餐。仔细想，这些普通的活动揭示了一个复杂的条件的行为网络和目标–子目标连锁关系：走到柜子，打开它，选择一个麦片盒，然后伸手，抓取，和放回。更多复杂的行为序列，需要碗，汤匙，牛奶罐。每一步都涉及到一系列眼球运动来获取信息并指导到达和移动。人们不断地对如何携带物品作出判断，或是在将这些物品运到餐桌前是否更好。每一步都以目标为指导，如抓住勺子或到冰箱，并为其他目标服务，例如，一旦谷物做好准备并最终获得营养，就得有汤匙吃。另外不管他是否意识到这一点，菲尔正在获取关于他身体状况的信息，这些信息决定了他的营养需求、饥饿程度和食物偏好。

这些示例都以为基础容易被忽略。他们都涉及活动决策代理与其环境之间的互动，代理在不确定的环境中仍寻求实现目标。代理的行动能够影响环境（例如，下一个国际象棋位置、炼油厂的水库水位、机器人的下一个位置和电池的未来充电水平），从而影响到代理之后的选择和面对的环境。正确的选择要考虑到行动的间接的、延迟的后果，因此需要具有远见或计划。

同时，我们无法完全预测到这些例子中行动的影响，因此代理必须持续监视其环境并作出适当的反应。例如，Phil必须看着他倒进麦片碗里的牛奶，以防止牛奶溢出。所有这些例子中代理人在直接感知的基础上可以进行进度的判断，因而某种程度上可以说目标是清晰的（ All these examples involve goals that are explicit in the sense that the agent can judge progress toward its goal based on what it can sense directly）。象棋玩家知道他是否赢了，炼油厂的管理人员知道有多少石油正在生产，移动机器人知道电池耗尽时，Phil知道他是否正在享用他的早餐。

在所有这些示例中，随着时间的推移代理可以使用它的经验来改进其性能。这位棋手提高了他用来评估位置的直觉，从而提高了他的下棋能力；瞪羚提高了奔跑的效率；Phil学会了流程的制作早餐。在任务开始时代理所具有的过去相关任务中的经验或其设计和演化带来的知识影响了学什么更有用或更轻松，但与环境的交互对于利用任务的特性更加至关重要。