Reinforcement learning——an introduction强化学习翻译1.4节

1.4 Limitations and Scope

强化学习在很大程度上依赖于状态的概念——作为策略和价值函数的输入，作为模型的输入和输出。非正式地说，我们可以把状态看作是一个信号，向施动者传达某种特定时间内“环境如何”的感觉。第三章给出了马尔可夫决策过程的框架，给出了状态的形式化定义。然而，更一般地，我们鼓励读者遵循非正式的含义，并将状态看作是智能体所能获得的关于其环境的任何信息。实际上，我们假设状态信号是由某些预处理系统产生的，而预处理系统名义上是智能体的环境的一部分。在本书中，我们不讨论构建、改变或学习状态信号的问题(除了在17.3节中的简要介绍)。我们采取这种方法，不是因为我们认为状态代表不重要，而是为了充分关注决策问题。换句话说，我们在这本书中关注的不是设计状态信号，而是决定采取什么行动作为可用状态信号的函数。

我们在这本书中考虑的大多数强化学习方法都是围绕估计值函数构建的，但这并不是解决强化学习问题的严格必要的。例如，解决方法如遗传算法，遗传规划，模拟退火，和其他优化方法从不估计值函数。这些方法应用多个静态策略，每个策略在长时间内与环境的单独实例交互。获得最多回报的策略，以及它们的随机变化，被延续到下一代的策略中，这个过程不断重复。我们称这些为进化方法，是因为它们的运作方式类似于生物进化产生具有熟练行为的生物体，即使它们在个体生命中没有学习。如果策略的空间足够小，或者可以将好的策略构造成通用的或容易找到的，或者如果有大量的时间用于搜索，那么进化方法就会有效。此外，进化方法在学习主体无法感知其环境的完整状态的问题上具有优势。

我们的重点是强化学习方法，在与环境互动的过程中学习，这是进化方法做不到的。在许多情况下，能够利用个体行为交互细节的方法比进化方法更有效。进化方法忽略了强化学习问题的很多有用结构:它们没有使用这样一个事实:它们正在寻找的政策是一个从国家到行动的函数;他们不会注意到一个人在其生命中经历了哪些状态，或者选择了哪些行为。在某些情况下，这样的信息可能会误导人(例如，当国家被误解时)，但更多的情况下，它应该使更有效的搜索。虽然进化和学习有许多共同的特性，并且自然地一起工作，但是我们并不认为进化方法本身特别适合于强化学习问题，因此，我们在这本书中不涉及它们。

Reinforcement learning——an introduction强化学习翻译1.4节

1.4 Limitations and Scope

猜你喜欢