Reinforcement learning——an introduction强化学习翻译1.6节

1.6 Summary

​ 强化学习是一种理解和自动化目标导向学习和决策的计算方法。它与其他计算方法的区别在于,它强调由一个agent从与其环境的直接交互中学习,而不需要示范性的监督或环境的完整模型。在我们看来,强化学习是第一个认真解决从与环境的交互学习中产生的计算问题的领域,以实现长期目标。

​ 强化学习使用马尔可夫决策过程的形式化框架来定义学习的智能体与环境之间的交互作用,包括状态、动作和奖励。这个框架旨在成为表示人工智能问题本质特征的一种简单方法。这些特征包括因果感、不确定性和不确定性,以及明确目标的存在。

​ 价值和价值函数的概念是我们在本书中考虑的大多数强化学习方法的关键。我们认为,在政策空间中,价值函数对于有效搜索是重要的。价值函数的使用将强化学习方法与进化方法区分开来,后者直接在整个策略的评估指导下搜索策略空间。

猜你喜欢

转载自blog.csdn.net/wangyifan123456zz/article/details/107381072
今日推荐