强化学习:
智能体(agent)
状态(state)
行为(action)
奖励(reward)
策略(policy)
每一个动作(action)都能影响代理将来的状态(state),通过一个标量的奖励(reward)信号来衡量成功。
目标:选择一系列行为来最大化未来的奖励
马尔科夫决策过程
马尔科夫决策要求:
1、目标能够被检测到。例如:AlphaGo下围棋,知道什么是赢,赢了有一个奖励,最终能够检测到一个理想状态。
2、可以多次尝试。为了达到目标,最开始并不确定下一步应该怎么去进行,在不知道的情况下,要可以进行多次尝试。每次尝试得到一个结果。
3、系统的下一个状态只与当前状态信息有关,而与更早之前的状态无关,在决策过程中还和当前采取的动作有关。
马尔科夫决策过程由5个元素构成:
S:表示状态集(states)
A:表示一组动作(actions)
P:表示状态转移概率表示在当前∈S状态下,经过作用后,会转移到的其它状态的概率分布情况,在状态下执行动作,转移到的概率可以表示为
R:奖励函数(reward function)表示agent采取某个动作后的及时奖励
:折扣系数,意味着当下的reward比未来反馈的reward更重要,当前的reward不打折,未来反馈的打折,取值范围:
马尔科夫决策模型:
1、智能体初始状态为
2、选择一个动作
3、按概率转移矩阵转移到下一个状态
然后循环。
……
状态价值函数:
状态价值函数:
t 时刻的状态s 能获得的未来回报的期望
价值函数用来衡量某一状态或状态—动作对的优劣价,累计奖励的期望
最优价值函数:所有策略下的最优累计奖励期望,评价什么样的动作操作对,才能使累计奖励最大。
策略:已知状态下可能产生动作的概率分布