强化学习基础与马尔科夫决策

强化学习:

智能体(agent)

状态(state)

行为(action)

奖励(reward)

策略(policy)

每一个动作(action)都能影响代理将来的状态(state),通过一个标量的奖励(reward)信号来衡量成功。

目标:选择一系列行为来最大化未来的奖励

马尔科夫决策过程

马尔科夫决策要求:

1、目标能够被检测到。例如:AlphaGo下围棋,知道什么是赢,赢了有一个奖励,最终能够检测到一个理想状态。

2、可以多次尝试。为了达到目标,最开始并不确定下一步应该怎么去进行,在不知道的情况下,要可以进行多次尝试。每次尝试得到一个结果。

3、系统的下一个状态只与当前状态信息有关,而与更早之前的状态无关,在决策过程中还和当前采取的动作有关。

马尔科夫决策过程由5个元素构成:

S:表示状态集(states)

A:表示一组动作(actions)

P:表示状态转移概率P_{sa}表示在当前s∈S状态下,经过a\inA\in A作用后,会转移到的其它状态的概率分布情况,在状态s下执行动作a\inA,转移到s^{'}的概率可以表示为P\left ( s^{'}|s,a \right )

R:奖励函数(reward function)表示agent采取某个动作后的及时奖励

\gamma:折扣系数,意味着当下的reward比未来反馈的reward更重要,当前的reward不打折,未来反馈的打折,取值范围:\left ( 0< \gamma \leqslant 1 \right )

马尔科夫决策模型:

1、智能体初始状态为s_{0}

2、选择一个动作a_{0}

3、按概率转移矩阵P_{sa}转移到下一个状态s_{1}

然后循环。

s_{0} \overset{a_{0}}{\rightarrow} s_{1} \overset{a_{1}}{\rightarrow} s_{2} \overset{a_{2}}{\rightarrow} s_{3} \overset{a_{3}}{\rightarrow} ……

状态价值函数:

状态价值函数:v\left ( s \right )=E\left [ U_{t}|S_{t}=s \right ]

t 时刻的状态s 能获得的未来回报的期望

价值函数用来衡量某一状态或状态—动作对的优劣价,累计奖励的期望

最优价值函数:所有策略下的最优累计奖励期望v_{*}\left ( s \right )=\underset{\pi }{max}v_{\pi }\left ( s \right ),评价什么样的动作操作对,才能使累计奖励最大。

策略:已知状态下可能产生动作的概率分布

猜你喜欢

转载自blog.csdn.net/JimmyGoong/article/details/88791434