强化学习笔记 - 00 - 术语和数学符号

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011254180/article/details/84031546

基本概念

Agent - 本体。学习者、决策者。
Environment - 环境。本体外部的一切。
s - 状态(state)。一个表示环境的数据。
S,S - 所有状态集合。环境中所有的可能状态。
a - 行动(action)。本体可以做的动作。
A,A - 所有行动集合。本体可以做的所有动作。
A(s),A(s) - 状态s的行动集合。本体在状态s下,可以做的所有动作。
r - 奖赏(reward)。本体在一个行动后,获得的奖赏。
R - 所有奖赏集合。本体可以获得的所有奖赏。

S_{t} - 第t步的状态(state)。t from 0
A_{t} - 第t步的行动(select action)。t from 0
R_{t} - 第t步的奖赏(reward)。t from 1
G_{t} - 第t步的长期回报(return)。t from 0。 强化学习的目标1:追求最大回报

\\G_{t} \doteq \sum_{k=0}^{\infty}\gamma ^{k}R_{t+k+1} \\where \\k - the sequence number of an action \\r - discount rate,0\leq \gamma \leq 1                                                                                           

可以看出,当\gamma =0时,只考虑当前的奖赏。当\gamma =1时,未来的奖赏没有损失。
G_{t}^{(n)} - 第t步的n步回报(n-step return)。一个回报的近似算法。

\\G_{t}^{(n)} \doteq \sum_{k=0}^{n}\gamma ^{k}R_{t+k+1} \\where \\k - the sequence number of an action \\r - discount rate,0\leq \gamma \leq 1

G_{t}^{\lambda } - 第t步的\lambda回报(\lambda - return)。一个回报的近似算法。可以说是G_{t}^{(n)}的优化。

\\Continuing \; tasks: \\G_{t}^{\lambda }\doteq (1-\lambda )\sum_{n=1}^{\infty}\lambda ^{n-1}G_{t}^{(n)} \\Episodic \; tasks: \\G_{t}^{\lambda }\doteq (1-\lambda )\sum_{n=1}^{T-t-1}\lambda ^{n-1}G_{t}^{(n)}+\lambda ^{T-t-1}G_{t} \\where \\\lambda \; \epsilon \; [0,1] \\(1-\lambda)\sum_{n=1}^{\infty}\lambda^{n-1}=1 \\(1-\lambda)\sum_{n=1}^{T-t-1}\lambda^{n-1}+\lambda^{T-t-1}=1 \\if \; \lambda=0,become \; to \; 1-step \; TD \; algorithm \\if \; \lambda=1,become \; to \; Monte \; Carlo \; algorithm

策略

\pi - 策略(policy)。强化学习的目标2:找到最优策略
策略规定了状态s时,应该选择的行动a

\pi=[\pi(s_{1}),...,\pi(s_{n})]

\pi(s) - 策略\pi在状态s下,选择的行动。
\pi_{\ast } - 最优策略(optimal policy)。
\pi(a|s) - 随机策略\pi在状态s下,选择的行动a的概率。

r(s,a) - 在状态s下,选择行动a的奖赏。
r(s,a,s^{'}) - 在状态s下,选择行动a,变成(状态s^{'})的奖赏。
p(s^{'},r|s,a) - (状态s、行动a)的前提下,变成(状态s^{'}、奖赏r)的概率。
p(s^{'}|s,a) - (状态s、行动a)的前提下,变成(状态s^{'})的概率。
v_{\pi}(s) - 状态价值。使用策略\pi,(状态s的)长期奖赏G_{t}
q_{\pi}(s,a) - 行动价值。使用策略\pi,(状态s,行动a的)长期奖赏G_{t}
v_{\ast }(s) - 最佳状态价值。
q_{\ast}(s,a) - 最佳行动价值。
V(s)-v_{\pi}(s)的集合。
Q(s,a)-q_{\pi}(s,a)的集合。

\\For \; continuing \; tasks: \\G_{t}\doteq \sum_{k=0}^{\infty}\gamma^{k}R_{t+k+1} \\For \; episodic \; tasks: \\G_{t}\doteq \sum_{k=0}^{T-t-1}\gamma^{k}R_{t+k+1} \\v_{\pi}(s)\doteq \mathbb{E}_{\pi}[G_{t}|S_{t}=s]=\mathbb{E}_{\pi}[\sum_{k=0}^{\infty}\gamma^{k}R_{t+k+1}|S_{t}=s] \\q_{\pi}(s,a)\doteq \mathbb{E}_{\pi}[G_{t}|S_{t}=s,A_{t}=a]=\mathbb{E}_{\pi}[\sum_{k=0}^{\infty}\gamma^{k}R_{t+k+1}|S_{t}=s,A_{t}=a] \\v_{\pi}(s)=\max\limits_{a\epsilon A}q_{\pi}(s,a) \\\pi(s)=\mathop{\arg\max}_{a}v_{\pi}(s^{'}|s,a) \\\pi(s) \; is \; the \; action \; which \; can \; get \; the \; next \; state \; which \; has \; the \; max \; value \\\pi(s)=\mathop{\arg\max}_{a}q_{\pi}(s,a) \\\pi(s) \; is \; the \; action \; which \; can \; get \; the \; max \; action \; value \; from \; the \; current \; state

由上面的公式可以看出:\pi(s)可以由v_{\pi}(s)或者q_{\pi}(s,a)决定。

\\Reinforcement \; Learning = \pi \\=> \pi_{\ast}\doteq {\pi(s)},s \; \epsilon \; S \\=> \left \{ \begin{array} {lr} \pi(s)=\mathop{\arg\max}_{a}v_{\pi}(s^{'}|s,a),s^{'} \; \epsilon \; S(s), & \\ \pi(s)=\mathop{\arg\max}_{a}q_{\pi}(s,a) \end{array} \right . \\ => \left \{ \begin{array} {lr} v_{\ast}(s), \; or & \\ q_{\ast}(s,a) \end{array} \right . \\=>approximation \; cases: \\ \left \{ \begin{array} {lc} \hat{v}(s,\theta )\doteq \theta ^{T}\phi (s), \; state \; value \; function \\ \hat{q}(s,a,\theta )\doteq \theta ^{T}\phi (s,a), \; action \; value \; function \\ \end{array} \right . \\where \\ \theta - value \; function's \; weight \; vector

强化学习的目标3:找到最优价值函数{\color{Red} v_{\ast}(s) }或者{\color{Red} q_{\ast}(s,a)}


近似计算

强化学习的目标4:找到最优近似价值函数{\color{Red} \hat{v}(S_{t},\theta _{t})}或者{\color{Red} \hat{q}(S_{t},A_{t},\theta _{t})}
强化学习的目标5:找到求解{\color{Red} \theta }
\rho _{t}^{k} - importance sampling ratio for time t to time k - 1。
\jmath (s) - 状态s被访问的步骤序号。
\theta - 近似价值函数的权重向量。
\phi (s) - 近似价值函数的特征函数。是一个将状态s转化成计算向量的方法。这个结果和\theta组成近似价值函数。
\hat{v}(S_{t},\theta _{t}) - 近似状态价值函数。

\hat{v}\doteq\theta ^{T}\phi (s)

\hat{q}(S_{t},A_{t},\theta _{t}) - 近似行动价值函数。

\hat{q}\doteq \theta ^{T}\phi (s,a)

e_{t} - 第t步资格迹向量(eligibility trace rate)。可以理解为近似价值函数微分的优化值。

\\e_{0}\doteq0 \\e_{t}\doteq\nabla\hat{v}(S_{t},\theta _{t})+\gamma\lambda e_{t-1} \\\theta _{t}\doteq\theta _{t}+\alpha \delta _{t}e_{t}

\alpha - 学习步长。\alpha∈(0,1)
\gamma - 未来回报的折扣率(discount rate)。\gamma∈[0,1]
\lambda - \gamma-return中的比例参数。\lambda∈[0,1]
h(horizon)- 水平线h表示on-line当时可以模拟的数据步骤。t< h\leq T


老O虎O机问题

q_{\ast}(a) - 行动 a 的真实奖赏(true value)。这个是(实际中)不可知的。期望计算的结果收敛(converge)与它。
N_{t}(a) - 在第t步之前,行动a被选择的次数。
Q_{t}(a) - 行动 a 在第t步前(不包括第t步)的实际平均奖赏。

Q_{t}(a)=\frac{\sum\nolimits_{i=1}^{t-1}R_{i}\times 1_{A_{i=a}}}{N_{t}(a)}

H_{t}(a) - 对于行动a的学习到的倾向(reference)。
\varepsilon - 在\varepsilon-贪婪策略中,采用随机行动的概率[0,1)。


通用数学符号

\doteq - 定义上的等价关系。
\mathbb{E}[X] - X的期望值。
P_{r}\{{X=x \}} - 变量X值为x的概率。
v \mapsto g - v渐近g。
v\approx g - v约等于g。
\mathbb{R} - 实数集合。
\mathbb{R}^n - n个元素的实数向量。
\max_{a\epsilon A}F(a) - 在所有的行动中,求最大值F(a)
\mathop{\arg\max}_{c}F(c) - 求当F(c)为最大值时,参数c的值。


术语

episodic tasks - 情节性任务。指(强化学习的问题)会在有限步骤下结束。
continuing tasks - 连续性任务。指(强化学习的问题)有无限步骤。
episode - 情节。指从起始状态(或者当前状态)到结束的所有步骤。
tabular method - 列表方法。指使用了数组或者表格存储每个状态(或者状态-行动)的信息(比如:其价值)。

planning method - 计划性方法。需要一个模型,在模型里,可以获得状态价值。比如: 动态规划。
learning method - 学习性方法。不需要模型,通过模拟(或者体验),来计算状态价值。比如:蒙特卡洛方法,时序差分方法。

on-policy method - on-policy方法。评估的策略和优化的策略是同一个。
off-policy method - off-policy方法。评估的策略和优化的策略不是同一个。意味着优化策略使用来自外部的样本数据。
target policy - 目标策略。off-policy方法中需要优化的策略。
behavior policy - 行为策略\mu。off-policy方法中提供样本数据的策略。
importance sampling - 行为策略\mu的样本数据。
importance sampling rate - 由于目标策略\pi和行为策略\mu不同,导致样本数据在使用上的加权值。
ordinary importance sampling - 无偏见的计算策略价值的方法。
weighted importance sampling - 有偏见的计算策略价值的方法。
MSE(mean square error) - 平均平方误差。
MDP(markov decision process) - 马尔科夫决策过程
The forward view - We decide how to update each state by looking forward to future rewards and states.
例如:

G_{t}^{(n)}\doteq R_{t+1}+\gamma R_{t+2}+...+\gamma ^{n-1}R_{t+n}+\gamma ^{n}\hat{v}(S_{t+n},\theta _{t+n-1}),0\leq t\leq T-n

The backward or mechanistic view - Each update depends on the current TD error combined with eligibility traces of past events.
例如:

\\e_{0}\doteq 0 \\e_{t}\doteq \nabla\hat{v}(S_{t},\theta_{t} )+\gamma \lambda e_{t-1}

猜你喜欢

转载自blog.csdn.net/u011254180/article/details/84031546
00