02引入不确定性和时间因素

本文是根据 Game Theory An Introduction (Steven Tadelis) 一书第二章整理的学习笔记。

离散结果(Discrete outcomes)

为了形象表示一个决策过程中的随机因素，一种常用的技巧是引入决策树来进行分析：

graph LR A[Player] -->|g| B[N]; B -->|0.75| D((10)) B -->|0.75| E((0)) A[Player] -->|s| C[N]; C -->|0.5| F((10)) C -->|0.5| G((0))

如上图所示，g 和 s 表示策略集 A={g, s} 中的两个策略，结果用 \(X\)={0, 10} 表示，0,75, 0.25 分别表示行动 g 结果为10的概率为0.75，结果为0的概率为0.25；类似地，行动 s 结果为10的概率为0.5，结果为0的概率为0.5。

一个简单的投机的结果集合为 \(X=\{x_1, x_2, \dots, x_n\}\) ，结果对应的概率分布为 \(p = (p(x_1), p(x_2), \dots, p(x_n))\)，其中 \(p(x_k) \geq 0\) 表示 \(x_k\) 出现的概率，且满足 \(\sum_{k=1}^np(x_k)=1\)。

决策过程的随机性可以用行动集合的条件概率来表示，也即给定一个策略 \(a \in A\)，对应结果为 \(x_k\in X\) 的条件概率可以用 \(p(x_k|a)\) 来表示，其中 \(p(x_k|a) \geq 0\)，且 \(\sum_{k=1}^np(x_k|a) = 1\) 对于任意的 \(a \in A\) 都成立。

连续结果(Continus outcomes)

当一个决策问题的结果函数是离散情形时，决策树可以很形象的表示出决策过程的细节，然而当结果函数是连续情形时，这时不能用决策树来表示决策的过程了。针对结果函数是连续情况，我们有以下定义：

一个简单的投机中，策略为 \(a \in A\)，对应的结果为 \(x \in X=[\underline{x}, \overline{x}]\)，结果对应的概率分布由累积分布函数 \(F : X \rightarrow [0, 1]\) 给出，其中 \(F(\hat{x}|a) = \rm Pr\{x \leq \hat{x}|a\}\) 表示在策略为 \(a\) 的条件下结果小于或等于 \(\hat{x}\) 时的概率。

期望报酬(Expected payoff)

离散情形下的期望收益：

决策者的结果在行动 \(a\) 下的结果用集合 \(X=\{x_1, x_2, \dots, x_n\}\) 表示，其中 \(X\) 发生的概率分布为 \(p=\{p_1, p_2, \dots, p_n\}\)，对应 \(p_k={\rm Pr}\{x=x_k|a\}\)。用 \(u(x)\) 表示参与者在本次决策中的收益函数，那么参与者在概率分布为 \(p\) 时的期望收益函数为： \(v(a)=E[u(x)|p]=\sum_{k=1}^np_ku(x_k)=p_1u(x_1)+p_2u(x_2)+\dots+p_nu(x_n)\).

连续情形下的期望收益

决策者的结果用区间 \(X=[\underline{x}, \overline{x}]\) 来表示，其中结果 \(x\) 满足的累积分布函数为 \(F(x)\)，分布密度用 \(f(x)\) 表示，那么决策者的期望收益函数为： \(v(a)=E[u(x)]=\int_{\underline{x}}^{\overline{x}}u(x)f(x)dx\).

一个具有不确定性因素的决策问题，其理性决策定义为：某个决策 \(a^*\) 被称为理性决策，如果对于所有的决策 \(a \in A\)，满足 \(v(a^*)=E[u(x)|a^*] \geq E[u(x)|a] = v(a)\)。

决策过程的时间因素

序贯决策

在某些决策问题中，决策不是一次就完成，而是随着时间的推移，在已有决策的基础上需要作出新的决策，这种决策问题成为序贯决策（Sequential decision）。

序贯决策是指按时间顺序排列起来，以得到按顺序的各种决策(策略)。也就是在时间上有先后之别的多阶段决策方法，也称动态决策法。多阶段决策的每一个阶段都需作出决策，从而使整个过程达到最优。多阶段的选取不是任意决定的，它依赖于当前面临的状态，不给以后的发展产生影响，从而影响整个过程的活动。当各个阶段的决策确定后，就组成了问题的决策序列或策略，称为决策集合。

为了求解这类决策问题的最优策略，一般采用动态规划 (dynamic programming) 或者倒推法 (backward induction)。

时间对决策的影响

在一些多阶段决策问题中，某个阶段的决策产生的收益是随着时间变化的。决策收益的折扣影响是指随着时间的推移，某个决策产生的收益是关于时间的一个折扣。假设某个时刻 \(t\) 的决策结果为 \(x_t\) ，该决策的收益用 \(u(x_t)\) 表示，折扣因子记为 \(\delta\)，则在 \(T\) 时刻该决策的收益经过打折后变为 \(\delta^{T-t}u(x_t)\)，那么在 \([0, T]\) 内一系列的决策结果 \(X=\{x_1, x_2, \dots, x_T\}\) 对应的总收益函数为：

\(v(x_1, x_2, \dots, x_T) = \delta^{T-1}u(x_1)+\delta^{T-2}u(x_2)+\dots+u(x_T)=\sum_{t=1}^T\delta^{T-t}u(x_t)\)