联合概率(翻译)

原文链接： Combining Probabilities
译者： Elon Lin (ArrowLLL)

原文及其翻译下载：联合概率原文及其翻译

现在有两个预言家 Mr.Smith 和 Mr.Jone。对于一个事件 X ，现在给出这两个预言家的预言：

Mr.Smith 预言它不会发生，并且他预测正确的概率是 75%，那么在他预言的基础上 X 事件会发生的概率就是 0.25。
另一方面， Mr.Jone 预言的正确率是 60%，而他却说 X 这个事件会发生。

在他们两个人预言的基础上，对于这个事件 X，它会发生的概率是多少呢？

从数学角度上来说，上述情景有 3 个变量。

S – 表示 Mr.Smith 的预测
J – 表示 Mr.Jone 的预测
R – 表示最终的结果

然后我们用 ‘y’ 和 ‘n’ 来表示 X 这个事件分别代表发生和未发生。

这会有以下八种情况和它们相应的概率：

S	J	R	probability
n	n	n	$p_0$
n	n	y	$p_1$
n	y	n	$p_2$
n	y	y	$p_3$
y	n	n	$p_4$
y	n	y	$p_5$
y	y	n	$p_6$
y	y	y	$p_7$

其中

p 0 + p 1 + p 2 + p 3 + p 4 + p 5 + p 6 + p 7 = 1

$p_0 + p_1 + p_2 + p_3 + p_4 + p_5 + p_6 + p_7 = 1$
另外，由于

S=R $S = R$ 的情况占了 75%，我们有

p 0 + p 2 + p 5 + p 7 = 0.75

$p_0 + p_2 + p_5 + p_7 = 0.75$
同时，由于

J=R $J = R$ 的情况占了 60%，我们有

p 0 + p 3 + p 4 + p 7 = 0.6

$p_0 + p_3 + p_4 + p_7 = 0.6$

我们的目的是要在以上分析的基础上和 $S = n 和 J = y$ 的条件下得出 $R = y$ 的概率。因此，我们要计算出 $p_3 / (p_2 + p_3)$ 的值，也就是 $[n, y, y]$ 发生的概率除以 $[n, y, *]$ 的概率，其中 $*$ 表示 “y 或者 n 二者之一均可” 。显然，这个问题因为条件不足而并没有解。令 $A = p_0 + p_7, B = p_1 + p_6, C = p_2 + p_5, 以及 D = p_3 + p_4$ ，那么条件可以转化为：

A + B + C + D A + C A + D = 1.00 = 0.75 = 0.60

$\begin{aligned} A + B + C + D &= 1.00 \\ A + C &= 0.75 \\ A + D &= 0.60 \end{aligned}$

这是一个只包含三个等式的四元一次方程组(还有一个约束条件是所有的概率都在0到1的范围内)。显然它有无穷多个解。例如，我们取 $A = 0.5, B = 0.25, C = 0.15 以及 D = 0.10$ ，它们是满足方程组的；同样我们取 $A = 0.6, B = 0.25, C = 0.15 和 D = 0.00$ 也满足方程组。就算我们任意取一组可行解，仍然有无穷多中方式把 C 和 D 分配给 $p_2 和 p_3$ 。

虽然我们在现实生活中面对的问题一般（或者说总是？）都是不明确的，但我们仍然要做出决策。那么我们是否可以在缺乏大量信息的情况下做出一些“合理的”假设，来得到一些“合理的”结果呢？是否存在一种方法可以估计出 J 和 S 正确率之间的相关性大小？例如，也许因为 S 比 J 更聪明，我们可以假定当 J 预言正确时， S 的预言也是正确的；即使在有些试验当中 J 是不正确的，此时 S 也是正确的。这意味着 $p_3 = p_4 = 0$ 并且 $p_2 > 0$ 。那么此时在 S(Mr.Smath) 预言 X 不会发生和 J(Mr.Jones) 预言 X 会发生的情况下， X 事件一定不会发生，即 X 事件发生的概率是 0。

另一种方法是假设 S 和 J 的预言是相互独立的，这就意味着他们自己预言的正确性不会因为对方预言的正确与否而改变。而这个假设可以推导出：

0.6 = p 0 + p 7 p 0 + p 2 + p 5 + p 7 = p 3 + p 4 p 1 + p 3 + p 4 + p 6

$0.6 = \frac {p_0 + p_7} {p_0 + p_2 + p_5 + p_7} = \frac {p_3 + p_4} {p_1 + p_3 + p_4 + p_6}$
和

0.75 = p 0 + p 7 p 0 + p 3 + p 4 + p 7 = p 2 + p 5 p 1 + p 2 + p 5 + p 6

$0.75 = \frac {p_0 + p_7} {p_0 + p_3 + p_4 + p_ 7} = \frac {p_2 + p_5} {p_1 + p_2 + p_5 + p_6}$

令 $u = 0.6$ 和 $v = 0.75$ 分别代表 Jones 和 Smith 预言正确的概率。这些等式和之前的约束条件唯一确定了以下四个等式：

p 0 + p 7 = p 1 + p 6 = p 2 + p 5 = p 3 + p 4 = u v (1 - u) (1 - v) (1 - u) v u (1 - v) = 9 / 20 = 2 / 20 = 6 / 20 = 3 / 20

$\begin{aligned} p_0 + p_7 =& uv &= 9 / 20 \\ p_1 + p_6 =& (1 - u)(1 - v) &= 2 / 20 \\ p_2 + p_5 =& (1 - u)v &= 6 / 20 \\ p_3 + p_4 =& u(1 - v) &= 3 / 20 \end{aligned}$

但这些式子仍然不能唯一确定 $p_3 / (p_2 + p_3)$ 。我们还需要至少一个假设条件。这里我建议我们假设 “y” 和 “n” 是对称的。也就是假设任何 J 和 S 的预测组合都等于和它互补的组合的概率，所谓互补组合是指把所有的”y”变成”n”和所有的”n”变成”y”得到的新的组合。这相当于假设 X 事件的先验概率是 $1 / 2$ ，并且无论最终的结果 R 是”y”还是”n”，预测正确的概率都是相等的。在这个假设的基础上，我们有 $p_0 = p_7, p_1 = p_6, p_2 = p_5$ 和 $p_3 = p_4$ 。因此我们可以得到 $p_2 = 3 / 20, p_3 = 3 / 40$ 和 $p_3 / (p_2 + p _ 3) = 1 / 3$ 。

由以上可知，如果假设 S 和 J 不相关并且假设 “y”和”n” 具有对称性，当 S[75%] 预言 X 不会发生且 J[60%] 预言 X 会发生时，事件 X 发生的概率是 33.3%。S 和 J 的任何(正)相关性都会降低这个概率。

注意，当我们假设”y”和”n”具有对称性时我们计算出的 X 发生的概率并不等于它的先验概率 $1 / 2$ 。如果我们因为一些先验的原因相信 X 事件发生的概率并不是 $1 / 2$ ，我们就应该用新的先验概率重新计算。为了计算这些有新增信息的情况，我们可以用 x 代表 X事件发生的先验概率，并且写出各个独立的状态的概率：

p 0 p 1 p 2 p 3 = u v (1 - x) = (1 - u) (1 - v) x = (1 - u) v (1 - x) = u (1 - v) x p 7 p 6 p 5 p 4 = u v x = (1 - u) (1 - v) (10 x) = (1 - u) v x = u (1 - v) (1 - x)

$\begin{aligned} p_0 &= uv(1 - x) & p_7 &= uvx \\ p_1 &= (1 - u)(1 - v)x & p_6 &= (1 - u)(1 - v)(1 0 x) \\ p_2 &= (1 - u)v(1 - x) & p_5 &= (1 - u)vx \\ p_3 &= u(1 - v)x & p_4 &= u(1 - v)(1- x) \end{aligned}$

在这个基础上 X事件发生的概率是

P r {X} = p 3 p 2 + p 3 = u ( 1 - v ) x ( 1 - u ) v ( 1 - x ) + u ( 1 - v ) x

$Pr\{X\} = \frac {p_3} {p_2 + p_3} = \frac {u(1 - v)x} {(1 - u)v(1 - x) + u(1 - v)x}$

一般情况下如果我们对于X事件的先验概率没有任何信息，那么我们可以假设 $x = 1 / 2$ ，然后这个公式就退化为之前给出的公式。

对于稍微复杂的情况。比如 Mr.Red 正确识别一个二类试验（True/False）的概率是 75%，Mr.Green是60% 而 Mr.Blue 是 55%。如果 Mr.Buue, Mr.Green 和 Mr.Red 一致觉得试验的结果是 True 。那么结果是 ‘True’ 的概率仍然是 75% 还是会落在 55% 到 75% 之间呢？

这个情况仍然是不确定的，但是如果我们仍然引入假设

两两之间相互独立
“y” 和 “n” 具有对称性

不失一般性的，在有 N 个预言者的情况下，这两个假设条件已经足够确定出唯一的答案了。也就是说，如果这 N 个人在”True/False”二类试验中预言结果为”True”的概率分别是 $r_1, r_2, ..., r_n$ ，并且他们之间预测的结果不具有相关性，并且结果”True” 和 “False” 具有对称性，那么最终结果为”True” 的概率为

P r {T r u e} = ( r 1 ) ( r 2 ) . . . ( r N ) ( r 1 ) ( r 2 ) . . . ( r N ) + ( 1 - r 1 ) ( 1 - r 2 ) . . . ( 1 - r n )

$Pr\{True\} = \frac {(r_1)(r_2)...(r_N)} {(r_1)(r_2)...(r_N) + (1 - r_1)(1 - r_2)...(1 - r_n)}$

由此可得，上面描述的样例中， $r_1 = 3/4, r2 = 3/5, r3 = 11/20$ ，最终结果为 “True” 的概率是 $11 / 13$ （大概84.6%这个样子）

令 $Q = [q_1, q_2, ..., q_N]$ 代表一个逻辑向量（即每一个元素 $q_j$ 要么是 1(代表 “True”), 要么是 -1(代表 “False”)），并且用 Q’ 代表 Q 的反向量。同时定义

f (r, q) = {1 - r r (q = - 1) (q = + 1)

$\begin{equation} f(r, q) = \begin{cases} &1 - r & (q = -1) \\ &r & (q = + 1) \end{cases} \end{equation} \nonumber$

并且令 F(Q) 代表 $f(r_i, q_i)， i \in [1, N]$ 构成的向量。那么在给出一系列的预言 Q，并且最终结果为”True”的概率由下式给出：

P r {T r u e} = F ( Q ) F ( Q ) + F ( Q ' )

$Pr\{True\} = \frac {F(Q)} {F(Q) + F(Q')}$

用一个更显然（但是等价）的方式也可以表达这些关系：

P r { T r u e } 1 - P r { T r u e } = \sum j = 1 N (r j 1 - r j) q j

$\frac {Pr\{True\}} {1 - Pr\{True\}} = \sum^N_{j = 1} (\frac {r_j} {1 - r_j})^{q_j}$

在给定的假设条件下，这个结果是正确的。但就像之前讨论过的，了解这些问题更重要的是要意识到他们本身其实是不明确并且没有一个标准答案的。例如，如果对于输出为 “True” 的先验概率事 x，那上面的公式就变成了：

P r {T r u e} = x F ( Q ) x F ( Q ) + ( 1 - x ) F ( Q ' )

$Pr\{True\} = \frac {xF(Q)} {xF(Q) + (1 - x)F(Q')}$

给出任意满足以上条件的假设情况，预言正确的概率可以取 $0.0$ 到 $1.0$ 之间任意一个数。

而公式 $P = F(Q) / [F(Q) + F(Q')]$ 只对一种特殊的假设情况有效，并且这种假设和现实中的情况有很大出入。它假设 Smith 的预言和 Jones 的预测完全不相关，但这种情况几乎在任何现实条件下都不可能发生。（Jones 和 Smith 更有可能会使用一些相同的标准进行预测）。为了能真正回答一开始的问题，我们还需要提供更多的信息，更具体地说，就是之前讨论过的那八种可能的预言和真实结果中每一种的情况发生的概率。

再举一个例子，假设 Yankees 和 Red Sox 在玩一个游戏，Red Sox 获胜的概率是 70%，而 Yankees 获胜的概率是 50% 。那么 Yankees 最终获胜的概率有多少呢？显然这个情景又是不明确的，因为这个问题的条件可以通过许多不同的情况来满足，从而得到不同的结果分布。因而，如果我们只基于这点儿信息分配概率，显然我们必须假定 Y 打败 R 的概率是一个关于 y 和 w 的函数（y 和 w 分别代表 Y 和 W 对战时赢得游戏的比率）。也就是说我们需要一个函数 $F(y, r)$ 使得：

P r {Y 打 败 R} = F (y, r)

$Pr\{Y 打败 R\} = F(y, r)$

它遵循

F (y, r) + F (r, y) = 1

$F(y, r) + F(r, y) = 1$

并且对于任意的 $x, y \in [0, 1]$ 满足 $0 \leq F(x, y) \leq 1$ 。有一类函数是满足这条件的：

F (y, r) = f ( y ) f ( y ) + f ( r )

$F(y, r) = \frac {f(y)} {f(y) + f(r)}$

其中，f 是任意一个从 $[0, 1]$ 到 $[0, \infty]$ 的映射。例如，假定 $y = 0.5$ 和 $r = 0.7$ 。取f(x) = x 可以得到 Y 有 41.7% 的概率会赢而 R 有 58.3% 的概率会赢。更一般地，如果我们设定 $f(x) = x^k$ 并且让k趋近于 0，那么结果比分会接近 $50 / 50$ ；然而当 k 大于1时， Y 获胜的概率就会趋近于 0。

f(x) “最好” 或最优的选择是什么呢？我们可以假定每个参与游戏的队伍都有一个“技巧值”，并且这个值在群体中满足二项分布。接下来，假定每支队伍和其他每支队伍比赛的次数相同，并且假定 $Pr\{i 打败 j\} = s_i / (s_i + s_j)$ 那么在给出一个特定队伍获胜的百分比的情况下，我们就可以通过整合所有队伍的信息推断出这个队伍的技巧值。

另外一种方法是使用式子 $(Y)(R) / [(Y)(R) + (Y')(R')]$ , 其中 Y’ 和 R’ 是 Y 和 R 的共轭值。游戏只有两个可能的结果即 “Y胜R败” 或 “Y败R胜”。为了（只从胜/败记录）找到R胜利的概率我们可以得出：

( R w i n ) ( T l o s e ) ( R w i n ) ( T l o s e ) + ( R l o s e ) ( Y w i n ) = ( 0.5 ) ( 0.3 ) ( 0.5 ) ( 0.3 ) + ( 0.5 ) ( 0.3 ) = 0.3

$\frac {(R_{win})(T_{lose})} {(R_{win})(T_{lose}) + (R_{lose})(Y_{win})} = \frac {(0.5)(0.3)} {(0.5)(0.3) + (0.5)(0.3)} = 0.3$

这个公式有一定的审美趣味，但是它也会有产生一些反直觉的结果。举个例子，假设现在两个最强的队伍开始对战，X 和 Y，从他们之前的比赛结果中得出他们获胜概率分别是 $x = 99\%$ 和 $y = 97\%$ ，我们也许会想这两支队伍几乎是势均力敌的，也许与下面的公式一致：

P r {X 打 败 Y} = x x + y = 0.5051

$Pr \{X 打败 Y\} = \frac x {x + y} = 0.5051$

相比之下，另一个公式则得出：

P r {X 打 败 Y} = x ( 1 - y ) x ( 1 - y ) + ( 1 - x ) y = 0.7538

$Pr\{X 打败 Y\} = \frac {x(1-y)} {x(1-y) + (1-x)y} = 0.7538$

显然一个胜利率是 99% 的队伍更有可能碾压一个胜率是 97% 的队伍。如果这一个公式更加适用，那么在这些队伍当中，一个胜率是 99% 的队伍是不会允许一个胜率是 97% 的队伍存在的。而这取决于队伍的数量和他们比赛的次数。

而对于这个简单的加权函数 $f(y) / [f(y) + f(r)]$ 其中 $f(x) = x$ 有一个有效的反驳，那就是这个“系统”会趋近均衡。对于一个拥有不少于两支队伍的系统，不管它的初始状态如何，这些队伍最终都会趋近于一个平衡状态。也就是说，每一支队伍的胜败率会收敛到一个相同的值。相比之下，另一个表达式 :

x ( 1 - y ) x ( 1 - y ) + ( 1 - x ) y

$\frac {x(1 - y)} {x(1 - y) + (1- x)y}$

就可以保证一个拥有 0.800 胜率的队伍可以有充足的机会来维持他的胜利。在推导一个模型时，要求整个群体最终要趋于均衡也许是一个不错的选择。当然，第二个模型只是“简单加权”模型的一个特殊情况，也就是说，我们有：

P r {Y 打 败 X} = y ( 1 - x ) y ( 1 - x ) + ( 1 - y ) x

$Pr\{Y 打败 X\} = \frac{y(1 - x)} {y(1 - x) + (1- y)x}$

分子分母同时除以 $(1 - x)(1 - y)$ 就可以得到下面的形式：

P r {Y 打 败 X} = y ( 1 - y ) y 1 - y + x ( 1 - x ) = f ( y ) f ( y ) + f ( x )

$Pr\{ Y 打败 X\} = \frac {\frac y {(1 - y)}} {\frac y {1 - y} + \frac x {(1 - x)}} = \frac {f(y)} {f(y) + f(x)}$

其中 $f(z) = z / (1 - z)$ 。这个特殊的函数 $f(z)$ 在一个自洽的群体中并不是一个特殊的存在。

一个更基本的方法是对底层的过程进行建模。例如，假设共有256支队伍，他们的技巧值
从1到9并且满足二项分布：

技巧值	玩家数量
1	1
2	8
3	28
4	56
5	70
6	56
7	28
8	8
9	1

当然，“技巧” 也许是一个矩阵而不是一个标量，并且你知道了所有队伍技巧的交互信息（比如剪刀剪布，布包石头，石头砸剪刀等），但我们还是假设“技巧”在这个游戏当中只是一个简单的标量吧。

现在，我们要做的是确定什么样的技巧决定了一场对战的结果。如果一场比赛的结果有很大一部分取决于运气，那么这世上最有技巧的选手也许只能有60%的场次可以打败最没有技巧的选手。一种建模的方式就是定义选手 $P_m$ 打败选手 $P_n$ 的概率为：

P r {m 打 败 n} = s m k s m k + s n k

$Pr\{m 打败 n\} = \frac {{s_m}^k} {{s_m}^k + {s_n}^k}$

其中 $s_j$ 代表玩家 $P_j$ 的技巧值，常数 k 定义了这个技巧的重要性。当 k 趋近于 0 时概率趋近于0.5，表示对决的结局几乎不失由这个技巧能力决定的；如果 k 很大，那么越有技巧的人就越可能赢。

现在我们有一种简单但是完备的模型来计算对应每一个技巧值的胜败率。一般地，对于一个技巧值满足二项分布的、有 $2^N$ 个玩家的大比赛中，假定这个技巧的决定因子为 k （对于每一个人来说是一样的），一个技巧值为 q 的玩家的胜利率为：

W i n (q) = [ q k \sum N j = 0 C ( N , j ) q k + ( j + 1 ) k ] - 1 2 2 N - 1

$Win(q) = \frac {[q^k\sum^{N}_{j = 0} {\frac {C(N, j)} {q^k + (j + 1)^k}}] - \frac{1}{2}}{2^N - 1}$

其中 $C(N, j)$ 是二项分布的系数

N ! j ! * ( n - j ) !

$\frac {N!} {j! * (n - j)!}$ 令

N=8 $N= 8$ 和

k=2 $k = 2$ ，这9个等级的选手的胜利率如下：

技巧值	玩家数量	胜利率
1	1	4.9393
2	8	16.4711
3	28	29.5133
4	56	41.5554
5	70	51.7592
6	56	60.0785
7	28	66.7554
8	8	72.0936
9	1	76.3722

当然，所有胜利率的加权平均数是 50%。另外，因为 $Win(q)$ 是可逆的，因此对于这种一般类型的任何系统，预测胜利者的公式可以用 $f(x) / [f(x) + f(y)]$ 的形式表示。

以上です～

猜你喜欢