基于胜率矩阵的PageRank排序

在做博弈模型评估的时候，遇到一个问题是如何评价多个模型的优劣。例如我有训练好的三个围棋模型A,B,C，两两之间对打之后有一个胜负关系，如何对这三个模型进行排序呢？通常对于人类选手这种水平有波动的情形，棋类比赛通常计算选手Elo得分按分值排序，足球篮球等通过联赛积分或胜场进行排序，但对于固定不变的AI模型，我认为用类似PageRank的方式计算更方便也更加准确。

这篇文章先从问题来源讲起，再讲解PageRank算法的思想，最后编程实现排序方法并指出一些需要注意的地方。

现在，深度强化学习更多的用在博弈模型的训练当中，比如围棋的AlphaZero，星际争霸的AlphaStar,DOTA的OpenAI FIVE。比如我们已经训练好了三个模型A，B，C，并且可以相互对打很多局，我们需要一个方法排出谁第一，谁第二。之前NeurIPS2019多智能体竞赛设计的排序方法就存在明显的bug,出现了A能胜过B，且A对C的胜率高于B对C的胜率，最后算出的排名却是B更靠前。主办方也承认了计算方式有缺陷并表示会在之后的比赛中修正，但是当前排名维持不变。

那为什么成熟的Elo值计算方式没有用在这类模型评估上面呢？Elo值通常用在围棋、象棋等棋类排名上，电子竞技例如英雄联盟等也可以认为是类似Elo的积分方式。这类问题的特点是

可通过一对一比赛得到一局的胜负关系，但和相同对手的对局次数有限，很难得到稳定的胜率关系。
玩家水平并非固定不变，可随环境、状态等因素波动（临场发挥），也可因长期训练/荒废而提升/下降（绝对实力）。

我们需要根据这种1v1(or 5v5)的每一局的胜负关系，给出所有玩家的即时能力大小排序。由于每个人的水平都会因为身体因素、年龄因素等产生波动，这和一个固定的模型是不一样的。而Elo可以根据每一局的实时对局结果立即更新当前排名，对棋类、竞技体育等的时效性需求非常适合，也可以较为准确的反应玩家的当前水平排名。虽然它也不是绝对的准确，不过已经是针对这类需求很好的排序方法了。

回过头来，对于已经训练好的AI模型，它的能力不会发生变化，并且我们可以通过足够多的测试得到两两之间的准确胜率关系，这种情况下我们如果强行套Elo的算法一局一局挑选对手对打，更新Elo值，再挑对手对打，再更新Elo值，就会显得没有必要(因为我们并不关心每一局后的实时排名)而且很麻烦，再者如果中途有一个新加入的模型需要从0开始评估，要想得到较为稳定的排名关系就会显得更加麻烦。

而PageRank的方法可以充分利用模型之间容易得到的稳定胜负关系，用矩阵迭代的方式计算出最终排名，简单且准确。

二、PageRank算法

算法思想

PageRank算法是Google发明用来做网页排序的，依据网页之间的链接关系对网页重要度进行排序。其主要设计思想如下

(1) 每个网页的初始重要程度相同,比如
(2) 如果许多网页
(3) 如果某个重要的网页

这个想法其实和paper的引用有相似之处，每一篇新paper刚发表,很难评价其质量，可以粗略认为paper质量都一样；如果有一篇paper被引用很多，那么这篇paper肯定质量比较好；如果某偏很好的paper引用了另一篇paper，那这篇被引用的paper也理应质量不错。

基于这三点主要思想，我们假定有a,b,c,d四个网址，其链接关系如图所示

首先根据思想(1),假定每个网页的初始重要度相同，比如都是1，则有重要度向量

T i, j = {1, i f j \to i 0, o t h e r w i s e

其中

扫描二维码关注公众号，回复： 11192667 查看本文章

x' (a) = 1 \times T a, a + 1 \times T a, b + 1 \times T a, c + 1 \times T a

同理有

T i, j \leftarrow {1 \sum k \in { a , b , c , d } T k , j , i f \exists j

此时，我们有

x' (a) = 1 \times T a, a + 1 \times T a, b + 1 \times T a, c + 1 \times T a

同理有

x'' (a) = x' (a) \times T a, a + x' (b) \times T a, b + x' (

同理有

x = ⎛⎝⎜⎜⎜ 1 1 1 1 ⎞⎠⎟⎟⎟,

那么前两次迭代可以表示为

x' = T x;

经过无穷次迭代

数学原理

如果我们把这个问题看作一个马氏(随机)过程，那么四个网页组成的向量

定理: 若马氏链不可约且正常返，则平稳分布存在且唯一。

不可约：通俗来说，就是每个状态都可以通过一步或者多步转移到达任意另一个状态。
正常返：可以理解为每个状态在有限步转移后再回到自己的概率为1。

如下图所示例子

从图中可以看出，

x 1 = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0.1 0.2 0.3 0.1 0.1 0.2 ⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟,

状态转移矩阵为

T = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0 1 0 0 0 0 0 0 1 0 0 0 0.5 0

则有

x \infty 1 = T \infty x 1 = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0 0 0 0 0.45 0.55 ⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟,

显然

三、实例分析

通过前述方式构建胜率矩阵，我们可以算得平稳分布，但还有一些实际问题需要微调算法。

对角线取值

在之前的网页排序里，对角线的元素被取为0，如果在胜率矩阵中也取为0，会出现错误的排序。假如胜率矩阵为

    a    b    c
a   0   0.2 0.9 b 0.8 0 1 c 0.1 0 0

其中

import numpy as np

T = np.matrix([[0  ,0.2,0.9],
               [0.8, 0 , 1 ], [0.1, 0 , 0 ]]) for i in range(T.shape[0]): # 归一化为状态转移概率矩阵 T[:,i] = T[:,i]/np.sum(T[:,i]) X = np.matrix([1/3,1/3,1/3]) # 初始分布 X = X.T print(T) print(T**2000*X)

得到

T: 
[[0.         1.         0.47368421]
 [0.88888889 0.         0.52631579]
 [0.11111111 0.         0.        ]]

X：
[[0.48579545]
 [0.46022727]
 [0.05397727]]

可以发现

    a    b    c
a  0.5 0.2 0.9 b 0.8 0.5 1 c 0.1 0 0.5

计算得到

T：
[[0.35714286 0.28571429 0.375     ]
 [0.57142857 0.71428571 0.41666667]
 [0.07142857 0.         0.20833333]]

X：
[[0.31038506]
 [0.66161027]
 [0.02800467]]

可以看到，这个结果是合理的。同时这种方式还可以防止某一列出现全为0的情形。

构造不可约且正常返

通常我们需要考虑到各种胜负关系的情况，来保证平稳分布存在且唯一。假如胜率矩阵为

    a    b    c
a  0.5 1 1 b 0 0.5 0.3 c 0 0.7 0.5

可以看出

T：
[[1.         0.45454545 0.55555556]
 [0.         0.22727273 0.16666667]
 [0.         0.31818182 0.27777778]]

X:
[[1.]
 [0.]
 [0.]]

可以发现

E = ⎛⎝⎜⎜ 1 3 1 3 1 3 1 3 1 3 1 3 1 3

其中权重参数

T = np.matrix([[0.5, 1 , 1 ],
               [ 0 ,0.5,0.3],
               [ 0 ,0.7,0.5]])

for i in range(T.shape[0]): # 归一化为状态转移概率矩阵
    T[:,i] = T[:,i]/np.sum(T[:,i])

E = np.matrix(np.ones_like(T))/T.shape[0]
alpha = 1e-3
S = (1-alpha)*T+alpha*E

X = np.matrix([1/3,1/3,1/3]) # 初始分布
X = X.T

print(S)
print(S**2000*X)

得到

S:
[[9.99333333e-01 4.54424242e-01 5.55333333e-01]
 [3.33333333e-04 2.27378788e-01 1.66833333e-01]
 [3.33333333e-04 3.18196970e-01 2.77833333e-01]]

X:
[[9.98694573e-01]
 [5.86177258e-04]
 [7.19249506e-04]]

此结果合理，且可以看出

完整代码及示例

最终代码封装为函数：

def pagerank(T):
    assert type(T) == np.matrix, 'please use np.matrix'
    for i in range(T.shape[0]): T[:,i] = T[:,i]/np.sum(T[:,i]) E = np.matrix(np.ones_like(T))/T.shape[0] alpha = 1e-3 S = (1-alpha)*T+alpha*E X = np.matrix([1]*T.shape[0])/T.shape[0] X = X.T score = S**200*X return score

我们给一个不太好肉眼判断的胜率关系如下：

    a    b    c
a  0.5 0.6 0.3 b 0.4 0.5 0.6 c 0.7 0.4 0.5

这里三个模型出现了相互克制的情形，即

score：
matrix([[0.30789762],
        [0.34109655],
        [0.35100582]])

可得排序关系

T = np.matrix([[0.5, 1 , 1 ],
               [ 0 ,0.5,0.3],
               [ 0 ,0.7,0.5]])

for i in range(T.shape[0]): # 归一化为状态转移概率矩阵
    T[:,i] = T[:,i]/np.sum(T[:,i])

E = np.matrix(np.ones_like(T))/T.shape[0]
alpha = 1e-3
S = (1-alpha)*T+alpha*E

X = np.matrix([1/3,1/3,1/3]) # 初始分布
X = X.T

print(S)
print(S**2000*X)

得到

S:
[[9.99333333e-01 4.54424242e-01 5.55333333e-01]
 [3.33333333e-04 2.27378788e-01 1.66833333e-01]
 [3.33333333e-04 3.18196970e-01 2.77833333e-01]]

X:
[[9.98694573e-01]
 [5.86177258e-04]
 [7.19249506e-04]]

此结果合理，且可以看出

完整代码及示例

最终代码封装为函数：

def pagerank(T):
    assert type(T) == np.matrix, 'please use np.matrix'
    for i in range(T.shape[0]): T[:,i] = T[:,i]/np.sum(T[:,i]) E = np.matrix(np.ones_like(T))/T.shape[0] alpha = 1e-3 S = (1-alpha)*T+alpha*E X = np.matrix([1]*T.shape[0])/T.shape[0] X = X.T score = S**200*X return score

我们给一个不太好肉眼判断的胜率关系如下：

    a    b    c
a  0.5 0.6 0.3 b 0.4 0.5 0.6 c 0.7 0.4 0.5

这里三个模型出现了相互克制的情形，即

score：
matrix([[0.30789762],
        [0.34109655],
        [0.35100582]])

可得排序关系

PageRank算法的思想基于胜率矩阵的PageRank排序

基于胜率矩阵的PageRank排序

目录

一、问题来源

二、PageRank算法

算法思想

数学原理

三、实例分析

对角线取值

构造不可约且正常返

完整代码及示例

目录

一、问题来源

二、PageRank算法

算法思想

数学原理

三、实例分析

对角线取值

构造不可约且正常返

完整代码及示例

猜你喜欢

PageRank算法的思想 基于胜率矩阵的PageRank排序

基于胜率矩阵的PageRank排序

目录

一、问题来源

二、PageRank算法

算法思想

数学原理

三、实例分析

对角线取值

构造不可约且正常返

完整代码及示例

目录

一、问题来源

二、PageRank算法

算法思想

数学原理

三、实例分析

对角线取值

构造不可约且正常返

完整代码及示例

猜你喜欢

PageRank算法的思想基于胜率矩阵的PageRank排序