文章目录

一、小问题
二、数学抽象
三、Shapley公理
四、公式推导
五、例子助理解
六、各种角度理解公式
七、特征函数的考量
- 1. 污水处理厂典例
- 2. 单因素分析
八、shapley的局限性
- 1. 计算量
- 2. 优势即缺点

学习参考资料：

https://baike.baidu.com/item/shapley值法/5909624

https://www.zhihu.com/question/23180647

https://www.bilibili.com/video/BV1MA41137iv?from=search&seid=9563739550004489326

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=SSJS201304007&v=gINqgtNlfA%25mmd2BN%25mmd2BweW6Jg1PX2lPFQWcExU%25mmd2FRrv9Opswp8%25mmd2BXPAZYTlGhuoRIhIeCBaz

1951年，由诺贝尔得主Shapley提出，用于公平地定量评估用户边际贡献度的常用指标，起源于合作博弈，并用于广泛的领域，包括使用Shapley Value作为ML特征的选择，对训练数据的重要性进行排序

百度百科：

基于Shapley值进行联盟成员的利益分配体现了各盟员对联盟总目标的贡献程度，避免了分配上的平均主义，比任何一种仅按资源投入价值、资源配置效率及将二者相结合的分配方式都更具合理性和公平性，也体现了各盟员相互博弈的过程。但Shapley值法的利益分配方案尚未考虑联盟成员的风险分担因素，实质上隐含着各盟员风险分担均等的假设，**因此，对于联盟成员风险分担不等或风险分担存在较大差异的状况，需要根据风险分担大小对Shapley值法的利益分配方案做出适当的修正。**另需要注意利用Shapley值法进行利益分配应具备的前提条件是：要求每个参与人对在不同联盟组合状态下的利益要有一个较为准确的预期；此外，还要对这种复杂的计算方式有一个清楚的了解。知识联盟的总产出有时可能是不确定的，不同联盟组合状态下的收益也可能是不确定的，这会在一定程度上影响Shapley值法的应用。对于总效用不确定的情况，为了获取一个比较合理的不同联盟组合状态下的效用值，可以采用AHP法、ANP法、模糊数学等综合评价方法来估算各种联盟组合状态下的可能效用值，从而获得shapley值法所需要的数据，再进行具体利益分配上的计算 [1] 。

一、小问题

甲、乙、丙三人合作经商。倘若甲、乙合作可获利7万元，甲、丙合作可获利5万元，乙、丙合作可获利4万元，三人合作则获利10万元，每人单干各获利1万元。问三人合作时如何分配获利?

扫描二维码关注公众号，回复： 13214250 查看本文章

很显然，利益分配时，三人获利总和应为10万元。设甲、乙、丙三人分配获利为 $x_1,x_2,x_3$ ，则有
$\begin{cases} x_1 \ge1, x_2 \ge 1,x_3 \ge 1 \\ x_1 + x_2 \ge 7, x_1+x_3\ge5,x_2+x_3\ge 4 \\ x_1 + x_2 +x_3 = 10 \end{cases}$
三人中如果谁获利小于1万元，则他就会单干，不会加入这个联盟。如果 $x_1 +x_2 \ge 7$ 不成立，甲和乙就会组成一个小的联盟，而把丙抛在一边。

但是，这个系统有无穷多组解，例如$(x_1,x_2,x_3) = (4, 3, 3), (6,2,2),(5,3,2) $，甚至是 (3 ， 5 ， 2) 。很显然，站在乙或丙的角度，和甲合作都可以获得更大的利益，换言之，甲在他所参与的合作中贡献最大；同理，乙次之，丙贡献最小。因此，像$ (5,3,2),(\frac{14}{3}, \frac{11}{3}, \frac{5}{3})$都是合理的解。哪一个更合理？因此应该有一种圆满的利益分配方法。

这类问题称为n人合作对策。L.S.Shapley在1953年给出了解决该问题的一种方法，称为Shapley值法。

二、数学抽象

下面先给出合作对策的一般模型。记 $I=\{1,2,...,n\}$ 为n个合作人的集合。若对于 $I$ 的任何子集 $\subseteq I$

都有一个实数v(s)与之对应，且满足下列条件：

$v(\varnothing) = 0$ ，其中 $\varnothing$ 为空集。
对于任意两个不交子集 $s_1,s_2 \in I$ ，都有$v(s_1 \cup s_2 )\ge v(s_1)+v(s_2) $，则称 v (s) 为定义在$ I$上的一个特征函数。

在实际问题中， $v (s)$ 就是各种联盟的获利，而第二个条件表明任何情况下合作至少总比单干或者小团体的合作来得有利。

合作对策就是需要确定每个人获得的利益 $\varphi_i(v)$ ，或者对全体成员来讲就是向量 $\varphi(v)=(\varphi_1(v),\varphi_2(v),\varphi_3(v)...)$

在合作优于单干的前提下，各种联盟中需要确定每个人的利益也就是确定 $\varphi$ 向量,以实现确定最公平的联盟组合以及利益方式

按照前例的分析，我们知道合理的分配需要满足 $\sum_{i\in s} \varphi_i(v) \ge v(s)$ 当 $s = I$ 时等号成立

这个式子从上面的例子中很好理解，每个人确定的利益之和要大于所有可能的联盟组合的利益，就如上面例子中所有组合都是 $\ge$ 一样，当 $s = I$ 等号成立就是上面例子的 $x_1+x_2+x_3=10$

其实，到这里也只是一个抽象上的数学总结，并没有给出限制（与上面例子一样），满足这样的条件结果还是有很多

三、Shapley公理

Shapley给出了一组对策应满足的公理，并证明了在这些公理下合作对策是唯一的。

对称性
设 $\pi$ 是 $I=\{1,2,…,n\}$ 的一个序列，对于 $I$ 的任意子集 $s = \{i_1,i_2,i_3,...,i_n\}$ ,有 $\pi s = \{\pi i_1,...,\pi i_n\}$ 。若在定义特征函数 $w(s)=v(\pi s)$ ,则对于每个 $i\in I$ 都有 $\varphi_i(w)=\varphi_{\pi i}(v)$

$\varphi_i(w) = \varphi_i(v(\pi s)) = \varphi_i(v(\pi)v(s)) = \varphi_{\pi i}(v(s))= \varphi_{\pi i}(v)$

这表示合作获利的分配不随每个人在合作中的记号或次序变化。
有效性
合作各方获利总和等于合作获利： $\sum_{i\in s} \varphi_i(v) = v(I)$

上面的抽象中的大于只有在 $\subset I$ 的情况下产生，计算出各个节点的Shapley值最终的和应该与总体联盟的总利益相等，否则无效
冗员性
若对于包含成员i的所有子集s都有 $v(s / \{i\} )= v(s)$ 则 $\varphi_i(v)=0$ ，其中 $s / \{i\}$ 为集合s去掉元素i后的集合

这说明如果一个成员对于任何他参与的合作联盟都没有贡献，则他不应当从全体合作中获利。
可加性
若在 $I$ 上有两个特征函数 $v_1,v_2$ ，则有 $\varphi(v_1+v_2)=\varphi(v_1)+\varphi(v_2)$ ,

**这表明有多种合作时，每种合作的利益分配方式与其他合作结果无关。**例如对于i来说对于两次合作S1、S2分别计算个人收益之和与两次合作总收益之和再计算个人收益之和是相同的

Shapley证明了满足这四条公理的 $\varphi(v)$ 是唯一的（主要证明的就是有效性），并且公式为：

$\varphi_i(v)=\sum_{s\in S_i}w(|s|)[v(s)-v(s/\{i\})]$

其中， $S_i$ 是 $I$ 中包含成员i的所有子集形成的集合， $∣ s ∣$ 是集合S元素个数， $w (∣ s ∣)$ 是加权因子且有

$w(|s|)=\frac{(|s|-1)!(n-|s|)!}{n!}$

四、公式推导

边际贡献

$v(s)-v(s/\{i\})$ 是成员i在参与合作s中的贡献也叫做边际贡献（marginal contribution），边际贡献是考察是否公平的主要考量，先不考虑权重 $\sum_{s\in S_i}[v(s)-v(s/\{i\})]$ 这部分就代表了对于i来说自己对于所有包含自己的S合作中自己的边际贡献，如果再乘上每一个S中对应的权重那么就构成了i的Shapley值

权重

从公式中可以看出：权重的计算只与合作s集合的大小有关，而合作s的大小就是代表着几方合作

现在对于i，计算其Shapley公式中的权重：

我们画出权重分配树：

根节点代表当前对象即i，也对应着树第一层
第二层代表合作人数/几方合作
例如1方合作就是只有i一个人，两方合作例如i和s中其他一个人，图中的标号就表示是几方合作
对于大于1方的合作其孩子即分支的数量计算由排列组合可轻松得知，例如两方合作，一个确定一定是i了，剩下一个人就一定从 $(n - 1)$ 中选择一个(n表示总参与人数即 $∣ I ∣$ ), 所有的可能就是 $C_{n-1}^1$ , 其他同理
第三层是叶子节点，由叶子到根就代表合作s的人员组成，例如图中{1,2}

那么怎么计算权重呢，Shapley采用了平均的方法：

按分支平均，第一层到第二层共有n个分支，所以每个分支的权重为 $\frac{1}{n}$

第二层到第三层的分支数要分开讨论，对于合作人数1来说就是1即 $C_{n-1}^0$ ，对于合作人数2来说其分支数为 $C_{n-1}^1$ 所以每个分支的平均权重为 $\frac{1}{C_{n-1}^1}$ ，剩下的同理

现在对于每个叶子节点也就是每一种包含i的合作s，权重的计算就很明确了，例如叶子 ${1,2\}$ 其权重就是： $\frac{1}{n} * \frac{1}{C_{n-1}^1} = \frac{1}{nC_{n-1}^1}$

那么，我们回归到函数 $w (∣ s ∣)$ , 我们需要计算出这样的通式来表示这个函数，不难写出每个分支权重的通式：

$\frac{1}{n} * \frac{1}{C_{n-1}^{|s|-1}}$

上式通过化简就可以推导出 $w (∣ s ∣)$ 的函数了：

五、例子助理解

对于上面的问题一，下面就可以计算出来了：

此外，知乎上也有大佬给出了一个详细的例子，可以加大理解程度：

已知：

v({1})=100,v({2})=125,v({3})=50

v({1,2})=270,v({2,3})=350,v({1,3})=375

v({1,2,3})=500

则计算过程可用图标画出：

则各个节点/代理的Shapley值为：

chcasT

从这里可以看出，计算Shapley的值其实过程可以大致概括为：在 $n!$ 次全排列中计算节点的边际贡献的平均值

六、各种角度理解公式

Shapley值是各种各样具有不同良好性质的解中最重要的一种，它将成本或者收益按照所有的边际成本进行分摊,即每个参与人获得的利益等于参与人对所有联盟的边际贡献的平均值

Shapley是满足匿名性、有效性、可加性和虚拟性四个性质的唯一的解

不同的思考角度都可以得出上述的权重计算公式，列举如下：

从构造联盟角度-总体平等性
（这里的s就是 $∣ s ∣$ ）
这里最终的结果与我们上文讨论的结果一样，但是思考的方式不同

重点突出：每个随机排序的概率相等，保持总体平等性
从联盟内外平等性角度-平均加权
这就是上面介绍的shapley值权重计算的主要思路，结果都是一样的

所有规模出现的概率是相同的，相同的规模中每一个联盟的概率是相同的
从联盟中参与人贡献平等性的角度-平等贡献性
贡献的平等性（不是贡献值的平等性）