博弈论基本常识

博弈论基本常识

一、前言

博弈论作为生活中的技巧和理论基础学科中的基本知识，对我们的生活影响越来越大，特别是在很多论文（比如通信，资源分配）中都是用了博弈论的相关知识，因此博弈论的作用越来越重要。

二、简单实例

2.1、囚徒困境

对于A来说，若B坦白，则A肯定会选择坦白的，因为5<10，若B不坦白，则A照样会选择坦白的，因为0<2。

对于B来说，若A坦白，则B肯定会选择坦白的，因为5<10，若A不坦白，则B照样会选择坦白的，因为0<2。

因此，双方考虑对方的策略，而做出的最终决策就是A和B都坦白，每个人都坐5年的牢，因此（5,5）为纳什均衡点，这显然是一个困境，因为如果A,B都选择不坦白只用坐2年牢。

2.2、修改的囚徒困境

扫描二维码关注公众号，回复： 1612281 查看本文章

对于A来说，若B坦白，则A肯定会选择不坦白，因为0<5，若B不坦白，则A照样会选择不坦白，因为2<10。

对于B来说，若A坦白，则B肯定会选择不坦白，因为0<5，若A不坦白，则B照样会选择坦白的，因为2<10。

可以看到我们将条件做一定的修改，这样就是鼓励不坦白了，因为对于A,B来说，不坦白不判刑或判得轻，坦白了有可能会判10年刑，最低也是五年，因此都不会坦白的，这样（2,2）反而是纳什均衡点了。

2.3、斗鸡博弈

对于公鸡甲来说，如果公鸡乙选择进攻，则公鸡甲会选择退却，因为-1>-2，退却损失的总比进攻的少；如果公鸡乙选择退却，公鸡甲会选择进攻，因为1>-1。

对于公鸡乙来说，如果公鸡甲选择进攻，则公鸡乙会选择退却，因为-1>-2，退却损失的总比进攻的少；如果公鸡甲选择退却，公鸡乙会选择进攻，因为1>-1。

因此，甲乙就会你退我进，我进你退，正如毛主席说的，“敌进我退，敌疲我打”很类似，但是区别还是有的。这样就会出现两个纳什均衡点了，（-1,1）和（1，-1），当纳什均衡点大于一个的时候，我们就不知道怎么决策了，或者说就不能确定到底要怎样决策了，最好的办法是根据实际情况来分类讨论，选择最佳的策略，比如说古巴导弹危机，最终两者都选择了退让；武则天执政，有效释放信息，恩威并施。

2.4、智猪博弈

这个很有意思，如图所示，猪圈里有大猪和小猪，在左边是食槽，右边是开关，要想吃上食物，则必须有一只猪去踩开关，而此时没踩开关的猪就可以提前吃到食物，并且不用费来回奔跑的能量消耗，当然大猪和小猪的食量不一样，来回消耗的能量假设相同。

对于大猪来说，如果小猪不按按钮，则大猪必定会按按钮，因为4>0；如果小猪按按钮，则大猪选择不按按钮，因为9>5；

对于小猪来说，如果大猪不按按钮，则小猪必定不按按钮，因为0>-1；如果大猪按按钮，则小猪必定不按按钮，因为4>1；

因此，无论大猪如何选择，小猪必定不按按钮，这样小猪的收益才会最大，而大猪因为小猪不按按钮，则大猪必定会按按钮，有总比没有好，因此纳什均衡点为（4,4）。在经济学中称小猪为搭便车的人。比如新产品上市，做宣传的肯定是大公司，而小公司也得到了宣传的收益，比如“一个和尚挑水喝，两个和尚抬水喝，三个和尚，没水喝”。

如果改变游戏规则，将食量减少一半，则大猪和小猪都不会去按按钮了，因为按按钮的收益都为负数；如果将投食量增加一倍，则大猪和小猪都会去按按钮，因为大猪和小猪都不可能一次性把食物吃完，但是实际上成本增高，容易造成浪费，竞争不激烈；如果将食量减少到原来的一半，并且将食槽和按钮的距离减少一半，这样“减量+移位”的方案使得大猪和小猪争先恐后的按按钮，等待的不得食，多劳多得，少劳少得，成本也不高，收益也最大，是最优的决策，如上图所示，有（1.5,2.5）和（3.5，0.5）两个纳什均衡点，比如我们的按劳分配制度。

2.5.枪手博弈

“优未必胜，劣未必汰”。假设三人不能连射，一次只能发一个子弹。

同时开枪：在第一轮中，枪手甲肯定会找对自己威胁最大的乙来开枪；同样的对于枪手乙，肯定知道枪手甲要干掉自己，自己也想干掉甲，于是乙对甲开枪；对于枪手丙来说也会对甲开枪，因为枪手甲对自己的威胁最大，与乙合作来对甲开枪。低于丙来说，第一轮肯定属于优势，但是第二轮自己就处于绝对的劣势了，因为如果还有第二轮（甲乙有一个活着或者都活着），自己第一次对甲开了枪，有可能甲会不顾后果的干掉自己，如果只甲乙只有一方活着，丙都会处于绝对的劣势。实力不强的人通过一定的策略在短期内能够获得一定的胜利在最后拼实力的时候就不行了。

改变策略，轮流开枪：假设顺序为甲乙丙，第一轮肯定甲向乙开枪，若击中乙，下一轮丙开枪，否则下一轮乙向甲开枪，最终都能轮到丙开枪（丙的暂时存活率是100%）。假设顺序是乙甲丙，则第一轮乙向甲开枪，击中之后，轮到丙开枪，否则第二轮甲向乙开枪，最终丙能保证100%的暂时存活率。因此丙的机会好于自身的实力。假设枪手丙先开枪，如果丙先向甲开枪，则下一轮乙就会向自己开枪，同样对于乙也是，因此丙的最好决策就是“发空枪”，坐山观虎斗，这样下一轮就是甲乙之争了。因此在生活中，乙和丙往往结成同盟，来对付甲。

在生活中，最能体现枪手博弈的，就是三国演义中的赤壁之战，当时曹操最强，东吴次之，刘备最弱。刘备最好的策略是与东吴联合，东吴必定积极对战，刘备也得到了发展的机会，最后曹操失败，败走华容道，关羽截住曹操，如果此时关羽杀了曹操，则只有东吴和刘备，刘备必然会被干掉，因此此时还不能杀曹操，于是诸葛亮将关羽派去阻拦曹操，最终放走了曹操，最后刘备得到了发展，未入驻四川奠定了条件。

另一个例子是，南宋，金国和蒙古之间的博弈，这是一个失败的博弈，蒙古当时最强，金国次之，南宋最弱。蒙古打算向南宋借道一起伐金，南宋当政者竟然同意了，于是将金国消灭，于是南宋的灭亡成为了必然，本来还是可以苟延残喘的。

三、博弈论基本概念

3.1、基本组成

参与人（players)：博弈中决策主体的集合：什么人参与博弈？每个人是什么角色？
行动（actions): 每个人有些什么样行动可以选择？在什么时候行动？
信息(information)：在博弈中的知识；每个人知道些什么（包括特征、行动等）？
战略（strategies)：行动计划；每个人有什么战略可供选择？战略的完备性；

支付（payoffs)：每个人在不同战略组合下得到些什么？依赖于所有参与人的选择；
均衡（equilibrium)：所有参与人最优战略的组合；
结果（outcomes)：我们所感兴趣的东西。

3.2、相关术语
    占优均衡：如果一个人的最优选择并不依赖于他人的选择，这样的最优战略，被称为“占优战略”(dominant strategy)。由所有参与人的占优战略构成的战略组合被称为“占优均衡”。占优战略均衡的出现只要求所有人都是理性的，但不要求每个参与人知道其他参与人是否理性。比如囚徒困境博弈有占优均衡，所以其结果很容易预测。
    纳什均衡：所有参与人的最优战略的组合：给定该战略中别人的选择，没有人有积极性改变自己的选择。
    一致预期：基于信念的选择是合理的；支持选择的信念是正确的；
    预期的自我实现：如何所有人认为这个结果会出现，这个结果就会出现。预期是自我实现的，预期不会错误。如果你认为我预期你将选择X，你就真的会选择X。
    帕累托最优均衡：可以通过协商选择一个纳什均衡；cheap talking；

事前（ex ante)和事后(ex post)：一种战略所规定的行动在事前看来是最优的，但事后看并不是当事人的最优选择，这种行动就不可置信，该战略就不是一个合理的战略。

精炼纳什均衡（perfect NE)：不包含不可置信的行动的战略所组成的纳什均衡被称为“精炼纳什均衡”；也就是说，不论过去发生了什么，构成精炼纳什均衡的战略，其所规定的行动在每一个决策点上都是最优的。所以，又称为“序惯均衡”(sequential equilibrium);
首先必须是“纳什均衡”，但并非所有纳什均衡都是合理的；只有其战略不包含不可置信行动的纳什均衡才是合理的。（1）在原博弈是一个纳什均衡；（2）在每一个子博弈上都是纳什均衡。
均衡路径与非均衡路径：精炼纳什均衡下所经过的决策点和最优选择构成的路径，称为均衡路径（equilibrium path);其他的路径是非均衡路径（off-equilibrium path);均衡结果依赖于非均衡路径上的选择。精炼纳什均衡的合理性取决于理性共识的合理性。

在动态博弈中，行动总有先后顺序。有些博弈具有先动优势(first-mover advantage),但有些博弈具有后动优势(second-mover advantage).

承诺：是将不可置信的威胁变成可置信的威胁的行动：威胁不仅是事前最优的，也是事后最优的。承诺意味着限制自己的自由：选择少反而对自己好。如“破釜沉舟”，围城战略。

猜你喜欢