博弈论基础-蒋文华（浙大）

目录

一. 博弈论概述

二. 基本假设

三. 囚徒困境

四. 万元陷阱和智猪博弈

五. 懦夫博弈和性别战

六. 混合策略和监督博弈

七. 最后通牒与讨价还价

八. 重复博弈与制度建设

一. 博弈论概述
1. 博弈：在一定的游戏规则约束下，基于直接相互作用，各参与人依据掌握的信息，选择各自的策略（行动），以实现利益最大化的过程
- 1.1 直接相互作用也就是各参与人之间的互动
- 1.2 行为的选择：与对手的情况（如：强、弱）有关，与外部环境的变化（如：对参与人威胁程度的高、低）有关；博弈既可以是竞争，也可以是合作
- 1.3 由于互动，每人的得益不仅取决于自己的策略，还取决于别人的策略。博弈的核心：整体思维基础上的理性换位思考，用他人的得益（预期的结果）来推测他人的策略（为获得该结果采取的行动），从而选择最有利于自己的策略
- 1.4 策略：参与者在行动前准备的完整行动方案（预案）
  - 1.4.1 策略具有完整性、多样性、不可观察性
  - 1.4.2 好的应急预案：信息分类，责任到人，措施具体，时效性
  - 1.4.3 策略让我们建立起了从信息到行动的快速反应机制，从而能够以最快的速度做出行动选择
  - 1.4.4 三十六计中的每一计只是具体的行动，而如何基于信息进行选择才是策略
- 1.5 均衡（equilibrium）：所有参与者的最优策略组合。参与者无法通过改变自己的策略来获得更多的收益（即，参与者不会再做出改变）
- 1.6 规则：参与者（谁能参加）、行动（能采取什么行动）和结果（如何进行评判）合起来称为博弈的规则
2. 注
- 2.1 博弈，只需领先一步，高人一筹。有的时候，过犹不及
- 2.2 不要在一个充分竞争的市场去追求成功。进入门槛越低的市场，最终可获得的收益越低。无论采取何种手段，暴富的几率都很小
- 2.3 选对市场（对手）比选对策略更重要。如：炒股VS炒房
- 2.4 在博弈之前，博弈就已经开始了。在博弈之前，先评估一下胜算的概率
3. 博弈论：一种研究人们怎么进行策略选择以及最终均衡结果是什么的理论
4. 博弈分类
- 4.1 合作博弈和非合作博弈
  - 4.1.1 合作博弈：参与者能够达成一种具有约束力的协议（合作），在协议范围内选择有利于双方的策略
  - 4.1.2 非合作博弈：参与者无法达成这种协议
- 4.2 静态博弈和动态博弈
  - 4.2.1 静态博弈：在博弈中，参与者同时选择，或虽非同时选择，但是在逻辑时间上是同时的
  - 4.2.2 非静态博弈：在博弈中，参与者行动有先后顺序，且后行动者能观察到先行动者的行动
- 4.3 完全信息博弈和不完全信息博弈
  - 4.3.1 完全信息博弈：在博弈中，每个参与者都准确知道其他参与者的信息，如参与者的类型、策略空间和损益函数
  - 4.3.2 非完全信息博弈：在博弈中，总有一些信息不是所有参与者都知道的（信息不对称）
- 4.4 零和博弈与非零和博弈
  - 4.4.1 零和博弈：博弈后的损益总和与博弈前的损益总和相等。如：无抽水麻将
  - 4.4.2 非零和博弈：博弈后的损益总和不等于（大于/小于）博弈前的损益总和（正和/负和）。如：有抽水麻将（负和）、股市（负和）、彩票（负和）

静态

动态

完全信息

完全信息静态博弈

纳什均衡

完全信息动态博弈

子博弈精炼纳什均衡

不完全信息

不完全信息静态博弈

贝叶斯纳什均衡

不完全信息动态博弈

精炼贝叶斯纳什均衡

二. 基本假设
1. 理性假设
- 1.1 认知理性：人是自我利益的判断者——具有一定的偏好
  - 1.1.1 偏好的完备性：A>B, A~B, A<B
  - 1.1.2 偏好的传递性：A>B, B>C, A>C
  - 1.1.3 中庸之道：若A~B, C=(A+B)/2, 则C>A, C>B
- 1.2 行为理性：人是自我利益的追求者——追求利益最大化
  - 1.2.1 两利相权取其重，两害相权取其轻
  - 1.2.2 做决策时需要有依据（参照）
  - 1.2.3 如果不给对方你的两利让其相权，则对方很可能会把你的一利和他人的一利相权，最终放弃你（多做选择题，少做判断题）
  - 1.2.4 不能给对方太多的选项（2~3个选项）；给对方的几个选项必须有明显的区别
2. 共同知识假设（common knowledge）：各参与者在无穷递归意义上均知悉的事实。即每个人知道事件E，每个人知道每个人知道事件E，一直到无穷层
- 2.1 达成共识是一件非常困难的事。所有人都知道一件事还不够，还要所有人都知道所有人都知道这件事...无穷递归
- 2.2 共识的作用：通过共识以及一些人的个人信息，可以推测出其他人的个人信息（“黑脸”之谜）
- 2.3 在信息不对称的情况下，有时候博弈的结果不取决于大家是怎么想的，而取决于大家认为大家是怎么想的（“皇帝的新衣”）
三. 囚徒困境
1. 游戏的规则决定游戏的结局。游戏结果与事实真相是无关的，而是基于游戏规则选择对自己有利的行为
2. 囚犯困境的定义及原因分析
- 2.1 一般条件下的囚徒困境
  - 2.1.1 双方都有占有策略
  - 2.1.2 存在一个合作解，使双方的收益都优于其在占优策略均衡下的收益。如果双方选择合作，就能得到更好地结果
- 2.2 原因
  - 2.2.1 表面上看，囚犯对自身利益的追求是导致囚犯困境的原因；实际上，真正的原因是，囚犯们在追求自身利益的同时，以更多的损害他人的利益为代价
  - 2.2.2 根本原因：私人成本与社会成本的差异，即个人行为的负外部性。
- 2.3 如果有一种制度，在该制度下，每个人都只能通过利人才能实现利己的目标，这一定是一种好的制度。（市场的逻辑）
3. 如何解决囚徒困境
- 3.1 道德教化：减少完全利己主义的比例，增加利他主义的占比
- 3.2 制度建设（财产私有）：每个人为自己的行为负责，多劳多得，少劳少得
- 3.3 温故知新：让历史告诉未来（重复博弈）；学习博弈论
四. 万元陷阱和智猪博弈
1. 万元陷阱
- 1.1 掉入陷阱的人通常有两种动机：
  - 1.1.1 经济（理性）的动机：渴望赢钱，想赢回损失，想避免更多的损失等；
  - 1.1.2 非经济（感性）的动机：渴望挽回面子，证明自己是最好的玩家，惩罚对手等
- 1.2 对策
  - 1.2.1 确立投入的极限及预先的约定，例如投资多少钱或多少时间
  - 1.2.2 极限一经确立，就要坚持到底（止损）。一定要学会及时止损
  - 1.2.3 自己打定主意，不必看别人
- 1.3 补充对策
  - 1.3.1 不要指望能够以很低的价格买入。（绞刑架）在可竞争市场中，很难出现长久的暴利
  - 1.3.2 尽快传递“势在必得”的信号。破釜沉舟，让别人知难而退
  - 1.3.3 只争馒头不争气，没了馒头终断气。（务实，不要意气用事）人与人之间的博弈是靠实力取胜的。计谋只能取得某一场战争的胜利，而最终的胜利靠的是实力
  - 1.3.4 高瞻远瞩，深谋远虑。（三思而后行）
- 1.4 抢占成本的最低点，就是抢占胜利的制高点
2. 智猪博弈（多劳未必多得）
- 1.1 这是一个搭便车的博弈。一方付出了相应的代价，双方共享了所得到的收益
- 1.2 启发
  - 1.2.1 个体理性与集体理性相冲突/相一致，取决于制度安排（游戏规则）
  - 1.2.2 解决个体理性与集体理性之间的冲突不是靠否定个体理性，而是靠修改制度（游戏规则），从而在满足个体理性的基础上实现集体理性
  - 1.2.3 从智猪博弈中还可发现，在净收益>0时，任一方付出代价都是集体理性的选择。而收入分配的不均将有助于减少个体理性与集体理性的冲突
五. 懦夫博弈和性别战
1. 懦夫博弈（竞争关系）
- 1.1 斗鸡博弈：均衡的结果是，一方进，另一方退
- 1.2 鹰鸽博弈
  - 1.2.1 当A>C时，都采取老鹰的策略时均衡的结果
  - 1.2.2 当A<C时，双方采取老鹰策略的概率p=A/C时，是均衡的结果
  - 1.2.3 推论：当A增加时，双方更可能采取老鹰的策略；当C增加时，双方更可能采取鸽子的策略
- 1.3 赢者通吃的行业，容易出现过度竞争
- 1.4 竞技体育很多时候就是个万元陷阱，除非它本身就能给你带来快乐
2. 公共物品
- 2.1 公共物品的特点：非排他性，非竞争性
- 2.2 谁来提供：囚犯困境（需要由政府提供），智猪博弈，斗鸡博弈
3. 性别战（合作关系）
- 3.1 均衡的结果：同进或者同退
4. 扩展分析
- 4.1 农户的产品选择（规模与合作）：一定种植规模内，合作更好；当规模超过本地区容量，农户种植不同类别的作物更好
- 4.2 休假制度（团聚与旅游）：以旅游为目的，分开休假；以团聚为目的，集中休假
- 4.3 有效需求（长尾理论）
5. 均衡的存在性和多重性
- 5.1 存在性定理：每一个有限博弈至少存在一个纳什均衡（纯战略的或者混合战略的）
- 5.2 多重性（“聚点”均衡）
  - 5.2.1 文化、历史（接人）
  - 5.2.2 道德（出门）：老弱病残优先
  - 5.2.3 法律（右行，斑马线）：车与人的均衡（车让人）
六. 混合策略和监督博弈
1. 混合策略
- 1.1 纯策略：参与者在每一个给定信息情况下只选择一种特定的行动（混合策略的特例）
- 1.2 混合策略：参与者在给定信息情况下以某种概率分布随机地选择不同的行动
- 1.3 石头剪刀布制胜策略（人的本能反应，胜留败走）
  - 1.3.1 如果你是输家，下一轮使用能打败对手的出手
  - 1.3.2 如果你是赢家，下一轮不要再使用原来的出手
- 1.4 游戏玩久了，赚钱就难了。达到了一种均衡的状态
- 1.5 能够降低协调成本的制度（技术），是一种更好的制度（技术）。如从交警向红绿灯的转变
2. 监督博弈
- 2.1 混合策略纳什均衡
  - 2.1.1 微分法
  - 2.1.2 运用均衡的理念
  - 2.1.3 达到均衡时：雇主检查的概率H/(W+F)，雇员偷懒的概率C/(W+F)
- 2.2 推论
  - 2.2.1 劳动成本H越大，雇主越容易检查
  - 2.2.2 监督成本C越大，雇员越容易偷懒
  - 2.2.3 员工薪水W越大，雇员越少偷懒，雇主越少检查
  - 2.2.4 初始押金F越大，雇员越少偷懒，雇主越少检查
- 2.3 收益
  - 2.3.1 雇主的预期收益：V-W-VC/(W+F)。当雇主降低监督成本C时，可以获得更多的收益。（V：雇员贡献）
  - 2.3.2 当雇主支付的工资W=(CV)^(1/2)-F时，雇主的受益最大。此时雇主的期望收益是：T=V-2(CV)^(1/2)+F
  - 2.3.3 员工的期望收益：T=W-H
  - 2.3.4 双方总的期望收益：T总=V-H-CV/(W+F)。当W=(CV)^(1/2)-F时，双方总的期望收益是T总=V-H-(CV)^(1/2)
- 2.4 推论
  - 2.4.1 雇主的期望收益会随着F的增大而增大
  - 2.4.2 雇员的期望收益会随着F的增大而减小
  - 2.4.3 总的期望收益与支付的工资W和抵押金F的大小无关，只和雇员贡献V、雇员劳动成本H以及监督成本C有关
七. 最后通牒与讨价还价
1. 最后通牒
- 1.1 最后通牒博弈
  - 1.1.1 两人分一笔总量固定的钱，一人提出方案，另外一人表决
  - 1.1.2 如果表决的人同意，那么就按提出的方案来分
  - 1.1.3 如果不同意的话，两人将一无所有
- 1.2 Note
  - 1.2.1 一个没有信仰的人很难理解一个有信仰的人思维和行为
  - 1.2.2 人与人之间最根本的冲突是价值观的冲突
  - 1.2.3 越是成熟的组织（社会），在管理中越多的运用最后通牒博弈
  - 1.2.4 最后通牒一方面可以节省大量的谈判成本，另一方面还可以给人以公平感
  - 1.2.5 决定出价高低的是：贪婪与恐惧
- 1.3 权力的基础（分配权的归属）
  - 1.3.1 随机：拼运气
  - 1.3.2 智力测试：拼能力
  - 1.3.3 职务提升制度直接影响组织的管理效率。尽可能建立基于绩效和能力的提升制度，并坚持公开竞争性原则
  - 1.3.4 谁承担决策的后果，谁负责决策
2. 独裁者博弈
- 2.1 博弈设计
  - 2.1.1 两人一组分100元，提议者提出分配方案，分给响应者X元，自己留（100-X）元
  - 1.1.2 无论响应者同意与否，提议者都将获得自己的（100-X）元
- 2.2 拿走全部钱的人很少，大部分人会选择分一些钱给响应者（因为他们站在响应者的角度想，也希望能分到钱），只不过这个钱数要少于最后通牒中的钱数
- 2.3 三个道理
  - 2.3.1 人们在决定其行动时，并不会仅仅考虑经济利益。虽然这可能是最主要的一个考量，他们也会考虑一些道德和社会规范，比如公平原则，“己所不欲，勿施于人”
  - 2.3.2 一个社会如果在制度安排上能给人民更多可以拒绝的权利，那么这个社会就会产生更多的公平性，甚至会带来更多的效率改善
  - 2.3.3 一个社会在制度安排上给了机构（官员）更多可以拒绝的权力（比如行政审批制度），那么拥有审批权的机构，一定能从中获利丰厚（如社会抚养费）
3. 讨价还价
- 3.1 也称为议价或者谈判，主要是指参与者通过协商方式解决利益纠纷的分配问题
  - 3.1.1 称为讨价还价时，主要强调其动作或者过程
  - 3.1.2 称为谈判时，强调其状态或结果
- 3.2 均衡解
  - 3.2.1 用X表示参与者1所得的份额，（1-X）为参与者2所得的份额，Xi和（1-Xi）分别是时期i时两参与者各自所得的的份额
  - 3.2.2 假定两个参与者的贴现因子（把未来的钱换算成现在的钱，乘算。由于时间成本，0<贴现因子<1）分别是 $\delta_{1}$ 和 $\delta_{2}$ 。一般而言，越有“耐心”的人贴现因子越大
  - 3.2.3 这样，如果博弈在时期t结束：参与者1支付的贴现值： $W_{1}=\delta_{1}^{t-1}X_{t}$ ；参与者2支付的贴现值： $W_{2}=\delta_{2}^{t-1}(1-X_{t})$
  - 3.2.4 双方经过无限期博弈后，得到的纳什均衡解为：参与者1获得的份额 $X^{*}=(1-\delta_{2})/(1-\delta_{1}\delta_{2})$
  - 3.2.5 当 $\delta _{1}=\delta _{2}=\delta$ 时， $X^{*}=1/(1+\delta )>1/2$ 。说明参与者1占有更多的份额，即先动优势
  - 3.2.6 当参与者1更有耐心，即 $\delta _{1}=1, \delta _{2}<1$ 时， $X^{*}=1$ ，参与者1占所有份额
  - 3.2.7 当参与者2更有耐心，即 $\delta _{2}=1, \delta _{1}<1$ 时， $X^{*}=0$ ，参与者2占所有份额
  - 3.2.8 在讨价还价中，总能找到一个均衡解
4 贴现因子
- 4.1 一个人对眼前利益和长远利益的比较（贴现因子）有哪些因素决定？
  - 4.1.1 寿命：寿命越长，约看重长远利益
  - 4.1.2 财富：财富越少，越看重眼前利益（远水解不了近渴）
  - 4.1.3 未来收益的确定性：未来收入是有不确定性的，不确定性越大，越看重眼前利益。这就强调了法治社会的重要性，鼓励人们进行长远投资
  - 4.1.4 文化程度：文化程度越高，越看重长远利益
- 4.2 组织相比于个人有更长的生命预期，因此提高了人们的贴现因子
八. 重复博弈与制度建设
1. 重复博弈
- 1.1 定义：同样结构的博弈重复许多次，其中的每次博弈称为“阶段博弈”
- 1.2 重复博弈是动态博弈中的重要内容，它可以是完全信息的博弈，也可以是不完全信息的博弈
- 1.3 特点
  - 1.3.1 前一阶段的博弈不改变后一阶段的博弈结构
  - 1.3.2 所有参与人都能观测到博弈过去的历史
  - 1.3.3 参与者的总收益是所有阶段损益的贴现值之和
- 1.4 策略（以囚徒困境为例）
  - 1.4.1 雷锋策略：在重复博弈中，总是选择合作。则，对手很可能选择背叛，从而获得最大收益
  - 1.4.2 曹操策略：在重复博弈中，总是选择背叛。则，对手必然选择背叛
  - 1.4.3 冷酷策略：又称为触发策略。一开始选择合作，若对方选择合作，则第二次继续合作；若某一阶段对方选择背叛，则从此以后都选择背叛
  - 1.4.4 心软策略：一开始选择合作，若对方只有一次背叛，则依然选择合作（给对方改正的机会）；若对方连续两次背叛，则从此以后都选择背叛
  - 1.4.5 针锋相对（Tit for tat，一报还一报）：除第一次以外，每一次都保持和对方上一次的选择一致
  - 1.4.6 人鬼策略：（对人说人话，对鬼说鬼话）看对方过去所有的行为，若合作较多，则选择合作；若背叛较多，则选择背叛
  - 1.4.7 欺软怕硬：又叫检验者战略。第一回合背叛，若对方选择合作，则继续背叛；若对方选择背叛，则之后选择合作（用于对付心软策略）
  - 1.4.8 镇定者策略：先建立信任关系，然后想办法占小便宜
  - 1.4.9 精神病患者：又称为醉汉策略，随机地选择合作或者背叛。选择该策略的人的特点是不知好歹，所以对方必然选择曹操策略，总是背叛
2. 一报还一报
- 2.1 一报还一报的四个特点
  - 2.1.1 它是善良的（第一次选择合作）（不树敌）：防止陷入非合作的麻烦中
  - 2.1.2 它是可激怒的（防背叛）：保证对方背叛行为的谨慎性
  - 2.1.3 它是宽容的（给机会）：有助于在对方背叛后重新开始合作
  - 2.1.4 它是清晰的（易辨识）：简单清晰的规则易于被人理解，从而导出长期的合作。人们更愿意和容易被了解的人合作，所以不要给别人自己高深莫测的印象
- 2.2 四点忠告
  - 2.2.1 不要嫉妒：无论采取何种策略，最终得分不可能比一报还一报高
  - 2.2.2 不要首先背叛
  - 2.2.3 对合作和背叛都要给与汇报
  - 2.2.4 不要刷小聪明
- 2.3 两点启示
  - 2.3.1 合作的基础不是信任，而是关系的持续性
  - 2.3.2 组织相比于个人，往往具有更长的预期寿命，从而提高了关系的持续性
3. 冷酷策略
- 3.1 对方选择不合作的总收益R=5
- 3.2 对方选择持续合作的总收益R=3+3+3+...+3+...；考虑贴现因子 $R=3+3\delta +3\delta ^{2}+...+3\delta ^{n}\approx 3/(1-\delta )$
- 3.3 $\delta$ 的另一层含义是下一次合作的可能性
- 3.4 如何处理噪音？（偶然性的背叛）
  - 3.4.1 宽容。若对方一直选择合作，但突然背叛，则宽容对方，选择继续合作
  - 3.4.2 悔悟。由于过失选择背叛，导致对方选择了背叛，这时自己应该继续选择合作，而不是背叛
  - 3.4.3 噪音频率低（0.1~1）时，悔悟比宽容表现好
  - 3.4.4 噪音频率高（1~10）时，宽容比悔悟好
  - 3.4.5 噪音导致原谅，但是太多的原谅会被利用。所以应该宽严相济
4. 制度建设
- 4.1 要改变一个现象，就要改变人们的行为；而要改变人们的行为，就要不断完善制度
- 4.2 不要去责备人的利己心。如果一种利己行为导致了恶劣的后果，要改变的是制度
- 4.3 优秀的管理者不是要消灭人的利己心，而是要充分利用人的利己心。利己心既能让人去杀人，也能让人去助人；既能让人说谎，也能让人说真话