博弈论基础-蒋文华(浙大)

  • 目录

    一. 博弈论概述

    二. 基本假设

    三. 囚徒困境

    四. 万元陷阱和智猪博弈

    五. 懦夫博弈和性别战

    六. 混合策略和监督博弈

    七. 最后通牒与讨价还价

    八. 重复博弈与制度建设


    一. 博弈论概述

  • 1. 博弈:在一定的游戏规则约束下,基于直接相互作用,各参与人依据掌握的信息,选择各自的策略(行动),以实现利益最大化的过程
    • 1.1 直接相互作用也就是各参与人之间的互动 
    • 1.2 行为的选择:与对手的情况(如:强、弱)有关,与外部环境的变化(如:对参与人威胁程度的高、低)有关;博弈既可以是竞争,也可以是合作 
    • 1.3 由于互动,每人的得益不仅取决于自己的策略,还取决于别人的策略。博弈的核心:整体思维基础上的理性换位思考,用他人的得益(预期的结果)来推测他人的策略(为获得该结果采取的行动),从而选择最有利于自己的策略
    • 1.4 策略:参与者在行动前准备的完整行动方案(预案
      • 1.4.1 策略具有完整性、多样性、不可观察性
      • 1.4.2 好的应急预案:信息分类,责任到人,措施具体,时效性
      • 1.4.3 策略让我们建立起了从信息行动的快速反应机制,从而能够以最快的速度做出行动选择
      • 1.4.4 三十六计中的每一计只是具体的行动,而如何基于信息进行选择才是策略
    • 1.5 均衡(equilibrium):所有参与者的最优策略组合。参与者无法通过改变自己的策略来获得更多的收益(即,参与者不会再做出改变)
    • 1.6 规则:参与者(谁能参加)、行动(能采取什么行动)和结果(如何进行评判)合起来称为博弈的规则
  • 2. 注
    • 2.1 博弈,只需领先一步,高人一筹。有的时候,过犹不及  
    • 2.2 不要在一个充分竞争的市场去追求成功。进入门槛越低的市场,最终可获得的收益越低。无论采取何种手段,暴富的几率都很小
    • 2.3 选对市场(对手)比选对策略更重要。 如:炒股VS炒房
    • 2.4 在博弈之前,博弈就已经开始了。在博弈之前,先评估一下胜算的概率
  • 3. 博弈论:一种研究人们怎么进行策略选择以及最终均衡结果是什么的理论
  • 4. 博弈分类
    • 4.1 合作博弈和非合作博弈
      • 4.1.1 合作博弈:参与者能够达成一种具有约束力的协议(合作),在协议范围内选择有利于双方的策略
      • 4.1.2 非合作博弈:参与者无法达成这种协议 
    • 4.2 静态博弈和动态博弈
      • 4.2.1 静态博弈:在博弈中,参与者同时选择,或虽非同时选择,但是在逻辑时间上是同时的
      • 4.2.2 非静态博弈:在博弈中,参与者行动有先后顺序,且后行动者能观察到先行动者的行动
    • 4.3 完全信息博弈和不完全信息博弈
      • 4.3.1 完全信息博弈:在博弈中,每个参与者都准确知道其他参与者的信息,如参与者的类型、策略空间和损益函数
      • 4.3.2 非完全信息博弈:在博弈中,总有一些信息不是所有参与者都知道的(信息不对称)
    • 4.4 零和博弈与非零和博弈
      • 4.4.1 零和博弈:博弈后的损益总和与博弈前的损益总和相等。如:无抽水麻将
      • 4.4.2 非零和博弈:博弈后的损益总和不等于(大于/小于)博弈前的损益总和(正和/负和)。如:有抽水麻将(负和)、股市(负和)、彩票(负和)
静态 动态
完全信息

完全信息静态博弈

纳什均衡

完全信息动态博弈

子博弈精炼纳什均衡

不完全信息

不完全信息静态博弈

贝叶斯纳什均衡

不完全信息动态博弈

精炼贝叶斯纳什均衡

  • 二. 基本假设

  • 1. 理性假设
    • 1.1 认知理性:人是自我利益的判断者——具有一定的偏好
      • 1.1.1 偏好的完备性:A>B, A~B, A<B
      • 1.1.2 偏好的传递性:A>B, B>C, A>C
      • 1.1.3 中庸之道:若A~B, C=(A+B)/2, 则C>A, C>B  
    • 1.2 行为理性:人是自我利益的追求者——追求利益最大化
      • 1.2.1 两利相权取其重,两害相权取其轻
      • 1.2.2 做决策时需要有依据(参照)
      • 1.2.3 如果不给对方你的两利让其相权,则对方很可能会把你的一利和他人的一利相权,最终放弃你(多做选择题,少做判断题)
      • 1.2.4 不能给对方太多的选项(2~3个选项);给对方的几个选项必须有明显的区别
  • 2. 共同知识假设(common knowledge):各参与者在无穷递归意义上均知悉的事实。即每个人知道事件E,每个人知道每个人知道事件E,一直到无穷层
    • 2.1 达成共识是一件非常困难的事。所有人都知道一件事还不够,还要所有人都知道所有人都知道这件事...无穷递归
    • 2.2 共识的作用:通过共识以及一些人的个人信息,可以推测出其他人的个人信息(“黑脸”之谜)
    • 2.3  在信息不对称的情况下,有时候博弈的结果不取决于大家是怎么想的,而取决于大家认为大家是怎么想的(“皇帝的新衣”)
  • 三. 囚徒困境

  • 1. 游戏的规则决定游戏的结局。游戏结果与事实真相是无关的,而是基于游戏规则选择对自己有利的行为
  • 2. 囚犯困境的定义及原因分析
    • 2.1 一般条件下的囚徒困境
      • 2.1.1 双方都有占有策略
      • 2.1.2 存在一个合作解,使双方的收益都优于其在占优策略均衡下的收益。如果双方选择合作,就能得到更好地结果
    • 2.2 原因
      • 2.2.1 表面上看,囚犯对自身利益的追求是导致囚犯困境的原因;实际上,真正的原因是,囚犯们在追求自身利益的同时,以更多的损害他人的利益为代价 
      • 2.2.2 根本原因:私人成本与社会成本的差异,即个人行为的负外部性。 
    • 2.3 如果有一种制度,在该制度下,每个人都只能通过利人才能实现利己的目标,这一定是一种好的制度。(市场的逻辑) 
  • 3.  如何解决囚徒困境
    • 3.1 道德教化:减少完全利己主义的比例,增加利他主义的占比
    • 3.2 制度建设(财产私有):每个人为自己的行为负责,多劳多得,少劳少得
    • 3.3 温故知新:让历史告诉未来(重复博弈);学习博弈论
  • 四. 万元陷阱和智猪博弈

  • 1. 万元陷阱
    • 1.1 掉入陷阱的人通常有两种动机:
      • 1.1.1 经济(理性)的动机:渴望赢钱,想赢回损失,想避免更多的损失等;
      • 1.1.2 非经济(感性)的动机:渴望挽回面子,证明自己是最好的玩家,惩罚对手等
    • 1.2 对策
      • 1.2.1 确立投入的极限及预先的约定,例如投资多少钱或多少时间
      • 1.2.2 极限一经确立,就要坚持到底(止损)。一定要学会及时止损
      • 1.2.3 自己打定主意,不必看别人
    • 1.3 补充对策
      • 1.3.1 不要指望能够以很低的价格买入。(绞刑架)在可竞争市场中,很难出现长久的暴利
      • 1.3.2 尽快传递“势在必得”的信号。破釜沉舟,让别人知难而退
      • 1.3.3 只争馒头不争气,没了馒头终断气。(务实,不要意气用事 )人与人之间的博弈是靠实力取胜的。计谋只能取得某一场战争的胜利,而最终的胜利靠的是实力
      • 1.3.4 高瞻远瞩,深谋远虑。(三思而后行)
    • 1.4 抢占成本的最低点,就是抢占胜利的制高点
  • 2. 智猪博弈(多劳未必多得)
    • 1.1 这是一个搭便车的博弈。一方付出了相应的代价,双方共享了所得到的收益
    • 1.2 启发
      • 1.2.1 个体理性与集体理性相冲突/相一致,取决于制度安排(游戏规则)
      • 1.2.2 解决个体理性与集体理性之间的冲突不是靠否定个体理性,而是靠修改制度(游戏规则),从而在满足个体理性的基础上实现集体理性
      • 1.2.3 从智猪博弈中还可发现,在净收益>0时,任一方付出代价都是集体理性的选择。而收入分配的不均将有助于减少个体理性与集体理性的冲突
  • 五. 懦夫博弈和性别战

  • 1. 懦夫博弈(竞争关系)
    • 1.1 斗鸡博弈:均衡的结果是,一方进,另一方退
    • 1.2 鹰鸽博弈
      • 1.2.1 当A>C时,都采取老鹰的策略时均衡的结果
      • 1.2.2 当A<C时,双方采取老鹰策略的概率p=A/C时,是均衡的结果
      • 1.2.3 推论:当A增加时,双方更可能采取老鹰的策略;当C增加时,双方更可能采取鸽子的策略
    • 1.3 赢者通吃的行业,容易出现过度竞争
    • 1.4 竞技体育很多时候就是个万元陷阱,除非它本身就能给你带来快乐
  • 2. 公共物品
    • 2.1 公共物品的特点:非排他性,非竞争性
    • 2.2 谁来提供:囚犯困境(需要由政府提供), 智猪博弈,斗鸡博弈
  • 3. 性别战(合作关系)
    • 3.1 均衡的结果:同进或者同退
  • 4. 扩展分析
    • 4.1 农户的产品选择(规模与合作):一定种植规模内,合作更好;当规模超过本地区容量,农户种植不同类别的作物更好
    • 4.2 休假制度(团聚与旅游):以旅游为目的,分开休假;以团聚为目的,集中休假
    • 4.3 有效需求(长尾理论)
  • 5. 均衡的存在性和多重性
    • 5.1 存在性定理:每一个有限博弈至少存在一个纳什均衡(纯战略的或者混合战略的)
    • 5.2 多重性(“聚点”均衡 )
      • 5.2.1 文化、历 史(接人)
      • 5.2.2 道德(出门):老弱病残优先
      • 5.2.3 法律(右行,斑马线):车与人的均衡(车让人)
  • 六. 混合策略和监督博弈

  • 1. 混合策略
    • 1.1 纯策略:参与者在每一个给定信息情况下只选择一种特定的行动(混合策略的特例)
    • 1.2 混合策略:参与者在给定信息情况下以某种概率分布随机地选择不同的行动
    • 1.3 石头剪刀布制胜策略(人的本能反应,胜留败走)
      • 1.3.1 如果你是输家,下一轮使用能打败对手的出手
      • 1.3.2 如果你是赢家,下一轮不要再使用原来的出手
    • 1.4 游戏玩久了,赚钱就难了。达到了一种均衡的状态
    • 1.5 能够降低协调成本的制度(技术),是一种更好的制度(技术)。如从交警向红绿灯的转变
  • 2. 监督博弈
    • 2.1 混合策略纳什均衡
      • 2.1.1 微分法
      • 2.1.2 运用均衡的理念
      • 2.1.3 达到均衡时:雇主检查的概率H/(W+F),雇员偷懒的概率C/(W+F)
    • 2.2 推论
      • 2.2.1 劳动成本H越大,雇主越容易检查
      • 2.2.2 监督成本C越大,雇员越容易偷懒
      • 2.2.3 员工薪水W越大,雇员越少偷懒,雇主越少检查
      • 2.2.4 初始押金F越大,雇员越少偷懒,雇主越少检查
    • 2.3 收益
      • 2.3.1 雇主的预期收益:V-W-VC/(W+F)。当雇主降低监督成本C时,可以获得更多的收益。(V:雇员贡献)
      • 2.3.2 当雇主支付的工资W=(CV)^(1/2)-F时,雇主的受益最大。此时雇主的期望收益是:T=V-2(CV)^(1/2)+F
      • 2.3.3 员工的期望收益:T=W-H
      • 2.3.4 双方总的期望收益:T总=V-H-CV/(W+F)。当W=(CV)^(1/2)-F时,双方总的期望收益是T总=V-H-(CV)^(1/2)
    • 2.4 推论
      • 2.4.1 雇主的期望收益会随着F的增大而增大 
      • 2.4.2 雇员的期望收益会随着F的增大而减小
      • 2.4.3 总的期望收益与支付的工资W和抵押金F的大小无关,只和雇员贡献V、雇员劳动成本H以及监督成本C有关
  • 七. 最后通牒与讨价还价

  • 1. 最后通牒
    • 1.1 最后通牒博弈
      • 1.1.1 两人分一笔总量固定的钱,一人提出方案,另外一人表决
      • 1.1.2 如果表决的人同意,那么就按提出的方案来分
      • 1.1.3 如果不同意的话,两人将一无所有
    • 1.2 Note
      • 1.2.1 一个没有信仰的人很难理解一个有信仰的人思维和行为
      • 1.2.2 人与人之间最根本的冲突是价值观的冲突
      • 1.2.3 越是成熟的组织(社会),在管理中越多的运用最后通牒博弈
      • 1.2.4 最后通牒一方面可以节省大量的谈判成本,另一方面还可以给人以公平感
      • 1.2.5 决定出价高低的是:贪婪与恐惧
    • 1.3 权力的基础(分配权的归属)
      • 1.3.1 随机:拼运气
      • 1.3.2 智力测试:拼能力
      • 1.3.3 职务提升制度直接影响组织的管理效率。尽可能建立基于绩效和能力的提升制度,并坚持公开竞争性原则
      • 1.3.4 谁承担决策的后果,谁负责决策
  • 2. 独裁者博弈
    • 2.1 博弈设计
      • 2.1.1 两人一组分100元,提议者提出分配方案,分给响应者X元,自己留(100-X)元
      • 1.1.2 无论响应者同意与否,提议者都将获得自己的(100-X)元
    • 2.2 拿走全部钱的人很少,大部分人会选择分一些钱给响应者(因为他们站在响应者的角度想,也希望能分到钱),只不过这个钱数要少于最后通牒中的钱数
    • 2.3 三个道理
      • 2.3.1 人们在决定其行动时,并不会仅仅考虑经济利益。虽然这可能是最主要的一个考量,他们也会考虑一些道德和社会规范,比如公平原则,“己所不欲,勿施于人”
      • 2.3.2 一个社会如果在制度安排上能给人民更多可以拒绝的权利,那么这个社会就会产生更多的公平性,甚至会带来更多的效率改善
      • 2.3.3 一个社会在制度安排上给了机构(官员)更多可以拒绝的权力(比如行政审批制度),那么拥有审批权的机构,一定能从中获利丰厚(如社会抚养费)
  • 3. 讨价还价
    • 3.1 也称为议价或者谈判,主要是指参与者通过协商方式解决利益纠纷的分配问题
      • 3.1.1 称为讨价还价时,主要强调其动作或者过程
      • 3.1.2 称为谈判时,强调其状态或结果
    • 3.2 均衡解
      • 3.2.1 用X表示参与者1所得的份额,(1-X)为参与者2所得的份额,Xi和(1-Xi)分别是时期i时两参与者各自所得的的份额
      • 3.2.2 假定两个参与者的贴现因子(把未来的钱换算成现在的钱,乘算。由于时间成本,0<贴现因子<1)分别是\delta_{1}\delta_{2}。一般而言,越有“耐心”的人贴现因子越大
      • 3.2.3 这样,如果博弈在时期t结束:参与者1支付的贴现值:W_{1}=\delta_{1}^{t-1}X_{t};参与者2支付的贴现值:W_{2}=\delta_{2}^{t-1}(1-X_{t})
      • 3.2.4 双方经过无限期博弈后,得到的纳什均衡解为:参与者1获得的份额 X^{*}=(1-\delta_{2})/(1-\delta_{1}\delta_{2})
      • 3.2.5 当\delta _{1}=\delta _{2}=\delta时,X^{*}=1/(1+\delta )>1/2。说明参与者1占有更多的份额,即先动优势
      • 3.2.6 当参与者1更有耐心,即\delta _{1}=1, \delta _{2}<1时,X^{*}=1,参与者1占所有份额
      • 3.2.7 当参与者2更有耐心,即\delta _{2}=1, \delta _{1}<1时,X^{*}=0,参与者2占所有份额
      • 3.2.8 在讨价还价中,总能找到一个均衡解
  • 4 贴现因子
    • 4.1 一个人对眼前利益和长远利益的比较(贴现因子)有哪些因素决定?
      • 4.1.1 寿命:寿命越长,约看重长远利益
      • 4.1.2 财富:财富越少,越看重眼前利益(远水解不了近渴)
      • 4.1.3 未来收益的确定性:未来收入是有不确定性的,不确定性越大,越看重眼前利益。这就强调了法治社会的重要性,鼓励人们进行长远投资
      • 4.1.4 文化程度:文化程度越高,越看重长远利益
    • 4.2 组织相比于个人有更长的生命预期,因此提高了人们的贴现因子
  • 八. 重复博弈与制度建设

  • 1. 重复博弈
    • 1.1 定义:同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”
    • 1.2 重复博弈是动态博弈中的重要内容,它可以是完全信息的博弈,也可以是不完全信息的博弈
    • 1.3 特点
      • 1.3.1 前一阶段的博弈不改变后一阶段的博弈结构
      • 1.3.2 所有参与人都能观测到博弈过去的历史
      • 1.3.3 参与者的总收益是所有阶段损益的贴现值之和
    • 1.4 策略(以囚徒困境为例)
      • 1.4.1 雷锋策略:在重复博弈中,总是选择合作。则,对手很可能选择背叛,从而获得最大收益
      • 1.4.2 曹操策略:在重复博弈中,总是选择背叛。则,对手必然选择背叛
      • 1.4.3 冷酷策略:又称为触发策略。一开始选择合作,若对方选择合作,则第二次继续合作;若某一阶段对方选择背叛,则从此以后都选择背叛
      • 1.4.4 心软策略:一开始选择合作,若对方只有一次背叛,则依然选择合作(给对方改正的机会);若对方连续两次背叛,则从此以后都选择背叛
      • 1.4.5 针锋相对(Tit for tat,一报还一报):除第一次以外,每一次都保持和对方上一次的选择一致
      • 1.4.6 人鬼策略:(对人说人话,对鬼说鬼话)看对方过去所有的行为,若合作较多,则选择合作;若背叛较多,则选择背叛
      • 1.4.7 欺软怕硬:又叫检验者战略。第一回合背叛,若对方选择合作,则继续背叛;若对方选择背叛,则之后选择合作(用于对付心软策略)
      • 1.4.8 镇定者策略:先建立信任关系,然后想办法占小便宜
      • 1.4.9 精神病患者:又称为醉汉策略,随机地选择合作或者背叛。选择该策略的人的特点是不知好歹,所以对方必然选择曹操策略,总是背叛
  • 2. 一报还一报
    • 2.1 一报还一报的四个特点
      • 2.1.1 它是善良的(第一次选择合作)(不树敌):防止陷入非合作的麻烦中
      • 2.1.2 它是可激怒的(防背叛):保证对方背叛行为的谨慎性
      • 2.1.3 它是宽容的(给机会):有助于在对方背叛后重新开始合作
      • 2.1.4 它是清晰的(易辨识):简单清晰的规则易于被人理解,从而导出长期的合作。人们更愿意和容易被了解的人合作,所以不要给别人自己高深莫测的印象
    • 2.2 四点忠告
      • 2.2.1 不要嫉妒:无论采取何种策略,最终得分不可能比一报还一报高
      • 2.2.2 不要首先背叛
      • 2.2.3 对合作和背叛都要给与汇报
      • 2.2.4 不要刷小聪明
    • 2.3 两点启示
      • 2.3.1 合作的基础不是信任,而是关系的持续性
      • 2.3.2 组织相比于个人,往往具有更长的预期寿命,从而提高了关系的持续性
  • 3. 冷酷策略
    • 3.1 对方选择不合作的总收益R=5
    • 3.2 对方选择持续合作的总收益R=3+3+3+...+3+...;考虑贴现因子R=3+3\delta +3\delta ^{2}+...+3\delta ^{n}\approx 3/(1-\delta )
    • 3.3  \delta的另一层含义是下一次合作的可能性 
    • 3.4 如何处理噪音?(偶然性的背叛)
      • 3.4.1 宽容。若对方一直选择合作,但突然背叛,则宽容对方,选择继续合作
      • 3.4.2 悔悟。由于过失选择背叛,导致对方选择了背叛,这时自己应该继续选择合作,而不是背叛
      • 3.4.3 噪音频率低(0.1~1)时,悔悟比宽容表现好
      • 3.4.4 噪音频率高(1~10)时,宽容比悔悟好
      • 3.4.5 噪音导致原谅,但是太多的原谅会被利用。所以应该宽严相济
  • 4. 制度建设
    • 4.1 要改变一个现象,就要改变人们的行为;而要改变人们的行为,就要不断完善制度
    • 4.2 不要去责备人的利己心。如果一种利己行为导致了恶劣的后果,要改变的是制度
    • 4.3 优秀的管理者不是要消灭人的利己心,而是要充分利用人的利己心。利己心既能让人去杀人,也能让人去助人;既能让人说谎,也能让人说真话

猜你喜欢

转载自blog.csdn.net/qq_44681809/article/details/112763184
今日推荐