博弈论笔记


前言

博弈模型,占优策略,纯纳什平衡,混合策略的纳什平衡,斯塔克伯格平衡,协同问题,特殊博弈,马尔科夫博弈,强化学习

一、博弈模型

一个博弈模型包括:
玩家集合
策略收益
效用函数

效用函数的目的是用来更准确的描述模型,将玩家的偏好关系(大于小于等于)用具体是实数体现,方便之后的运算。(感兴趣的同学了解一下圣彼得堡悖论)效用函数如何更准确的描述模型呢?例如,同样是100万,在穷人眼里很重要,即期望效用很高;但是在亿万富翁眼中,可能就没那么重要。这时候,就需要用一个凹函数来描述效用函数。

下图是效用函数与偏好关系的联系:
在这里插入图片描述

囚徒问题

在这里插入图片描述
玩家集合{P1,P2}
策略集合{C(合作:cooperation),B(背叛:btray)}
收益函数:{0y,1y,2y,3y}(被判处0年,1年,3年,6年)

基于囚徒问题的基本假设:
1.囚徒们同时决策
2.囚徒们已知策略集合和收益函数
3.囚徒们都是,理性的

注意:这里对理性的解释:理性是指玩家要符合完备性和传递性
completeness:任何两个选择摆在玩家面前,玩家总能作出一个选择。
transitivety:如果玩家喜欢a比喜欢b多,喜欢b比喜欢c多;那么玩家一点喜欢a比喜欢c多。

二,基于囚徒问题的博弈策略1

占优策略(Dominate Strategy)
(分为强占优策略和弱占优策略)

解释:不管对方的决策是什么,我的决策都是最好的。
例如囚徒们的效用矩阵如下:
在这里插入图片描述
不管P1选择C还是B,P2选B都是占优策略。因为当P1=C,对于P2的效用10>8;当P1=B,对于P2的效用5>0。
同理,P1选B也是占优策略。
所以,如果双方都是理性的,那么最后结果会收敛到(5,5)

而且!对于P1,因为效用10>8,5>0。所以称B是强占优策略。
同理,对于P2的效用:10>8,5>0。所以B也是P2的强占优策略。

其他情况则为弱占优策略

对于严格劣策略(强占优策略):代表其他所有策略总是比这个策略更优秀,它永远不会成为最优回应best reply
在任何情况下总有别的策略更好,因此,我们把严格劣策略从博弈中剔除
重复迭代的意思是:我们剔除它们,得到了一个更简单的博弈,然后再做同样的事情。现在可能又有了一些策略是严格劣势的,在这个简化的博弈中博弈者永远不会采取它们,因此我们再把它们剔除,循环反复,最后给我们了一些预测。当博弈者理性 他们也认识到其他博弈者理性时是合乎逻辑的结果 ,这些策略就会在这个子博弈中。
进行这个过程的术语称作严格劣策略重复剔除(Iterated elimination)

三, 基于囚徒问题的博弈策略2

纳什均衡(Nash Equibrium)
解释:双方都处于最佳应对策略。
如图,(5,5)是一个纳什平衡
在这里插入图片描述

注意:不是所以的博弈都存在纳什平衡;有的博弈存在多个纳什平衡。

而如下图所示,在这个效用矩阵中,没有纳什平衡
在这里插入图片描述

而在,如下图所示的效用矩阵中,则有多个纳什平衡
在这里插入图片描述

另外,用Iterated elimination反复消除强占优策略时,不会消除纳什平衡;但反复消除弱占优策略时,有可能删除纳什平衡。

四,混合策略的纳什平衡

混合策略可以看成一种随机选择,例如,如果你重复囚徒问题,并且每次都用相同的方法去玩,那么结果就会变得可预测。
混合策略的每一个小单位就是一个符合彩票。而二,三节中的策略单位成为简单彩票
对于符合彩票的期望效用来说,它有三个公理:单调性,连续性,独立性。
在这里插入图片描述
在这里插入图片描述

对于任意一个博弈,必定存在一个混合策略的纳什平衡
案例和解法详见博客链接
要看,是重点!

(以下为拓展内容)

五,Stackelberg平衡

如果改变囚徒问题的假设1:囚徒们同时做出决定。
变成囚徒们作出决定时存在先后顺序。
在这种情况下的纳什平衡称为Stackelberg平衡

六,协同问题

存在多个纳什平衡的情况下,如何选择的问题称为协同问题。
协同问题的解决方法一般是人为的制定规则:比如制定通讯机制或者社会规则等等

七,特殊博弈

特殊博弈分为合作博弈和竞争博弈
合作博弈(cooperation Game)追求所以玩家收益均等
竞争博弈(competitive Game)要求玩家收益之和固定,例如经典的零和博弈

八,马尔科夫博弈

在这里插入图片描述
增加了状态集合和转移函数,即相对于之前的博弈,增加了环境因素,玩家的决策要考虑实时的环境因素,而且对于对手和自己的效用函数可能也是未知的。在这种情况下,优化博弈的算法称为强化学习

九,强化学习

解释:在一定环境下,做收益最大化的学习。
学习目标一般有以下几个:
1.追求纳什平衡
2.最求


总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

猜你喜欢

转载自blog.csdn.net/qq_39297053/article/details/109324868