囚徒困境

       囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。以下是实现一般形式的其中一例:
有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:
· 一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
· 二人都合作:各得3分(合作报酬)。
· 二人都背叛:各得1分(背叛惩罚)。
支付矩阵表格展示支付如下(以红和蓝分别表示二参与者):


一般形式囚徒困境的支付矩阵
以“T、R、P、S”符号表示
以“胜-负”术语表示
 
合作
背叛
 
合作
背叛
 
合作
背叛
合作
3, 3
0, 5
合作
R, R
S, T
合作
胜-胜
大负-大胜
背叛
5, 0
1, 1
背叛
T, S
P, P
背叛
大胜-大负
负-负
简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表
符号
分数
英文
中文(非术语)
解释
T
5
Temptation
背叛诱惑
单独背叛成功所得。
R
3
Reward
合作报酬
共同合作所得
P
1
Punishment
背叛惩罚
共同背叛所得
S
0
Suckers
受骗支付
被单独背叛所获
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式
T>R>P>S
(解:从5>3>1>0获得以上不等式)
若以整体获分而言,将得出以下不等式
2R>T+S或2R>2P
(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。)
复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特(侯世达)创建的。

猜你喜欢

转载自tianyalublog.iteye.com/blog/2024648
今日推荐