强化学习之决策论——笔记

因为 a 先走   b 跟在后边,一人一步。

第一步:a 在状态1中可以选择 左和右 。

第二步:然后该 b走了 b可以选择 状态2的  左,中,右 。

第三步:又轮到a 可以选择 状态4的 左和右。  

所以 a 的策略有 4个 ,b的策略有3个。

把策略的可能写成一个矩阵。 如a在状态1走左,b在状态2走右,得分为7. 

游戏规则是:

a和b分别是两个玩家。 每个玩家都想得到最高的分数,

每个叶子节点是a的分数,b的分数是a的相反数。也就是说 a的分数是7 b的分数就是-7. 因此 b的目的是让a的分数最低。

于是两个玩家进行博弈。因为这是一场 零和博弈(两人的分数相加为0,也是说一个人得分,另一个就减分)。因为每个人都是理智的,他们都为了追求自己的最大利益,分数会向中间平衡。最终博弈的结果是 红色的方块。

猜你喜欢

转载自www.cnblogs.com/HL-blog/p/9078613.html
今日推荐